¿Cómo se traduce la antigua escritura palmirena de una lápida romana? ¿Cuántos tendones pares sostiene un hueso sesamoideo específico en un colibrí? ¿Puedes identificar sílabas cerradas en hebreo bíblico basándote en los últimos estudios sobre las tradiciones de pronunciación tiberiana?
Estas son algunas de las preguntas de “El último examen de la humanidad”, un nuevo punto de referencia introducido en un estudio publicado esta semana en Nature. La colección de 2,500 preguntas está diseñada específicamente para explorar los límites de lo que los sistemas de inteligencia artificial (IA) actuales no pueden hacer.
El punto de referencia representa una colaboración global de casi 1,000 expertos internacionales de diversos campos académicos. Estos académicos e investigadores aportaron preguntas en la frontera del conocimiento humano. Los problemas requerían experiencia de posgrado en matemáticas, física, química, biología, informática y humanidades. Es importante destacar que cada pregunta se probó con los principales modelos de IA antes de su inclusión. Si una IA podía responderla correctamente en el momento de su diseño, la pregunta era rechazada.
Este proceso explica por qué los resultados iniciales fueron tan diferentes a los de otros benchmarks. Si bien los chatbots de IA obtienen puntuaciones superiores al 90% en pruebas populares, cuando se lanzó Humanity’s Last Exam a principios de 2025, los modelos líderes tuvieron serias dificultades. GPT-4o logró una precisión de tan solo el 2.7 %. Claude 3.5 Sonnet obtuvo un 4.1 %. Incluso el modelo más potente de OpenAI, o1, solo alcanzó el 8%.
Las bajas puntuaciones eran el objetivo. El benchmark se construyó para medir lo que quedaba fuera del alcance de la IA. Y aunque algunos analistas han sugerido que benchmarks como Humanity’s Last Exam trazan un camino hacia la inteligencia artificial general, o incluso la superinteligencia (es decir, sistemas de IA capaces de realizar cualquier tarea a niveles humanos o superhumanos), creemos que esto es erróneo por tres razones.
Los puntos de referencia miden el desempeño de las tareas, no la inteligencia
Cuando un estudiante obtiene una buena puntuación en el examen de abogacía, podemos predecir razonablemente que se convertirá en un abogado competente. Esto se debe a que la prueba se diseñó para evaluar si los humanos adquirieron los conocimientos y las habilidades de razonamiento necesarios para el ejercicio de la abogacía, y para los humanos, eso funciona. La comprensión necesaria para aprobar realmente se aplica al trabajo.
Pero los sistemas de IA no son humanos preparándose para una carrera profesional.
Cuando un modelo lingüístico grande obtiene una buena puntuación en el examen de abogacía, nos indica que el modelo puede producir respuestas aparentemente correctas a preguntas legales. No nos indica que el modelo comprenda el derecho, que pueda asesorar a un cliente nervioso o que ejerza un juicio profesional en situaciones ambiguas.
La prueba mide algo real para los humanos; para la IA, solo mide el desempeño en la propia prueba.
Utilizar pruebas de capacidad humana para comparar la IA es una práctica común, pero es fundamentalmente engañoso. Asumir que una puntuación alta en la prueba significa que la máquina se ha vuelto más parecida a la humana es un error de categoría, similar a concluir que una calculadora “entiende” las matemáticas porque puede resolver ecuaciones más rápido que cualquier persona.
La inteligencia humana y la inteligencia artificial son fundamentalmente diferentes.
Los humanos aprendemos continuamente de la experiencia. Tenemos intenciones, necesidades y objetivos. Vivimos, habitamos cuerpos y experimentamos el mundo directamente. Nuestra inteligencia evolucionó para contribuir a nuestra supervivencia como organismos y a nuestro éxito como criaturas sociales.
Pero los sistemas de IA son muy diferentes.
Los grandes modelos lingüísticos obtienen sus capacidades de patrones en el texto durante el entrenamiento. Pero en realidad no aprenden.
Para los humanos, la inteligencia es lo primero y el lenguaje sirve como herramienta de comunicación; la inteligencia es prelingüística. Pero para los grandes modelos lingüísticos, el lenguaje es la inteligencia; no hay nada subyacente.
Incluso los creadores de El Último Examen de la Humanidad reconocen esta limitación:
Una alta precisión en (El Último Examen de la Humanidad) demostraría un rendimiento experto en preguntas cerradas y verificables, así como conocimiento científico de vanguardia, pero no sugeriría por sí sola capacidades de investigación autónoma ni inteligencia artificial general. Subbarao Kambhampati, profesor de la Universidad Estatal de Arizona y expresidente de la Asociación para el Avance de la Inteligencia Artificial, lo expresa con mayor claridad:
La esencia de la humanidad no se refleja en una prueba estática, sino en nuestra capacidad de evolucionar y abordar cuestiones antes inimaginables.
A los desarrolladores les gustan las tablas de clasificación
Existe otro problema. Los desarrolladores de IA utilizan puntos de referencia para optimizar el rendimiento de sus modelos en las tablas de clasificación. Básicamente, están estudiando a toda prisa para el examen. Y a diferencia de los humanos, para quienes el aprendizaje para el examen genera comprensión, la optimización de la IA simplemente significa mejorar en el examen específico.
Pero funciona.
Desde que se publicó en línea “El Último Examen de la Humanidad” a principios de 2025, las puntuaciones aumentaron drásticamente. Gemini 3 Pro Preview ahora encabeza la tabla de clasificación con un 38.3% de precisión, seguido de GPT-5 con un 25.3% y Grok 4 con un 24.5%.
¿Significa esta mejora que estos modelos se están acercando a la inteligencia humana? No. Significa que mejoraron en el tipo de preguntas que contiene el examen. El punto de referencia se convirtió en un objetivo para optimizar.
La industria está reconociendo este problema.
OpenAI introdujo recientemente una medida llamada GDPval, diseñada específicamente para evaluar la utilidad en el mundo real.
A diferencia de los benchmarks académicos, GDPval se centra en tareas basadas en productos de trabajo reales, como documentos de proyectos, análisis de datos y entregables existentes en entornos profesionales.
Qué significa esto para ti
Si utilizas herramientas de IA en tu trabajo o estás considerando adoptarlas, no te dejes influenciar por las puntuaciones de los benchmarks. Un modelo que supere el Último Examen de la Humanidad podría tener dificultades con las tareas específicas que necesitas realizar.
También cabe destacar que las preguntas del examen están muy sesgadas hacia ciertas áreas. Las matemáticas por sí solas representan el 41% del benchmark, mientras que la física, la biología y la informática constituyen gran parte del resto. Si tu trabajo implica redacción, comunicación, gestión de proyectos o atención al cliente, el examen no te dice prácticamente nada sobre qué modelo podría ser más adecuado para ti.
Un enfoque práctico es diseñar tus propias pruebas basándote en lo que realmente necesitas que haga la IA y luego evaluar los modelos más nuevos según los criterios que te interesen. Los sistemas de IA son realmente útiles, pero cualquier debate sobre la superinteligencia sigue siendo ciencia ficción y una distracción del verdadero trabajo de hacer que estas herramientas sean relevantes para la vida de las personas.
Fuente: The Conversation
























































