Expertos en inteligencia artificial preparan el 'último examen de la humanidad' para dejar perplejas a las grandes tecnológicas

johnseptiembre 16, 2024

5 3 minutos de lectura

Un equipo de expertos en tecnología lanzó el lunes un llamado global en busca de las preguntas más difíciles para plantear a los sistemas de inteligencia artificial, que cada vez más han manejado pruebas de referencia populares como si fueran un juego de niños.

El proyecto, denominado “El último examen de la humanidad”, busca determinar cuándo ha llegado la inteligencia artificial de nivel experto. Su objetivo es seguir siendo relevante incluso a medida que las capacidades avancen en los próximos años, según los organizadores, una organización sin fines de lucro llamada Center for AI Safety (CAIS) y la empresa emergente Scale AI.

El llamado llega días después de que el creador de ChatGPT presentara una vista previa de un nuevo modelo, conocido como OpenAI o1, que «destruyó los puntos de referencia de razonamiento más populares», dijo Dan Hendrycks, director ejecutivo de CAIS y asesor de la startup xAI de Elon Musk.

Hendrycks fue coautor de dos artículos de 2021 que proponían pruebas de sistemas de IA que ahora se utilizan ampliamente: uno de ellos los interrogaba sobre conocimientos de nivel universitario de temas como la historia de Estados Unidos, y el otro sobre la capacidad de los modelos para razonar a través de matemáticas de nivel competitivo. La prueba de estilo universitario tiene más descargas del centro de inteligencia artificial en línea Hugging Face que cualquier otro conjunto de datos de este tipo.

En el momento de la publicación de esos artículos, la inteligencia artificial daba respuestas casi aleatorias a las preguntas de los exámenes. “Ahora están aplastadas”, dijo Hendrycks a Reuters.

Por ejemplo, los modelos Claude del laboratorio de inteligencia artificial Anthropic pasaron de obtener un puntaje de alrededor del 77 % en la prueba de nivel universitario en 2023 a casi el 89 % un año después, según una importante tabla de clasificación de capacidades.

Como resultado, estos puntos de referencia comunes tienen menos significado.

Según el informe de abril de la Universidad de Stanford sobre el índice de inteligencia artificial, la IA parece haber obtenido malos resultados en pruebas menos utilizadas que implican la formulación de planes y rompecabezas de reconocimiento de patrones visuales. Por ejemplo, OpenAI o1 obtuvo alrededor del 21 % en una versión de la prueba de reconocimiento de patrones ARC-AGI, dijeron el viernes los organizadores de ARC.

Algunos investigadores de IA sostienen que resultados como este demuestran que la planificación y el razonamiento abstracto son mejores medidas de inteligencia, aunque Hendrycks dijo que el aspecto visual de ARC lo hace menos adecuado para evaluar modelos de lenguaje. “El último examen de la humanidad” requerirá razonamiento abstracto, dijo.

Los observadores de la industria también han dicho que las respuestas de los puntos de referencia comunes podrían haber terminado en los datos utilizados para entrenar a los sistemas de IA. Hendrycks dijo que algunas preguntas del “Último examen de la humanidad” seguirán siendo privadas para asegurarse de que las respuestas de los sistemas de IA no sean fruto de la memorización.

El examen incluirá al menos 1000 preguntas de colaboración colectiva que deberán presentarse el 1 de noviembre y que son difíciles de responder para los no expertos. Estas preguntas se someterán a una revisión por pares y a los ganadores se les ofrecerá la posibilidad de participar en coautoría y recibir premios de hasta 5000 dólares patrocinados por Scale AI.

«Necesitamos desesperadamente pruebas más difíciles para los modelos de nivel experto para medir el rápido progreso de la IA», dijo Alexandr Wang, CEO de Scale.

Una restricción: los organizadores no quieren preguntas sobre armas, que según algunos serían demasiado peligrosas para que la IA las estudiara.

(Esta es una historia sin editar y generada automáticamente a partir de un servicio de noticias sindicado. Blog de Nueva York Es posible que el personal no haya cambiado ni editado el texto del contenido).