La investigación de Apple ha revelado graves fallos en la capacidad de la inteligencia artificial para pensar de forma lógica

Según un estudio recientemente publicado, el equipo de investigación de inteligencia artificial de Apple ha descubierto graves deficiencias en la capacidad de razonamiento de grandes modelos de lenguaje.


lectura, Publicado en arXivdescribe la evaluación de Apple de varios modelos de lenguaje líderes, incluidos OpenAI, Meta y otros desarrolladores conocidos, para determinar qué tan bien estos modelos realizan tareas de razonamiento matemático. Los hallazgos muestran que incluso pequeños cambios en la redacción de las preguntas pueden provocar grandes diferencias en el rendimiento del modelo, lo que puede socavar su confiabilidad en escenarios que requieren coherencia lógica.

Apple llama la atención sobre un problema persistente con los modelos de lenguaje: su dependencia de la coincidencia de patrones en lugar de la lógica real. En varias pruebas, los investigadores han demostrado que agregar información irrelevante a una pregunta (detalles que no deberían afectar el resultado matemático) puede conducir a respuestas muy diferentes a las de los modelos.

Un ejemplo dado en el artículo involucra un problema matemático simple en el que una persona recolecta cuántos kiwis en unos pocos días. Cuando se incluyeron detalles triviales sobre el tamaño de algunos kiwis, modelos como el o1 de OpenAI y el Llama de Meta calibraron mal el total final, aunque la información adicional no afectó la solución.

No encontramos evidencia de razonamiento formal en los modelos de lenguaje. Su comportamiento se explica mejor mediante una coincidencia de patrones compleja, tan sutil que, de hecho, cambiar los nombres puede cambiar los resultados en aproximadamente un 10%.

Esta fragilidad en el razonamiento ha llevado a los investigadores a concluir que los modelos no utilizan la lógica real para resolver problemas, sino que se basan en la identificación de patrones complejos aprendidos a través del aprendizaje. Descubrieron que “cambiar de nombre puede cambiar los resultados”, una señal potencialmente preocupante para el futuro de las aplicaciones de IA que requieren un pensamiento coherente y válido en contextos del mundo real.

Según el estudio, todos los modelos probados, desde versiones más pequeñas de código abierto como Llama hasta modelos propietarios como GPT-4o de OpenAI, tuvieron un rendimiento significativamente peor cuando se enfrentaron a cambios aparentemente triviales en los datos de entrada. Apple sugiere que la IA debería combinar redes neuronales con el razonamiento tradicional basado en caracteres IA neurosimbólica Adquirir habilidades más precisas para tomar decisiones y resolver problemas.

Fuente