Investigadores de Apple cuestionan la capacidad de la IA para pensar en matemáticas

Nueva Delhi, 12 de octubre (SocialNews.XYZ) Un grupo de investigadores de Apple ha cuestionado las capacidades de razonamiento formal de los modelos de lenguaje grande (LLM), particularmente en matemáticas.

Descubrieron que los LLM mostraban diferencias significativas en sus respuestas a diferentes instancias de la misma pregunta.

La literatura sugiere que el proceso de pensamiento en LLM sigue un patrón probabilístico en lugar de un pensamiento formal.




Si bien los LLM pueden ser adecuados para formas de pensamiento más abstractas, carecen de un verdadero pensamiento lógico. Pequeños cambios en los tokens de entrada pueden cambiar drásticamente los resultados del modelo, lo que muestra un fuerte sesgo de tokens y muestra que estos modelos son muy sensibles y frágiles.

“Además, en tareas que requieren la selección correcta de múltiples tokens, la probabilidad de lograr una respuesta correcta disminuye exponencialmente con el número de tokens o pasos, lo que resalta su falta de confiabilidad inherente en escenarios de razonamiento complejos”, dijeron los investigadores de Apple en su informe “GSM-Symbolic”. : Comprensión de los límites del razonamiento matemático en modelos de lenguaje grandes.

El punto de referencia “GSM8K” se utiliza ampliamente para evaluar la base matemática de modelos para preguntas de nivel escolar.

Aunque el desempeño de los LLM en el GSM8K ha mejorado significativamente en los últimos años, aún no está claro si sus habilidades de razonamiento matemático realmente han mejorado, lo que genera dudas sobre la confiabilidad del desempeño informado.

Para abordar estas preocupaciones, los investigadores llevaron a cabo un estudio extenso de varios modelos abiertos y cerrados modernos.

“Para superar las limitaciones de evaluación existentes, presentamos un punto de referencia mejorado, GSM-Symbolic, construido a partir de plantillas simbólicas que permiten la generación de diferentes conjuntos de preguntas”, escriben los autores.

GSM-Symbolic permite una evaluación más controlada, proporcionando indicadores más confiables para medir las capacidades de razonamiento de los conceptos y modelos subyacentes.

“Nuestros hallazgos muestran que los LLM muestran diferencias significativas en sus respuestas a diferentes instancias de la misma pregunta”, dijeron los investigadores y, en general, “nuestro trabajo proporciona una comprensión más matizada de las capacidades y limitaciones de los LLM en el razonamiento matemático”.

Fuente: IANS

Investigadores de Apple cuestionan la capacidad de la IA para pensar en matemáticas

Acerca de Gopi

Gopi Adusumilli es desarrollador. Es el editor de SocialNews.XYZ y presidente de AGK Fire Inc.

Le gusta diseñar sitios web, desarrollar aplicaciones móviles y publicar artículos de noticias sobre temas de actualidad de diversas fuentes de noticias verificadas.

Cuando se trata de escribir, le gusta escribir sobre la política mundial actual y las películas indias. Sus planes futuros incluyen hacer de SocialNews.XYZ un sitio web de noticias libre de prejuicios y juicios.

Puede ser contactado en gopi@socialnews.xyz



Fuente