Durante los últimos 90 años, los pronosticadores electorales han tenido una herramienta en su caja de herramientas: las encuestas. Después de la tercera elección presidencial consecutiva en Estados Unidos, esta metodología subestimó el apoyo a Donald Trump, y hay razones para dudar de que esto sea razonable. Llamar a una pequeña muestra de personas y preguntarles qué harían parece anacrónico en un mundo donde los gigantes tecnológicos extraen miles de millones de puntos de datos en línea para predecir el comportamiento de los consumidores, a menudo sin conocer a los propios consumidores, que saben más.
Compruebe si hay problemas con las solicitudes. Primero, la gente no les responde. La tasa de respuesta a la encuesta cayó al 2%.
En segundo lugar, la gente se mete con ellos. A los jóvenes les gusta especialmente dar la respuesta incorrecta. Un estudio académico encontró asociaciones entre la adopción y diversos comportamientos problemáticos en los datos de la encuesta; El estudio fue abandonado cuando se descubrió que el 19 por ciento de los que dijeron que habían sido adoptados simplemente estaban bromeando.
En tercer lugar, la gente miente a los encuestadores para proteger su propia imagen, lo que se denomina sesgo de deseabilidad social. El nivel de engaño puede ser asombroso. Las investigaciones muestran que cuatro de cada diez no votantes informan que votan en las encuestas. También se sabe que las personas informan demasiado sobre su actividad sexual, su filantropía y sus logros académicos.
Estos no respondedores, tramposos y mentirosos probablemente hayan jugado un juego mejor de lo que Trump esperaba. Hay cierta evidencia de que es menos probable que sus seguidores respondan a las encuestas, interactúen con ellas y admitan que lo apoyan en ellas.
¿Hace esto que las encuestas sean inútiles para predecir lo que sucederá en las elecciones? No del todo. Las encuestas, que pueden ser ruidosas y defectuosas, contienen información útil, que ayuda particularmente a comprender hacia dónde puede estar cambiando el apoyo a los candidatos. Comparé el desempeño real de Trump con el pronosticado por el agregador de encuestas FiveThirtyEight. Entre 2020 y 2024, las encuestas pueden predecir aproximadamente la mitad de los cambios a nivel estatal en el apoyo a Trump. Las encuestas indicaron correctamente que su porcentaje de votos estaba creciendo en Kentucky, Nueva York y Massachusetts. Y hay tendencias que simplemente se pasan por alto. Algunos de los patrones aparentemente sorprendentes de las elecciones, como el buen desempeño de Trump en los distritos hispanos, habrían sido menos sorprendentes para quienes prestaron mucha atención a las encuestas que predijeron estos cambios.
Dicho esto, las encuestas tienen dificultades para predecir completamente lo que sucederá en unas elecciones. En una época en la que la humanidad produce más de 400 terabytes de datos cada día, resulta extraño confiar en las respuestas de unos pocos miles de personas que levantan el teléfono y pueden hacerlo. Sea honesto con los entrevistadores o consigo mismo.
Durante los últimos 15 años, he estudiado las búsquedas en Google. Otros y yo hemos descubierto que los datos de búsqueda suelen ser más predictivos que las consultas. Las búsquedas en Google de “votar” y “votar” pueden predecir quién votará, no sólo quién dijo que lo hará, del mismo modo que las búsquedas sobre suicidio predicen que el suicidio puede proporcionar mejores predicciones que los informes de las encuestas. Las búsquedas en Google revelaron dónde el racismo es mayor en Estados Unidos y predijeron el temprano ascenso de Trump. Y en abril de 2020, los usé para identificar un nuevo síntoma de la covid-19: el dolor ocular, hallazgo que fue confirmado por investigadores de salud unos meses después.
Ya existe cierta evidencia de que los datos de búsqueda pueden proporcionar un mayor poder predictivo sobre las elecciones que las encuestas directas. Stuart Gabriel, de UCLA, y yo hemos descubierto, por ejemplo, que el orden en el que se busca en Google a los candidatos en muchos mandatos presidenciales es en sí mismo un indicador. Las personas que buscaron “debate Trump Harris” tienen más probabilidades de apoyar al Sr. Trump que aquellos que buscaron “debate Harris Trump”. Lo más sorprendente de este indicador es que los datos pueden revelar algo que el buscador quizás ni siquiera comprenda. Aparentemente, los votantes indecisos pueden expresar su apoyo basándose en qué candidato agregaron primero durante una búsqueda.
En Mississippi, el estado natal de Trump, “Trump” ocupó el primer lugar en más del 65% de las búsquedas de los nombres de ambos candidatos, la cifra más alta de cualquier estado. Y en Vermont, un bastión de Harris, el 58% de las búsquedas de los nombres de ambos candidatos incluyeron “Harris” primero. -también el más alto de cualquier estado. En general, 24 de los 26 estados con mayor probabilidad de incluir a “Trump” en primer lugar en las búsquedas de Google de los dos nombres pertenecen a Trump, y 19 de los 25 estados con mayor probabilidad de incluir a “Harris” en primer lugar pertenecen a Harris. Y hemos visto cuatro elecciones consecutivas en las que agregar esta métrica mejora las predicciones a nivel estatal en comparación con los promedios de las encuestas.
Todavía estamos en las primeras etapas de nuestra exploración de cómo los datos en línea pueden ayudarnos a comprender y predecir el comportamiento humano. Pero las elecciones de 2024 seguramente serán una de las últimas elecciones en las que sólo se utilizan encuestas para predecir el resultado.
Seth Stevens-Davidovitz es un científico de datos y autor de Google.
© 2025, The Economist Newspaper Limited. Reservados todos los derechos. De The Economist, publicado bajo licencia. El contenido original se puede encontrar en www.economist.com