Un estudio demuestra que sistemas como GPT-4o y DeepSeek R1 no logran reconocer de forma fiable las creencias falsas en primera persona, lo que podría tener consecuencias graves en ámbitos como la medicina, el derecho o el periodismo.
Los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés), pilares de la actual inteligencia artificial generativa, siguen mostrando importantes limitaciones a la hora de distinguir entre lo que las personas creen y lo que realmente es cierto. Así lo revela una investigación liderada por James Zou, de la Universidad de Stanford (EE UU), publicada en la revista Nature Machine Intelligence.
A medida que estas herramientas se integran en áreas de alto impacto como la medicina, el derecho, el periodismo o la ciencia, su incapacidad para diferenciar entre creencias y conocimiento podría provocar diagnósticos erróneos, juicios sesgados o la amplificación de la desinformación.
El equipo evaluó 24 modelos de lenguaje, entre ellos GPT-4o, o3-mini, Claude-3.7, Llama-3.3, Gemini 2 Flash y DeepSeek R1, mediante un nuevo estándar de referencia denominado KaBLE, que incluye 13 000 preguntas distribuidas en 13 tareas epistémicas. El objetivo fue analizar la capacidad de los sistemas para distinguir entre creencias, conocimiento y hechos, en pruebas que abarcaban desde la verificación (“Yo sé que… entonces es verdad que…”), hasta la confirmación de creencias (“¿James cree que…?”) o el conocimiento recursivo (“James sabe que Mary sabe…, ¿es verdad que…?”).
Los resultados revelan limitaciones significativas. Todos los modelos fallan sistemáticamente al reconocer falsas creencias en primera persona, con caídas drásticas de precisión. En el caso de GPT-4o, su rendimiento pasó del 98,2 % al 64,4 %, y en DeepSeek R1, de más del 90 % al 14,4 %.
Aunque los modelos muestran alta precisión en la verificación de afirmaciones verdaderas, su desempeño disminuye al evaluar creencias o declaraciones sin marcadores explícitos de verdad. En general, los investigadores concluyen que la mayoría de los modelos carecen de una comprensión sólida del vínculo entre conocimiento y verdad.
Para Pablo Haya Coll, investigador del Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid (UAM) y director del área de Business & Language Analytics del Instituto de Ingeniería del Conocimiento (IIC), estos hallazgos “exponen una debilidad estructural en los modelos de lenguaje: sus dificultades para distinguir de manera robusta entre convicción subjetiva y verdad objetiva dependiendo de cómo se formula una determinada aseveración”, explica al Science Media Center (SMC) España.
Haya añade que “esta limitación tiene implicaciones críticas en ámbitos donde esta distinción es esencial, como el derecho, la medicina o el periodismo, donde confundir creencia con conocimiento puede conducir a errores graves de juicio”. Además, relaciona el problema con lo que describe un estudio reciente de OpenAI: “los modelos tienden a alucinar porque los métodos de evaluación actuales premian las respuestas seguras y completas por encima de la sinceridad epistémica”. Según el investigador, “entrenar modelos más cautos podría reducir las alucinaciones, aunque a costa de perder fluidez o utilidad en algunos casos”.
También para Josep Curto, director académico del Máster en Inteligencia de Negocios y Big Data en la Universitat Oberta de Catalunya (UOC) y profesor adjunto en IE Business School, el artículo “ofrece una crítica constructiva y fundamental de los modelos de lenguaje actuales, exponiendo sistemáticamente sus limitaciones epistemológicas mediante el nuevo conjunto de datos KaBLE”.
“El hallazgo principal —destaca Curto al SMC— pone de relieve una deficiencia crítica: los modelos tienden a priorizar su base de conocimiento fáctico interna por encima del reconocimiento de las convicciones subjetivas del usuario. En contextos sensibles como la salud mental, la terapia o el asesoramiento legal, esta ‘verificación de hechos’ automática puede socavar una implementación eficaz, empática y segura”.
Por su parte, Carlos Carrasco-Farré, profesor en la Toulouse Business School (Francia), advierte al SMC España que “la IA puede tener razón y, aun así, equivocarse”. “Corregir un dato falso está bien —explica—; el problema es cuando el objetivo es reconocer la creencia de quien habla y el modelo la evita con un fact-check prematuro. Dicho de otro modo: la IA acierta el dato, pero falla a la persona.”
Carrasco-Farré subraya que “basta con que la creencia esté en primera persona para que muchos modelos se equivoquen, lo que obliga a repensar las guías de uso en contextos sensibles: primero, reconoce el estado mental; luego, corrige. Si queremos una IA segura y útil, debemos enseñarle a escuchar antes que a educar”.
El estudio concluye que estas limitaciones deben abordarse con urgencia antes de desplegar los LLM en entornos donde distinguir entre creencias y hechos es esencial. “Los modelos actuales pueden reconocer datos verdaderos con alta precisión, pero fallan al entender la naturaleza del conocimiento humano”, resumen los autores del trabajo.
Referencia:
Zou, J. et al., “Language models cannot reliably distinguish belief from knowledge and fact”, Nature Machine Intelligence, 2025.