Por: Gastón Milano
¿Qué tienen en común un relojero y un médico? Que a los dos se les exige una perfecta exactitud. Esa frase que ya ha quedado de otra época, ahora podría aplicarse a lo que uno espera de la inteligencia artificial.
En 2023, el abogado Steve Schwartz protagonizó uno de los episodios más famosos de alucinaciones de la IA. Como defensor de Roberto Mata, que estaba demandando a una aerolínea por un problema en el vuelo, presentó un escrito en el que citaba jurisprudencia inexistente y casos reales con errores. El juzgado de Manhattan se lo hizo saber y su defensa fue que había elaborado el escrito con ChatGPT.
Las alucinaciones son respuestas que la IA generan con aspecto verosímil y que suenan absolutamente realistas, pero son incorrectas. Es uno de los grandes temores y problemas en el desarrollo de la inteligencia artificial. Pero, en dos años el escenario es absolutamente diferente.
No podemos negar el problema, debemos afrontarlo
La IA tiene un margen de error. Aceptar este punto de partida es clave para entender los beneficios -y cuáles son sus riesgos- al interactuar con un chat o desarrollar un software con IA. No podemos tapar el sol con la mano.
En septiembre de 2024, un grupo de investigadores publicaron un artículo en Nature, en el que analizaron 243 casos de información distorsionada por alucinaciones que generó ChatGPT. Clasificaron a los errores en 7 categorías principales para conocimiento del público, organizaciones y hasta para mejorar las nuevas versiones de IA.
Podían surgir por sobreajuste de datos (lo analiza tan literal que no consigue interpretarlos), por errores lógicos, de razonamiento, matemáticos, invenciones infundadas, errores factuales o de salida de texto. Puede parecer mucho, pero son una mínima porción en base a los 700 millones de usuarios activos semanales que lo utilizan. Dejar de confiar en la IA porque a veces alucina sería como dejar de viajar en avión porque cuatro veces al año, en promedio, hay accidentes aéreos.
Los modelos de IA cada vez son más precisos
En febrero de 2025, Sam Altman anunció que el modelo ChatGPT 4-5 había reducido a la mitad la probabilidad de alucinaciones. Es decir, sería difícil que vuelva a suceder un caso Schwartz (de todas maneras, mejor no intentarlo).
Gemini, DeepSeek y Grok también han perfeccionado su arquitectura de datos entrenamiento. Cada modelo tiene sus propias ventajas comparativas, pero en el ranking que evalúa su inteligencia, el Massive Multitask Language Understanding (MMLU), ya hay siete que tienen una tasa de éxito en sus respuestas de 80% o más.
La competencia genera un círculo virtuoso para avanzar hacia modelos más precisos. La adopción de la técnica Retrieval Augmented Generation (RAG) es una de las herramientas más poderosas. De esta manera, antes de dar una respuesta, el sistema de lenguaje es capaz de recuperar información contextual de fuentes externas que no forman necesariamente parte de su entrenamiento. Un sistema de aprendizaje basado en prueba y error.
El mercado de RAG, estimado en 1.2 mil millones de dólares en 2024, proyecta una tasa de crecimiento anual compuesta de 49,1% entre 2025 y 2030, según un reporte de Grand View Research…





