alucinacion IA 1

El mes pasado, un chatbot de inteligencia artificial (IA) encargado del soporte técnico de Cursor, una prometedora herramienta para desarrolladores, generó alarma entre sus usuarios al notificar un cambio en las políticas de la empresa. El bot erróneamente comunicó que el uso de Cursor estaría restringido a una sola computadora por licencia.

La reacción de la comunidad de usuarios no se hizo esperar, manifestándose en foros en línea con expresiones de molestia e incluso cancelaciones de suscripciones. La indignación creció al descubrirse la verdad: la supuesta modificación en la política era inexistente, producto de una "alucinación" de la IA.

Michael Truell, CEO y cofundador de la compañía, aclaró la situación en Reddit, señalando que la información proporcionada por el bot de soporte de primera línea era incorrecta y reafirmando que los usuarios podían utilizar Cursor en múltiples dispositivos.

A más de dos años del auge de ChatGPT, la adopción de bots de IA se ha extendido a diversas tareas en el ámbito empresarial, laboral y cotidiano. Sin embargo, la garantía de precisión en la información generada por estos sistemas sigue siendo esquiva.

Paradójicamente, las tecnologías más recientes y avanzadas, como los sistemas de razonamiento de empresas como OpenAI, Google y la china DeepSeek, están presentando un incremento en los errores en lugar de una disminución. Si bien sus capacidades matemáticas han mejorado significativamente, su manejo de la información factual se ha vuelto menos confiable. La causa precisa de este fenómeno aún no está clara.

alucinacion IA 2

Los modelos de IA actuales se basan en complejos algoritmos matemáticos que adquieren habilidades a través del análisis de vastas cantidades de datos digitales. Estos sistemas no discernen, ni pueden discernir, entre la verdad y la falsedad. En ocasiones, "inventan" información, un fenómeno que los investigadores denominan "alucinaciones". En pruebas recientes, los índices de alucinación en los sistemas de IA más avanzados alcanzaron hasta un 79%.

Estos sistemas operan mediante probabilidades matemáticas para inferir la respuesta más probable, en lugar de seguir un conjunto de reglas estrictas definidas por ingenieros. Esta es la razón inherente detrás de la presencia de errores. Amr Awadallah, ex ejecutivo de Google y actual CEO de Vectara, una startup enfocada en herramientas de IA para empresas, afirma que "a pesar de nuestros mayores esfuerzos, siempre alucinarán. Eso nunca desaparecerá".

Esta problemática ha generado preocupación durante años respecto a la fiabilidad de estos sistemas. Aunque útiles en ciertos contextos como la redacción académica, el resumen de documentos o la generación de código, sus errores pueden acarrear inconvenientes significativos.

Los bots de IA integrados en motores de búsqueda como Google y Bing a veces producen resultados tan imprecisos que resultan cómicos. Al consultar sobre un buen maratón en la Costa Oeste, podrían sugerir una carrera en Filadelfia. Al preguntar por el número de hogares en Illinois, podrían citar una fuente que no contiene dicha información.

Si bien estas alucinaciones pueden no ser críticas para muchos usuarios, representan un riesgo considerable para quienes emplean esta tecnología con documentos legales, información médica o datos empresariales confidenciales.

Pratik Verma, cofundador y CEO de Okahu, una empresa dedicada a mitigar el problema de las alucinaciones en la IA, explica que "se invierte mucho tiempo tratando de discernir qué respuestas se basan en hechos y cuáles no. No abordar estos errores adecuadamente esencialmente anula el valor de los sistemas de IA, que se supone que automatizan tareas".

Ni Cursor ni Truell respondieron a las solicitudes de comentarios sobre este incidente.

alucinacion IA 3

Durante más de dos años, empresas como OpenAI y Google lograron mejoras constantes en sus sistemas de IA, reduciendo la frecuencia de estos errores. Sin embargo, con la implementación de nuevos sistemas de razonamiento, la tendencia se ha revertido. Las propias pruebas de OpenAI indican que la última versión de sus sistemas presenta una mayor propensión a las alucinaciones en comparación con su predecesor.

La compañía descubrió que o3, su sistema más potente, alucinó en un 33% de las ocasiones al ejecutar su prueba de referencia PersonQA, la cual consiste en responder preguntas sobre figuras públicas. Este porcentaje representa más del doble de las alucinaciones registradas por el sistema de razonamiento anterior de OpenAI, denominado o1. El nuevo modelo o4-mini mostró un índice aún mayor, alcanzando el 48%.

En otra prueba, SimpleQA, que plantea preguntas más generales, los índices de alucinación de o3 y o4-mini fueron del 51% y el 79% respectivamente, mientras que el sistema anterior, o1, alucinó en un 44% de las ocasiones.

En un documento que detalla estas pruebas, OpenAI reconoce la necesidad de mayor investigación para comprender las causas de estos resultados. Dada la magnitud de los datos con los que aprenden estos sistemas, los tecnólogos enfrentan el desafío de determinar por qué se comportan de la manera en que lo hacen.

Pruebas realizadas por empresas e investigadores independientes también sugieren un aumento en los índices de alucinación en los modelos de razonamiento de compañías como Google y DeepSeek.

Desde finales de 2023, Vectara, la empresa de Awadallah, ha estado monitoreando la frecuencia con la que los chatbots se desvían de la veracidad. La empresa solicita a estos sistemas realizar una tarea sencilla y fácilmente verificable: resumir artículos de noticias específicos. Aun así, los chatbots consistentemente inventan información.

La investigación inicial de Vectara estimó que, en este escenario, los chatbots inventaban información al menos el 3% del tiempo, llegando en ocasiones hasta un 27%.

alucinacion IA 4

En el último año y medio, empresas como OpenAI y Google lograron reducir estas cifras al 1% o 2%. Otras, como la startup Anthropic, se acercaron al 4%. Sin embargo, estos porcentajes de alucinación en esta prueba han aumentado con los nuevos sistemas de razonamiento. El sistema R1 de DeepSeek alucinó en un 14.3% de las veces, mientras que o3 de OpenAI subió al 6.8%.

(El New York Times ha demandado a OpenAI y a su socio, Microsoft, por infracción de derechos de autor en relación con contenido noticioso utilizado para entrenar sistemas de IA. OpenAI y Microsoft niegan estas acusaciones).

Durante años, la estrategia de empresas como OpenAI se basó en un principio simple: a mayor cantidad de datos de internet incorporados a sus sistemas de IA, mejor sería su rendimiento. Sin embargo, al agotar la totalidad del texto en inglés disponible en la red, se hizo evidente la necesidad de nuevas estrategias para mejorar sus chatbots.

Es así como estas empresas están recurriendo cada vez más a una técnica denominada aprendizaje por refuerzo. Mediante este proceso, un sistema aprende comportamientos a través de la prueba y el error. Si bien este método resulta efectivo en áreas como las matemáticas y la programación, está mostrando limitaciones en otros dominios.

Laura Pérez-Beltrachini, investigadora de la Universidad de Edimburgo que forma parte de un equipo que estudia de cerca el problema de las alucinaciones, señala que "con base en cómo se entrenan estos sistemas, comenzarán a centrarse en una tarea y a olvidarse de las demás".