Los chatbots tienen mucha confianza en sí mismos

Según un estudio llevado adelante por investigadores de la Universidad Carnegie Mellon de Estados Unidos, los chatbots gozan de mucha confianza en sí mismos, incluso cuando se equivocan. A través de distintas pruebas, como predecir los resultados de partidos de la National Football League o de los Premios Oscar, el equipo científico comparó las respuestas y la autoconfianza de participantes humanos y de cuatro grandes modelos de lenguaje: Chat GPT, Gemini, Sonnet y Haiku. Notaron que, a diferencia de las personas, los chatbots no son conscientes de sus errores. Así, apuntan a que el estudio sirva como base para desarrollar la capacidad de reflexión de estas herramientas sobre sí mismas.

Cada vez es más común que los usuarios utilicen los chatbots para hacerles preguntas sobre una amplia cantidad de temas o que desarrollen relaciones afectivas. En este sentido, los investigadores indagaron si estas herramientas nuevas tiene la capacidad de la metacognición, es decir, de reflexionar y comprender sus propios procesos de pensamiento y aprendizaje; algo que sí tienen los humanos. Para eso, el equipo científico comparó la autoconfianza de personas con Chat GPT, Gemini, Sonnet y Haiku al hacerles distintas pruebas. Por ejemplo, predecir los resultados de la National Football League y de los Premios Oscar, responder preguntas de trivia y sobre la vida en la universidad, o jugar a un juego de identificación de imágenes similar al Pictionary.

De esta manera, notaron que tanto las personas como los chatbots tienen una alta autoconfianza, pero sólo los humanos pudieron ajustar sus expectativas cuando se les preguntó en retrospectiva cómo creían que les había ido en las pruebas. Incluso, los autores aclaran que la investigación recopiló datos durante dos años con distintas versiones actualizadas de los chatbots y en todas se detectó una confianza en sí mismos muy alta.

Esta debilidad que detecta el estudio varía según cada modelo. Por ejemplo, Sonnet tendió a ser menos confiado que los demás. Asimismo, Chat GPT-4 tuvo un rendimiento similar al de los participantes humanos en la prueba del Pictionary, identificando con precisión 12,5 imágenes dibujadas a mano de 20, mientras que Gemini solo pudo identificar 0,93 bocetos, en promedio.

En este sentido, Natalia Corvalán, especialista en Educación y Nuevas Tecnologías de la Universidad Nacional de Hurlingham, explica a la Agencia de Noticias Científicas de la UNQ: “Los grandes modelos de lenguaje pueden responder con seguridad incluso cuando se equivocan, inventan, ‘alucinan’ fuentes, o mezclan datos reales con falsos, porque están diseñados para generar texto plausible en base a patrones lingüísticos, y no para ofrecer información verificada. Este funcionamiento, sumado a la falta de transparencia y su autoconfianza, nos exige una postura más crítica”.

Sin introspección

Además, en el estudio, Gemini predijo que obtendría un promedio de 10,03 bocetos correctos, e incluso después de responder correctamente menos de 1 de 20 preguntas, la IA estimó retrospectivamente que había respondido 14,40 correctamente, lo que demuestra su falta de autoconciencia. “Gemini era simplemente pésimo jugando al Pictionary. Pero peor aún, no sabía que era malo en el Pictionary. Es como ese amigo que jura que es muy bueno jugando al billar, pero nunca acierta un tiro”, dijo Trent Cash, autor principal del estudio, a la Universidad Carnegie Mellon.

En cuanto a los humanos, Cash afirmó: “Supongamos que nos dijeron que iban a acertar 18 preguntas y finalmente acertaron 15, después corrigieron su estimación a unas 16 respuestas correctas. Así que aún estaban un poco confiados, pero no tanto”. “Todavía no sabemos exactamente cómo la IA calcula su confianza, pero parece no realizar introspección, al menos no hábilmente”, dijo Danny Oppenheimer, coautor del estudio. Así, los investigadores señalan que, si se los entrena, los chatbots pueden desarrollar una mejor comprensión de sus propias habilidades en conjuntos de datos mucho más grandes.

Además, Clash reflexionó: “Me parece interesante que los grandes modelos de lenguaje a menudo no aprendan de su propio comportamiento. Y quizás ahí haya una historia humanística que contar. Quizás simplemente haya algo especial en la forma en que los humanos aprenden y se comunican”.

Leer con ojos críticos

Corvalan dirige su atención no solo a qué se le pregunta a la IA, sino a cómo las personas se vinculan con ella: “¿’Dialogamos’ con esta tecnología o simplemente aceptamos lo que dice? ¿Revisamos sus respuestas o confiamos por default? La mayoría de las personas no entrenan el hábito de desconfiar de la IA, de tensionar sus afirmaciones o de revisar sus fuentes, las cuales muchas veces no las tiene o no las explicita”.

En esta línea, en un estudio, la BBC pidió a Chat GPT, Copilot, Gemini y Perplexity que resumieran 100 noticias y ciertos periodistas expertos en el tema de cada artículo calificaron la calidad de las respuestas de las IAs. Así, se descubrió que el 51 por ciento de todas las respuestas de las tecnologías presentaban problemas importantes de algún tipo, como declaraciones fácticas, números y fechas incorrectas, o que las citas fueron alteradas de la fuente original o no estaban presentes en el artículo citado. De igual manera, otro estudio de 2024 llevado adelante por el Instituto Stanford para la Inteligencia Artificial Centrada en el Ser Humano reveló que los grandes modelos de lenguaje “alucinaban” o producían información incorrecta en entre el 69 por ciento y el 88 por ciento de las consultas legales y judiciales. 

Frente a la propuesta de los investigadores de Estados Unidos de que los chatbots puedan desarrollar una mejor comprensión, Corvalán apunta que no es una tarea que se pueda tercerizar ni delegar: “Si la IA puede equivocarse, entonces también debemos aprender a identificar cuándo, por qué y con qué consecuencias. Y eso implica sostener una práctica activa de lectura crítica”, detalla a la Agencia. Este ejercicio que requiere de atención, búsqueda, verificación y comprensión por parte del usuario invita también a avanzar contra la podredumbre cerebral.

Este término, designado como Palabra del Año en 2024, es definido por Oxford como “el supuesto deterioro del estado mental o intelectual de una persona, especialmente si se considera como resultado del consumo excesivo de material (ahora en particular contenido en línea) considerado trivial o poco estimulante. También: algo que se caracteriza por su probabilidad de conducir a dicho deterioro”.

Con todo, tal vez la diferencia que tienen las IAs con las personas al no poder reflexionar sobre sí mismos hace que los humanos puedan elegir el camino de pensar por sí mismos y ser críticos ante una tecnología que aún no es perfecta. Y, como todo, probablemente no lo sea nunca.

 

Por