No es oro todo lo que reluce; los resultados de ChatGPT tampoco

Vivimos en un mundo donde la imagen y la impresión inicial tienen un valor incalculable, golpeándonos en el rosto, ¡muchas veces!, la realidad de que lo que vemos a simple vista puede ser una mera fachada, ocultando aspectos relevantes profundos. De ahí que se convirtiera en famoso el adagio “las apariencias engañan”, invitándonos a explorar más allá de la percepción superficial, esa que nos ha llevado en más de una ocasión a juicios erróneos y decisiones precipitadas.

De manera general, según estudios psicológicos, está demostrado que el 55% de la primera impresión está determinado por la apariencia y un 7% por la forma de expresión verbal y/o corporal. Por ello, se dice que no existe una segunda oportunidad para causar una primera buena impresión y vaya que las empresas tecnológicas desarrolladoras de los grandes o largos modelos de lenguaje (LLM) lo saben.

ChatGPT y los sistemas de su clase han sido tendencia por su capacidad de presentar respuestas en un lenguaje natural y coherente, pero no han sido entrenados para decir la verdad ni saberlo todo. ¿Peligroso no?, la verdad es que sí es preocupante, porque resulta que ese instinto inmediato e inconsciente donde nuestro cerebro automáticamente saca conclusiones con poca información, nos acompaña siempre, por lo que es posible que demos por bueno y válido los resultados que recibimos, considerando solamente la carta de presentación. Veamos en detalle lo que sucede a continuación.

Para comenzar, por si no lo sabías o como jarabe para la memoria si los leíste alguna vez, han sido objeto de escándalo los siguientes casos:

1) Previo a la coronación del rey Carlos III, una petición de semblanza a ChatGPT arrojó un resultado llamativo, a saber: “La ceremonia de coronación tuvo lugar en la Abadía de Westminster, en Londres, el 19 de mayo de 2023. La abadía ha sido el escenario de las coronaciones de los monarcas británicos desde el siglo XI, y es considerada uno de los lugares más sagrados y emblemáticos". La verdadera fecha dispuesta para la coronación era el 06 de mayo, no el 19 como indicó el chatbot.

2) Bard compartió información falsa en su propio anuncio, ¡inaudito!, una promoción diseñada para presentar el bot de Google, mostró una consulta sobre qué decirle a un niño de 9 años en relación a los descubrimientos del telescopio espacial James Webb, a lo que Bard respondió que el telescopio fue el primero en tomar imágenes de un planeta fuera de nuestro sistema solar, cuando ese hito corresponde al Very Large Telescope del Observatorio Europeo Austral, un error que los astrónomos en Twitter no perdonaron, desplomándose las acciones de la empresa en un 7% en ese momento.

3) Igual de impresionante fue lo sucedido con Galactica, modelo de lenguaje de IA de Meta para apoyar a los científicos, cuyo impacto fue efímero, ya que a los 3 días de su lanzamiento fue desconectado, debido a todas las críticas de expertos que le probaron, como Michael Black, director del Instituto Max Planck para Sistemas Inteligentes. El descontento masivo se produjo por sus resultados sin sentido y afirmaciones de falsedades como hechos.

4) Por supuesto, el caso de Roberto Mata vs. Avianca, donde el abogado del demandante, el señor Schwartz, presentó unos supuestos similares al suyo que le “favorecían”, Varghese vs. China Southern Airlines, Shaboon vs. Egyptair, Petersen vs. Iran Air, Martínez vs. Delta Airlines, Estate of Durden vs. KLM Royal Dutch Airlines y Miller vs. United Airlines… lejos de lo que pretendía, quedó en vergüenza y sancionado con multa de 5,000 dólares, ya que lamentablemente no existían estos casos, fueron inventados por ChatGPT, que fue su única fuente de consulta para los mismos.

5) Por último, obligatorio citar lo acontecido con Mark Walters, en vista de que dio lugar a la primera demanda contra OpenAI por difamación. Esta se presentó ante el Tribunal Superior del condado de Gwinnett de Georgia, con motivo de que el chatbot más conocido a la fecha, afirmó que el locutor era culpable de malversación de fondos sin estar relacionado a ningún caso de esa índole, información falsa que dañó su reputación conforme alega.

Como los de la lista, hay muchos otros similares, según las experiencias de distintos usuarios. Lo anterior, nos hace pensar que estos sistemas tienen el síndrome de pinocho, de los hechos al cuento y del cuento a los hechos. En efecto, la limitación más conocida que socava el valor potencial de este tipo de modelos es la alucinación, es decir, aquel resultado que nos presenta de forma coherente en apariencia, pero que es falso, ficticio y sin sentido. Seguramente, estás pensando en ese amigo o conocido con la tendencia patológica de mentir constantemente, con maestría en exageración y PhD en no distinguir la realidad de la fantasía.

Pero no se trata de que estas empresas tienen a unos mitómanos entrenando a las herramientas, más bien, es que la inteligencia artificial generativa se basa en generar contenido sintético. Como su propio nombre lo indica, su razón de ser es crear algo nuevo. Para esto, fusiona datos reales con otros que no existieron y muestran un resultado distinto al que podemos encontrar en el plano del ser. En palabras del distinguido profesor Juan Gustavo Corvalán, en sus clases magistrales, explica que este tipo de sistemas simplemente detectan regularidades estadísticas en los datos y ponderan probabilísticamente la información para darnos los resultados que requerimos con un prompt (la instrucción que colocamos al modelo con nuestra solicitud). Básicamente, adivinan la palabra que sigue en una secuencia de palabras, su principal talento es autocompletar. En otros términos, ni ChatGPT, ni Bard, ni DALL E, ni Midjourney, ni Stable Diffusion, ni cualquier otro de su preferencia, son capaces de comprender el contexto, aunque le digas hola, ¿cómo estás?, por favor y gracias, por ende, no tienen conciencia para saber que han errado.

En ese orden de ideas, algunas de las razones por las que inventan son las siguientes:

a) Se entrenan con grandes cantidades de datos provenientes de la red y eso incluye fake news que van a repetir posteriormente.
b) En las fuentes de datos con los que se entrenan hay sesgos y pueden reflejarlos.
c) El hecho innegable de que no tienen emociones. Asimismo, la falta de información propia sobre experimentación de las situaciones.
d) En algunos sistemas, lo provoca la falta de información actualizada, este es el caso de ChatGPT.
e) La forma en que se pregunta es crucial. Por ejemplo, si cuestionamos con ambigüedad estaría sujeto a interpretación, si no se da suficiente contexto, influye el idioma en que se converse para sus niveles de competencia, también, la cantidad de entradas es determinante, etc.

¿Los desarrolladores hacen algo al respecto? Todos los días, ya que es uno de los mayores dolores de cabeza para los maestros de la IA generativa. Todos lo reconocen y lo advierten en sus plataformas. El Director Ejecutivo de Google, Sundar Pichai, en una entrevista aseveró que nadie en este campo ha podido todavía resolver el problema de las alucinaciones, asegurando que todos los modelos lo tienen a la fecha. No es tan sencillo solucionarlo, desde recompensas, penalizaciones, límites y cualquier otra medida técnica que se aplique, se asemeja a la labor de mamá y papá en la educación de los hijos, no siempre funcionan las mismas reglas, cada caso es particular.

Peor aún, estamos ante una encrucijada. Paradójicamente, los usuarios nos beneficiamos de esa capacidad inherente a este tipo de inteligencia artificial. En efecto, no olvidemos que la inventiva es sinónimo de creatividad. Gracias a esto es que Martina puede recibir una propuesta de un ensayo distinta a la de Enzo sobre el mismo tema; que Sophía y Noah crearon un resumen de su investigación en minutos para una reunión de trabajo; que los artistas de arte digital y editores en Cosmopolitan crearon una increíble portada de astronauta y que John Lennon estará presente en una nueva canción de los Beatles. Si tratáramos de deshacernos por completo de las alucinaciones, la magia perdería su encanto.

Por tanto, ¿qué nos queda? ¿Recuerdas el porcentaje que citamos al inicio del valor de lo no verbal? Justamente nos queda eso, el resto, ese 38% en el que importa la sustancia, la información y los datos que realmente se están compartiendo. Nos corresponde poner en práctica esas habilidades humanas que nos hacen únicos, hacer un análisis crítico de las respuestas que recibimos, corregir, modificar lo que está mal, practicar y aprender el arte de promptear, no conformarnos con un resultado y jamás utilizar estas herramientas sin revisar.

Cuidado con las apariencias de racionalidad. Dale la bienvenida a sus aportes, pero ten presente que en la confianza es que está el peligro, así que mejor sé precavido. La IA generativa puede ser un asistente valioso en tu equipo para hacerte más eficiente y productivo, pero el control está en tus manos, el líder eres tú.

bard ChatGPT DALL E IA generativa MidJourney Nicole Marie Suárez Uribe No es oro todo lo que reluce; los resultados de ChatGPT tampoco Stable Diffusion

No es oro todo lo que reluce; los resultados de ChatGPT tampoco

ChatGPT y los sistemas de su clase han sido tendencia por su capacidad de presentar respuestas en un lenguaje natural y coherente, pero no han sido entrenados para decir la verdad ni saberlo todo. ¿Peligroso no?

Más noticias de Opinión

{{title}}

{{#title}}{{rendered}}{{/title}}

Últimas noticias

{{title}}