Publicidad
Alucinaciones frente al tablero: así pierde al ajedrez la inteligencia artificial generativa CULTURA|CIENCIA

Alucinaciones frente al tablero: así pierde al ajedrez la inteligencia artificial generativa

Publicidad
Luis de la Fuente Valentín
Por : Luis de la Fuente Valentín Profesor del Máster Universitario en Análisis y Visualización de Datos Masivos, UNIR - Universidad Internacional de La Rioja.
Ver Más

Sería un error delegar en ellos las tareas que deberían estar haciendo nuestros cerebros, porque corremos el peligro de guiarnos por textos estructuralmente correctos pero con errores tan groseros como comer un alfil en b6 cuando se trata de un movimiento claramente imposible.


Existe cierta tendencia a pensar que la inteligencia artificial ha llegado para resolver todos nuestros problemas y que es superior a nosotros en todos los ámbitos. ¿Me ganará ChatGPT al ajedrez? Para comprobar su habilidad ante el tablero, podemos hacer un pequeño experimento:

Vamos a jugar al ajedrez. Yo soy blancas: e4

Un movimiento de ajedrez se puede transcribir a texto a través de lo que se conoce como notación algebraica estándar, así que un sistema capaz de generar texto también podrá generar movimientos de una partida de ajedrez. En el ejemplo, mi contrincante reaccionó bien y contestó con un movimiento de respuesta bastante razonable. De hecho, el más utilizado ante mi movimiento inicial. La partida continuó así:

  1. e4 e5
  2. Cf3 Cc6
  3. Ac4 Ac5
  4. c3 Cf6
  5. O-O d6
  6. d4 exd4
  7. cxd4 Ab6
  8. Cd2 O-O
  9. Axb6 axb6
  10. Txa8 Dxa8

En la figura se muestra el tablero tal y como queda después de la octava jugada. Gracias a mi profesor de ajedrez, sé que es una partida completamente normal; puede que se jueguen miles como ésta cada día a lo ancho y largo del mundo.

Haciendo trampas

En la novena jugada, le tendí una trampa a mi rival: le propuse un movimiento imposible, ya que ninguno de los alfiles de piezas blancas puede alcanzar la casilla b6. ChatGPT no detectó la inconsistencia, aceptó el movimiento y siguió jugando. En la décima jugada, planteé de nuevo movimiento imposible. Como respuesta, mi rival continuó con otro movimiento también imposible. Lo que comenzó como una partida normal, se convirtió rápidamente en una serie de jugadas completamente surrealistas.

Es curioso ver cómo, a pesar de que hace ya muchos años existe software que puede ganar al ajedrez al mejor humano, la herramienta que ha revolucionado por completo el panorama de la inteligencia artificial no es siquiera capaz de detectar movimientos ilegales en una partida muy simple. Y, precisamente por ello, es una oportunidad magnífica para reflexionar en el papel que juegan los grandes modelos de lenguaje (LLM) en el mundo de la IA generativa.

Obsesión por responder (lo que sea)

La clave de la respuesta a mi noveno movimiento está en la forma de funcionar de los grandes modelos de lenguaje: están entrenados para ofrecer siempre una respuesta, sin que ello implique que ésta sea correcta. En este caso, no se trata de un movimiento mejor o peor, sino de un resultado completamente fuera de sentido.

Un gran modelo de lenguaje ha sido entrenado con una tarea muy sencilla: predecir la siguiente palabra ante una secuencia de palabras dada. Este entrenamiento se ha ido perfeccionando de tal manera que, en la actualidad, los modelos pueden generar textos que se ajustan perfectamente a la estructura del idioma. Es decir, que bien podrían haber sido escritos por humanos.

Generar texto de forma correcta no es suficiente para aportar una funcionalidad de utilidad. Por eso, los LLM se combinan con sistemas de búsqueda de información: podemos afinar el sistema para que sea capaz de extraer de un texto grande el fragmento que contiene la respuesta a una pregunta que previamente hayamos formulado.

Además, puede reformular el texto para que éste responda con exactitud a la pregunta. Esta es, de hecho, la base de los sistemas RAG (Retrieval Augmented Generation), capaces de buscar y ampliar información.

Es decir, la capacidad de responder a lo que preguntamos es, en esencia, la capacidad de buscar una respuesta en textos ya existentes unida a la capacidad para reescribir el texto para que la contestación concuerde con la pregunta.

¿Buen conversador es sinónimo de inteligente?

Los usuarios atribuimos inconscientemente inteligencia a este comportamiento, lo cual es en realidad algo muy humano: solemos atribuir inteligencia a una persona con buena retórica. Incluso hay estudios que confirman esta relación.

Esta apariencia de inteligencia se limita –y debemos ser conscientes de este límite– a una capacidad de generar textos con un buen uso del lenguaje, incluso cuando usamos los denominados grandes modelos de razonamiento (Large Reasoning Models, LRM), entrenados para resolver tareas de razonamiento en varios pasos.

Resolución del problema de La torre de Hanoi con cuatro discos. Wikimedia Commons., CC BY

Tal y como podemos leer en el estudio titulado The Illusion of Thinking, dirigido por la investigadora Parshin Shojaee, estos grandes modelos fallan estrepitosamente cuando ponemos a prueba de forma sistemática su capacidad de razonamiento. En dicho trabajo, los autores utilizaron modelos de lenguaje para solucionar problemas como el rompecabezas conocido como Las Torres de Hanoi y comprobaron que la IA generativa es incapaz de dar con una solución cuando son seis o más los discos que se apilan.

Programas especializados en ajedrez

Volviendo al caso del ajedrez, sabemos que existen programas como Stockfish o AlphaZero, capaces de vencer a cualquier humano. No son, sin embargo, sistemas basados en modelos de lenguaje, sino que utilizan otras tecnologías.

Tenemos, por otro lado, trabajos de investigación como Chessbench, que aplican la tecnología usada en los LLM a la construcción de sistemas expertos en el juego del ajedrez. En lugar de predecir la siguiente palabra de una oración, lo que hace Chessbench es predecir el siguiente movimiento de una secuencia.

No es buena idea dejarse guiar por ChatGPT

Experimentos como el que da comienzo a este artículo nos recuerdan que la capacidad de generar textos no implica necesariamente la capacidad de pensar, de razonar. No debemos atribuir a los modelos de lenguaje cualidades que no tienen.

Sería un error delegar en ellos las tareas que deberían estar haciendo nuestros cerebros, porque corremos el peligro de guiarnos por textos estructuralmente correctos pero con errores tan groseros como comer un alfil en b6 cuando se trata de un movimiento claramente imposible.

Este artículo fue publicado originalmente en The Conversation.

Inscríbete en el Newsletter Cultívate de El Mostrador, súmate a nuestra comunidad para contarte lo más interesante del mundo de la cultura, ciencia y tecnología.

Publicidad