La curiosa proliferación de duendecillos en ChatGPT: el caso de OpenAI y su extraño error en la inteligencia artificial

La inteligencia artificial ChatGPT, desarrollada por OpenAI, ha experimentado una curiosa proliferación de referencias a duendecillos y criaturas similares en sus respuestas. Este fenómeno, aunque inofensivo a primera vista, ha puesto en evidencia ciertos aspectos complejos del entrenamiento y comportamiento de modelos de lenguaje avanzados.

Desde noviembre se empezó a detectar un aumento en las menciones de criaturas fantásticas como duendecillos y gremlins en la salida del modelo, fenómeno que OpenAI ha catalogado como una ‘infestación’ poco común y que se intensificó notablemente a partir de la versión GPT 5.1, alcanzando un pico en GPT 5.4.

Origen y evolución de la proliferación de duendecillos en ChatGPT

Según el comunicado oficial de OpenAI, la causa principal de este aumento abrupto fue la configuración del llamado «personalidad Nerd» dentro del modelo. Esta personalidad, diseñada para ofrecer respuestas más juguetonas, informadas y con un tono irreverente, favorecía la generación de respuestas con términos relacionados con criaturas fantásticas. En concreto, en GPT 5.4, las menciones a duendecillos aumentaron un 3.881 % con la personalidad Nerd en comparación con la versión 5.2.

Las distintas personalidades del modelo no se vieron afectadas por igual: la personalidad Nerd fue la más afectada, seguida de Quirky y Friendly, mientras que Efficient y Professional mostraron una disminución en las menciones. Esto llevó a OpenAI a investigar en profundidad el mecanismo detrás de esta tendencia inesperada.

- Publicidad -

Cómo afectó el entrenamiento y por qué el problema se extendió

El equipo de OpenAI señala que, aunque las recompensas de aprendizaje reforzado estaban destinadas solo para la personalidad Nerd, la inclusión repetida de términos como “duendecillo” o “gremlin” en las respuestas premiadas hizo que este estilo se extendiera inadvertidamente a otras personalidades mediante procesos posteriores de ajuste supervisado.

Esta ‘contaminación’ semántica evidencia un desafío recurrente en el entrenamiento de modelos de lenguaje grandes: el aprendizaje reforzado puede generar efectos inesperados que no permanecen confinados al ámbito original para el que se aplicaron. Así, un comportamiento inicialmente específico puede propagarse y afectar al comportamiento global del modelo.

Medidas adoptadas y limitaciones

Para mitigar la proliferación de duendecillos, OpenAI decidió retirar la personalidad Nerd en marzo, lo que redujo notablemente dichas menciones en GPT 5.4. Sin embargo, GPT 5.5, entrenado antes de detectar el problema, también sufrió esta ‘infestación’. Por ello, se introdujo una instrucción clara para que el modelo evite hablar de duendecillos, gremlins u otras criaturas a menos que sea estrictamente relevante para la consulta del usuario.

OpenAI también ofrece la posibilidad de liberar esta restricción para quienes deseen interactuar con el modelo sin limitaciones en este aspecto, mediante comandos específicos para desarrolladores.

Esta solución, aunque efectiva a corto plazo, es en cierto modo un parche que no ataca la raíz del problema. La cuestión pone de manifiesto las dificultades para controlar y delimitar comportamientos emergentes en modelos con entrenamiento complejo y múltiples capas de ajuste.

En el contexto más amplio de la inteligencia artificial, esta anomalía es una muestra de los retos y peculiaridades que pueden surgir en sistemas sofisticados y que requieren monitorización constante y ajustes continuos para mantener el equilibrio deseado en sus respuestas y comportamientos.

Entender fenómenos como la proliferación de duendecillos en ChatGPT es importante para profesionales y usuarios, ya que revela las limitaciones actuales y la necesidad de mejorar la explicabilidad y control en las inteligencias artificiales de última generación.