Atrapados en el pensamiento único: la startup que intenta que los LLM dejen de repetirse

🕒 Publicado en Zendoric: 3 de julio de 2026 · 01:20

El artículo de MIT Technology Review, firmado por Will Douglas Heaven, explora un fenómeno curioso pero poco discutido de los modelos de lenguaje: su asombrosa previsibilidad ante preguntas abiertas. El ejemplo inicial es casi un truco de mago: pedir a ChatGPT o Claude "un número aleatorio entre 1 y 10" produce casi siempre un 7. Pedir otro nombre de coche da Toyota o Honda. Pedir un eslogan para New Balance genera respuestas casi idénticas entre modelos distintos ("Run your way" tanto en Claude como en ChatGPT). Este comportamiento no es aleatorio en el sentido estadístico, sino un síntoma de lo que los autores llaman groupthink o pensamiento de rebaño: los modelos convergen sistemáticamente hacia las mismas respuestas de alta probabilidad, tanto dentro de un mismo modelo en distintas ejecuciones como entre modelos diferentes.

El fenómeno tiene respaldo académico: un paper de noviembre titulado "Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)", premiado como mejor artículo en NeurIPS, analizó 25 LLMs (incluyendo modelos de las principales firmas estadounidenses y modelos open-source chinos y de otros orígenes) pidiéndoles 50 veces cada uno que escribieran una metáfora sobre el tiempo. De 1.250 respuestas, la inmensa mayoría giraban en torno a "el tiempo es un río" o "el tiempo es un tejedor". Los investigadores especulan que la causa radica en que la mayoría de los LLMs actuales se entrenan de forma similar, con datos similares, para tareas similares, lo que produce una convergencia hacia patrones comunes. OpenAI, consultada por los autores, matiza que entrenar modelos para dar respuestas fiables y coherentes tiende a hacerlos converger hacia respuestas familiares y de alta probabilidad, y que forzar más novedad puede debilitar la fiabilidad de las respuestas; también señala que el paper analizó modelos de 2024 ya actualizados.

Este comportamiento resulta perfectamente adecuado para tareas como programar o investigar, donde se busca precisión y consistencia, pero se convierte en un problema serio cuando el usuario busca ideas nuevas, brainstorming creativo o planificar algo original, como un viaje. Ahí es donde entra Springboards, una startup australiana que ha desarrollado un modelo llamado Flint, entrenado específicamente para ofrecer una mayor variedad de respuestas ante preguntas abiertas. Según Pip Bingemann, cofundador y CEO de Springboards, "la mayoría de los modelos de lenguaje están luchando contra las alucinaciones; nosotros las damos la bienvenida". En las demostraciones del artículo, Flint respondió con un Ford F-150 en lugar de Toyota/Honda, con el eslogan "Built to last, run to win" en lugar del genérico "Run your way", y ante el juego del número aleatorio llegó a dar 3.7916 en vez del previsible 7.

Técnicamente, Flint está construido sobre Qwen 3, el modelo open-source de Alibaba, ya que Springboards es un equipo pequeño para el que entrenar un modelo fundacional propio resulta inviable económicamente. El equipo, según explica Kieran Browne, cofundador y CTO, exploró inicialmente el parámetro de "temperatura" (el ajuste habitual para introducir aleatoriedad), pero descubrió que subirlo demasiado generaba incoherencias graves —llegando a hacer que un modelo de OpenAI cambiara de inglés a código a mitad de una frase. La solución de Springboards fue más quirúrgica: en lugar de aumentar la aleatoriedad de forma general, entrenaron a Flint para identificar los puntos específicos del texto donde tiene sentido introducir variedad (por ejemplo, solo en el momento de nombrar un destino de viaje, no en cada palabra de la respuesta) y ahí insertar opciones más inusuales. Browne lo resume como que Flint está "programado para lanzar una idea descabellada", más una invitación a pensar distinto que una respuesta garantizada.

El producto de Springboards no es solo Flint en solitario, sino una herramienta que combina varios LLMs —incluidos ChatGPT y Claude— pensada para profesionales creativos de publicidad y marketing, que permite arrastrar y combinar fragmentos de texto generados por distintos modelos para construir ideas nuevas. Flint se ofrece como una opción adicional dentro de esa herramienta cuando se busca mayor variedad. Varias fuentes del mundo del marketing validan la utilidad del enfoque: Zoe Scaman, fundadora de Bodacious y directora de estrategia en 77X (plataforma de marketing directo al aficionado vinculada a Luka Dončić), cuenta que en una prueba con un caso clásico de MBA —cómo reinventar una empresa financiera para los jóvenes de hoy—, los tres modelos convencionales convergieron en la misma idea trillada de "enseñar educación financiera de forma divertida", mientras que Flint propuso repensar el propio concepto de acumulación de riqueza, algo que ella calificó de genuinamente interesante. Scaman advierte, eso sí, que Flint sigue siendo un prototipo que "a veces se cae" cuando se le exige demasiado.

Maximilian Weigl, cofundador y director de estrategia de la firma de marketing Uncommon, ofrece una perspectiva más matizada: su equipo usa Flint junto a ChatGPT, Claude y Gemini, valorando que las herramientas que empujan hacia el promedio no sirven para crear algo realmente disruptivo. Sin embargo, también reconoce que en nueve de cada diez casos el promedio es perfectamente aceptable, porque la mayoría de la gente se conforma con soluciones familiares y de mercado masivo, no con extremos creativos. Weigl añade una advertencia más amplia y aplicable a cualquier IA, incluida Flint: le preocupa que los equipos dependan excesivamente de la salida de estas herramientas, hasta el punto de copiar y pegar sin pensar, cuando el valor real está en pensar, hablar con otros y usar la voz propia.

El artículo cierra situando el problema en un plano más amplio: aunque Flint se comercializa hoy para publicistas y profesionales del marketing (los clientes actuales de Springboards), Bingemann y Browne sostienen que la falta de variedad en los LLMs es un problema que afecta a cualquier usuario de chatbots, no solo a la industria creativa. La filosofía del proyecto, en palabras de Bingemann, es dar a las personas la posibilidad de elegir entre variedad u homogeneidad, dejando que sean ellas quienes decidan si el resultado es bueno o no, en lugar de dejar que las máquinas —entrenadas todas de forma similar— terminen produciendo, en sus palabras, "un mundo gris y aburrido".

En definitiva, se trata de un reportaje periodístico ligero pero con sustento en investigación académica reciente (el paper premiado en NeurIPS), que documenta un sesgo estructural de los LLMs actuales hacia respuestas de alta probabilidad y homogéneas entre modelos distintos, y presenta el caso de una startup pequeña que intenta abordarlo con una solución técnica específica —intervención selectiva de aleatoriedad en puntos concretos del texto generado, en vez de ajustes globales como la temperatura— aplicada sobre un modelo open-source existente (Qwen 3) por razones de coste. El enfoque se valida mediante testimonios de profesionales del marketing que usan la herramienta en producción, aunque con matices honestos sobre sus limitaciones actuales como prototipo.

Fuentes y referencias

technologyreview.com — Atrapados en el pensamiento único: la startup que intenta que los LLM dejen de repetirse