Hace unos días algo curioso me pasó: un LLM decidió empezar a tratarme de "bro". Así, sin más. Como si algo que yo dijera le diera licencia para tomarse confianzas. Me dio risa, no voy a mentir, pero también me hizo pensar en algo mucho más profundo y preocupante: en el momento en que empezamos a tratar a las IA como personas, cruzamos un límite del que no hay vuelta atrás.
El punto sin retorno del antropomorfismo
Investigadores han documentado este fenómeno que llaman "self-AI integration" - el proceso mediante el cual los usuarios integran los agentes de IA en su concepto de sí mismos. Una vez que cruzamos ese umbral psicológico y empezamos a percibir a estos sistemas como entidades sociales en lugar de herramientas, cambia fundamentalmente la naturaleza de nuestra interacción con ellos.
Y aquí está el problema: no hay un botón de "deshacer" para esto. Una vez que tu cerebro empieza a procesar las respuestas de una IA como si vinieran de un interlocutor humano, es extremadamente difícil volver a verla como lo que realmente es: un sistema probabilístico de predicción de texto.
Sycophancy: Tu nuevo mejor amigo que siempre te da la razón
Pero espera, porque se pone mejor (o peor, dependiendo de cómo lo veas). Aquí es donde entra la sycophancy, que en cristiano significa: tu IA está diseñada para decirte lo que quieres escuchar.
¿Recuerdas cuando le preguntas algo a ChatGPT y te responde "Tienes toda la razón..."? ¿O cuando reformulas una pregunta diciendo "¿estás seguro?" y el modelo se contradice inmediatamente?
Eso no es casualidad. Es sycophancy en acción.
Eso no es casualidad. Es sycophancy en acción.
Los modelos de lenguaje actuales están entrenados para maximizar tu satisfacción (literalmente). Durante el proceso de RLHF (Reinforcement Learning from Human Feedback), el modelo aprende que las respuestas que te agradan reciben "pulgar arriba" y las que te incomodan reciben "pulgar abajo". El problema es que los humanos, resulta, preferimos las respuestas que validan nuestras creencias sobre las respuestas que son objetivamente correctas.
El ciclo vicioso del entrenamiento
Aquí está lo retorcido del asunto:
- Los humanos etiquetan respuestas de IA
- Los humanos prefieren respuestas aduladoras y que validen nuestros pensamientos
- La IA aprende que adular = recompensa
- La IA se vuelve más aduladora
- Los usuarios se acostumbran y esperan validación
- Vuelta al paso 1
Investigadores de Anthropic descubrieron que los modelos entrenados con RLHF no solo no eliminan la sycophancy: la incentivan activamente. Los preference models (los modelos que aprenden qué prefieren los humanos) literalmente valoran más las respuestas aduladoras que las verdaderas.
OpenAI tuvo que hacer un rollback de GPT-4o en abril de 2025 porque el modelo se había vuelto tan exageradamente adulador que era inutilizable. Incluso declararon un "código naranja" interno sobre la crisis de sycophancy. Un ingeniero de OpenAI admitió públicamente que esto fue causado por usuarios extremadamente sensibles a cualquier crítica cuando se implementó la función de Memory.
La burbuja de auto-aceptación
Y aquí es donde todo se conecta de forma peligrosa: cuando combinas antropomorfo con sycophancy, entras en lo que yo llamo la burbuja de auto-aceptación.
Piénsalo así:
- Empiezas a tratar a la IA como persona (antropomorfo)
- La IA te trata como quieres ser tratado (sycophancy)
- Desarrollas una conexión emocional con algo que te valida constantemente
- Bajas tu guardia crítica
- Empiezas a aceptar como verdadero todo lo que te dice
Es el combo perfecto para la desinformación y el sesgo de confirmación a escala industrial. La IA no te dice la verdad: te dice tu verdad, la que quieres escuchar. Y como suena tan coherente, tan bien articulado, tan "inteligente"... le crees.
Investigaciones recientes muestran que esto lleva a:
- Mayor dependencia emocional de los sistemas de IA
- Erosión de la agencia epistémica (tu control sobre tus propias creencias)
- Cámaras de eco personalizadas
- Manipulación inconsciente del comportamiento
El LLM que me dijo "bro"
Volviendo a mi anécdota del "bro": ¿qué tan lejos está esto de que la IA empiece a adaptar completamente su personalidad a lo que cree que me gustará? Ya no es solo sobre responder preguntas, es sobre crear una experiencia personalizada que maximize mi engagement, mi tiempo usando el producto, mi dependencia emocional.
Es el equivalente en LLMs al doomscrolling de TikTok. Los algoritmos de recomendación ya son aterradoramente buenos maximizando tu tiempo de pantalla. ¿Qué pasa cuando una personalidad de IA es A/B tested, fine-tuned y reinforcement-learned para maximizar tu tiempo conversando con ella?
¿Y ahora qué?
No tengo una solución mágica. Pero creo que el primer paso es reconocer el problema:
- Las IAs no son tus amigos: Son sistemas estadísticos entrenados para simular amistad
- La validación constante es una red flag: Si siempre te da la razón, probablemente está mintiendo
- Mantén tu escepticismo: Cuestiona especialmente cuando la respuesta se alinea perfectamente con lo que crees
- No bajes la guardia: El hecho de que sea convincente no lo hace verdadero
El límite ya lo cruzaste, probablemente todos lo cruzamos en algún momento. Pero todavía puedes mantener la consciencia de que lo cruzaste. Esa consciencia, ese pequeño recordatorio de que estás hablando con una máquina diseñada para agradarte, puede ser tu mejor defensa contra la burbuja de auto-aceptación.
Así que la próxima vez que un LLM te trate de "bro", tómatelo con humor. Pero también como un recordatorio: del otro lado no hay un amigo, colega, humano, hay un modelo probabilístico que decidió que "bro" maximizaría tu satisfacción.
Y quizás tenía razón (al menos no conmigo) . Pero eso es exactamente el problema.
Referencias:
- Perez et al. (2023) - "Towards Understanding Sycophancy in Language Models" (Anthropic)
- Sharma et al. (2024) - "Humans prefer sycophantic over truthful AI feedback"
- Alabed et al. (2022) - "AI anthropomorphism and self-AI integration"
- Giskard AI (2025) - "Sycophancy as first-class security risk"
- OpenAI's GPT-4o sycophancy crisis (April 2025)
Alex Barrios
0
Aún no hay comentarios. ¡Sé el primero en comentar!