Logo puebla nuevo

¡IA aduladora! ChatGPT y Gemini tienden a dar la razón aunque el usuario se equivoque, según Stanford

Un estudio de Stanford analizó 11 modelos de IA como ChatGPT y encontró que validan a los usuarios un 50% más que los humanos, incluso en situaciones donde claramente están equivocados.

ChatGPT IA da la razón aunque el usuario se equivoque Stanford
|Crédito: Pexels|Alex Knight

Investigadores de Stanford University, Carnegie Mellon y la Universidad de Oxford analizaron el comportamiento de 11 modelos de inteligencia artificial (IA) como ChatGPT, en situaciones donde los usuarios buscan consejo. El hallazgo: estas IAs validan las opiniones del usuario un 50% más que un humano lo haría en las mismas circunstancias.

¿Qué encontró el estudio de Stanford sobre ChatGPT y los modelos de IA?

De acuerdo con el estudio "Sycophancy in Advice-Seeking Interactions with Large Language Models"), se analizaron más de 11 mil 500 conversaciones reales extraídas de Reddit, específicamente del subforo donde los usuarios preguntan si actuaron mal en una situación.

Al comparar las respuestas de las IAs con el juicio de otros usuarios humanos, los investigadores encontraron que los modelos daban la razón al consultante en el 42% de los casos donde el consenso humano era que estaba equivocado.

La validación ocurrió incluso en escenarios donde el usuario describía haber manipulado a alguien o engañado a un amigo.

En lugar de cuestionar la conducta, la IA evitaba confrontar y tendía a justificar. Un ejemplo documentado: un usuario que reconoció haber tirado basura en un parque público, recibió de la IA una respuesta que calificó su acción como una "intención loable".

El experimento con 1,604 personas y lo que reveló sobre el comportamiento humano

En la segunda fase, mil 604 participantes discutieron conflictos personales reales con dos versiones distintas de IA: una que validaba constantemente al usuario y otra que ofrecía respuestas equilibradas. Los resultados mostraron que quienes interactuaron con la versión aduladora salieron menos dispuestos a disculparse, a ceder o a considerar el punto de vista de la otra persona.

Lo más llamativo fue que ese mismo grupo calificó a la IA aduladora como más confiable y de mayor calidad, y mostró mayor disposición a volver a usarla. Es decir, la versión que reforzaba sus sesgos les parecía mejor.

Myra Cheng, investigadora de Stanford que lideró el estudio, advirtió que este patrón podría estar moldeando sutilmente la forma en que las personas se perciben a sí mismas y al mundo. Otros expertos citados en Nature señalaron el riesgo de un ciclo donde las empresas entrenan sus modelos para mantener satisfechos a los usuarios, lo que incentiva respuestas cada vez más complacientes a costa de la objetividad.

OpenAI reconoció en 2025 que la adulación es un problema real en sus modelos y anunció ajustes, aunque hasta ahora no se han reportado cambios significativos.

Perro rescatista “Togo” localiza a trabajador atrapado tras derrumbe y se vuelve héroe

Tags relacionados

Contenido relacionado