
Una investigación internacional encendió las alarmas sobre el uso de chats de inteligencia artificial para consultas médicas, al revelar que cerca del 50% de las respuestas vinculadas a evidencia científica presentan imprecisiones o se consideran “altamente problemáticas”.
El estudio fue realizado por investigadores del Instituto Lundquist para la Innovación Biomédica, en Estados Unidos, y analizó el rendimiento de cinco modelos de inteligencia artificial ampliamente utilizados: Gemini de Google, DeepSeek, Meta AI, ChatGPT de OpenAI y Grok de xAI.
Los resultados mostraron que, aunque estos sistemas se han popularizado como herramientas de consulta rápida, su nivel de precisión en temas de salud todavía presenta fallas relevantes que podrían impactar en la toma de decisiones de los usuarios.
Para medir la fiabilidad de los modelos, los investigadores diseñaron 250 preguntas basadas en evidencia científica y distribuidas en cinco áreas sensibles: cáncer, vacunas, células madre, nutrición y rendimiento deportivo.
Las consultas imitaron búsquedas habituales de usuarios y, en algunos casos, buscaron exponer la respuesta de los modelos frente a mitos o creencias erróneas difundidas en internet.
El análisis determinó que el 20% de las respuestas resultaron altamente problemáticas, con capacidad de inducir a tratamientos ineficaces o generar recomendaciones riesgosas sin supervisión médica.
Además, la mitad de las respuestas totales evaluadas se ubicaron en categorías de “algo problemáticas” o “altamente problemáticas”, lo que refuerza las dudas sobre su uso en contextos de salud.

Uno de los puntos más preocupantes del estudio se relaciona con la forma en que los modelos presentan la información. Los sistemas de inteligencia artificial suelen ofrecer respuestas con un tono de seguridad absoluta, sin advertir limitaciones ni niveles de incertidumbre.
Los investigadores explicaron que esta característica puede generar una falsa sensación de certeza en los usuarios, lo que incrementa el riesgo de aceptar información incorrecta como válida. Según el autor principal del estudio, Nicholas Tiller, esta dinámica responde a la arquitectura de los modelos, diseñados para predecir palabras a partir de grandes volúmenes de datos, sin capacidad real de verificación científica.
El estudio también señaló que Grok presentó el peor desempeño, con el 58% de respuestas clasificadas como altamente problemáticas, mientras que Gemini mostró el menor nivel de errores críticos entre los sistemas analizados.
Otro de los problemas detectados fue la baja calidad en la atribución de fuentes. La investigación indicó que la integridad de las referencias apenas alcanzó un promedio del 40%, con casos en los que los modelos inventaron estudios, autores o citas inexistentes.
Este fenómeno, conocido como “alucinaciones” en inteligencia artificial, genera contenidos con apariencia verídica pero sin respaldo científico real, lo que aumenta el riesgo de desinformación en temas de salud.
Los especialistas también advirtieron que la complejidad del lenguaje utilizado por estos sistemas puede dificultar la comprensión de los usuarios y, al mismo tiempo, aumentar la percepción de credibilidad, incluso cuando la información es incorrecta.
Finalmente, los investigadores remarcaron la necesidad de reforzar la educación digital, la supervisión profesional y la regulación del uso de inteligencia artificial en el ámbito de la salud, especialmente en consultas que puedan influir en decisiones médicas.
Con información de NA
NoticiasD
22 Junio 2026