Mié. Abr 24th, 2024

La paciente era una mujer de 39 años que visitó la sala de emergencias del Centro Médico Beth Israel Deaconess en Boston. Su rodilla izquierda le había estado doliendo durante varios días. El día anterior había tenido fiebre de 102 grados. Ya no estaba, pero todavía tenía escalofríos. Y su rodilla estaba roja e hinchada.

¿Cuál fue el diagnóstico?

En un caluroso viernes reciente, la residente de medicina, la Dra. Megan Landon, presentó este caso de la vida real en una sala llena de estudiantes de medicina y residentes. Los han reunido para aprender una habilidad que puede ser endiabladamente difícil de enseñar: cómo pensar como un médico.

«Los médicos son terribles para enseñar a otros médicos cómo pensamos», dijo el Dr. Adam Rodman, internista, historiador médico y organizador de eventos en Beth Israel Deaconess.

Pero esta vez, podrían llamar a un experto para que les ayude a hacer un diagnóstico: GPT-4, la última versión de un chatbot publicado por la empresa OpenAI.

La inteligencia artificial está transformando muchos aspectos de la práctica de la medicina y algunos profesionales de la salud están utilizando estas herramientas para ayudar en el diagnóstico. Los médicos de Beth Israel Deaconess, un hospital universitario afiliado a la Escuela de Medicina de Harvard, decidieron explorar cómo se podrían usar (y mal) los chatbots para capacitar a futuros médicos.

Instructores como el Dr. Rodman esperan que los estudiantes de medicina puedan recurrir a GPT-4 y otros chatbots para algo parecido a lo que los médicos llaman una consulta en la acera: cuando ignoran a un colega y le piden su opinión sobre un caso difícil. La idea es usar un chatbot de la misma manera que los médicos buscan sugerencias e ideas en otros.

Durante más de un siglo, los médicos han sido retratados como detectives que recopilan pistas y las usan para encontrar al culpable. Pero los médicos experimentados en realidad usan un método diferente, el reconocimiento de patrones, para descubrir qué es lo que está mal. En medicina, se llama historia de enfermedad: signos, síntomas y resultados de pruebas que los médicos juntan para contar una historia cohesiva basada en casos similares que conocen o han visto ellos mismos.

Si el escenario de la enfermedad no ayuda, dijo el Dr. Rodman, los médicos recurren a otras estrategias, como asignar probabilidades a varios diagnósticos que podrían encajar.

Los investigadores han intentado durante más de medio siglo diseñar programas informáticos para realizar diagnósticos médicos, pero nada ha tenido éxito.

Los médicos dicen que GPT-4 es diferente. «Creará algo que es notablemente similar a un escenario de enfermedad», dijo el Dr. Rodman. De esa manera, agregó, «es fundamentalmente diferente de un motor de búsqueda».

El Dr. Rodman y otros médicos del Beth Israel Deaconess solicitaron a GPT-4 posibles diagnósticos en casos difíciles. En un estudiar publicado el mes pasado en la revista médica JAMA, encontraron que se desempeñó mejor que la mayoría de los médicos en los desafíos de diagnóstico semanales publicados en el New England Journal of Medicine.

Pero, aprendieron, hay un arte en el uso del programa, y ​​hay trampas.

El Dr. Christopher Smith, director del programa de residencia de medicina interna del centro médico, dijo que los estudiantes de medicina y los residentes «definitivamente lo están usando». Pero, agregó, «si aprenden algo es una pregunta abierta».

El problema es que podrían confiar en la IA para el diagnóstico de la misma manera que confiarían en una calculadora en su teléfono para resolver un problema matemático. Esto, dijo el Dr. Smith, es peligroso.

Aprender, dice, implica tratar de entender las cosas: “Así es como recordamos las cosas. Parte del aprendizaje es la lucha. Si externaliza el aprendizaje a GPT, esta lucha habrá terminado.

En la reunión, los estudiantes y los residentes se dividieron en grupos y trataron de averiguar qué le pasaba al paciente con la rodilla hinchada. Luego recurrieron a GPT-4.

Los grupos probaron diferentes enfoques.

Uno de ellos usó GPT-4 para buscar en Internet, de la misma manera que uno usaría Google. El chatbot escupió una lista de posibles diagnósticos, incluido el trauma. Pero cuando los miembros de la banda le pidieron que explicara su razonamiento, el bot se mostró decepcionado y explicó su elección diciendo: «El trauma es una causa común de lesión en la rodilla».

Otro grupo hizo una lluvia de ideas sobre posibles hipótesis y le pidió a GPT-4 que las verificara. La lista del chatbot se alinea con la del grupo: infecciones, incluida la enfermedad de Lyme; artritis, incluida la gota, un tipo de artritis que involucra cristales en las articulaciones; y traumatismos.

GPT-4 agregó la artritis reumatoide a las principales posibilidades, aunque no ocupaba un lugar destacado en la lista del grupo. Los instructores le dijeron más tarde al grupo que la gota era poco probable para esta paciente porque era joven y mujer. Y la artritis reumatoide probablemente podría descartarse porque solo una articulación estuvo inflamada y solo durante unos pocos días.

Como consulta en la acera, GPT-4 pareció pasar la prueba, o al menos estar de acuerdo con los estudiantes y residentes. Pero en este ejercicio, no ofreció ideas ni escenarios de enfermedades.

Una razón podría ser que los estudiantes y los residentes estaban usando el bot más como un motor de búsqueda que como una búsqueda en la acera.

Para usar el bot correctamente, dijeron los instructores, deberían comenzar diciéndole al GPT-4 algo como: «Eres médico y ves a una mujer de 39 años con dolor en la rodilla». Luego, deben enumerar sus síntomas antes de solicitar un diagnóstico y preguntar sobre el razonamiento del bot, como lo harían con un colega médico.

Esto, dijeron los instructores, es una forma de aprovechar el poder del GPT-4. Pero también es crucial reconocer que los chatbots pueden cometer errores y «alucinar»: brindan respuestas que, de hecho, no tienen base. Su uso requiere saber cuándo es incorrecto.

«No está mal usar estas herramientas», dijo el Dr. Byron Crowe, médico de medicina interna del hospital. «Solo tienes que usarlos de la manera correcta».

Le dio al grupo una analogía.

«Los pilotos usan GPS», dijo el Dr. Crowe. Pero, agregó, las aerolíneas “tienen un nivel de confiabilidad muy alto”. En medicina, dijo, el uso de chatbots “es muy tentador”, pero se deben aplicar los mismos altos estándares.

«Es un gran compañero de pensamiento, pero eso no reemplaza la profunda experiencia mental», dijo.

Al final de la sesión, los instructores revelaron la verdadera razón de la inflamación de la rodilla del paciente.

Resultó ser una posibilidad que cada grupo había considerado y que GPT-4 había propuesto.

Tenía la enfermedad de Lyme.

Olivia Allison contribuyó con el reportaje.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *