This post was originally published on this site
Una de las tareas del oncólogo es preparar a los pacientes con cáncer para tomar decisiones difíciles cuando se acerca el final. Sin embargo, no siempre se acuerdan de hacerlo.
En el sistema de salud de la Universidad de Pennsylvania (Penn Medicine), un algoritmo de inteligencia artificial (IA) que predice las probabilidades de muerte de los pacientes impulsa a los médicos a hablar con ellos sobre el tratamiento y sus preferencias al final de la vida.
Pero esta IA dista mucho de ser una herramienta fácil de usar, que se configura y listo.
Según un estudio de 2022, una revisión tecnológica de rutina descubrió que el algoritmo se había deteriorado durante la pandemia de covid, y que su precisión había bajado un 7% a la hora de predecir cuáles pacientes morirían.
Es probable que este deterioro haya tenido consecuencias concretas en la vida real. Ravi Parikh, oncólogo de la Universidad Emory y autor principal del estudio, explicó a KFF Health News que, en cientos de casos, la herramienta no logró alertar a los médicos para que comenzaran conversaciones cruciales con los pacientes, que podrían haberles evitado quimioterapias innecesarias.
Parikh cree que varios algoritmos diseñados para mejorar la atención médica se vieron afectados durante la pandemia, no sólo el de Penn Medicine. “Muchas instituciones no están monitoreando sistemáticamente el rendimiento de sus sistemas”, explicó.
Las fallas de los algoritmos son solo una parte de un dilema que los especialistas en informática y los médicos tienen desde hace tiempo, pero que ahora está empezando a desconcertar a los directivos de los hospitales y a los investigadores.
Los sistemas de inteligencia artificial requieren una supervisión continua y una dotación de personal altamente capacitado tanto para su implementación como para garantizar que funcionen bien.
En resumen: se necesitan más máquinas y más personas para asegurarse de que las nuevas herramientas no cometan errores.
“Todo el mundo piensa que la IA mejorará el acceso, aumentará la capacidad de los sistemas de salud y optimizará la atención, y eso suena muy bien”, dijo Nigam Shah, jefe de Datos Científicos en Stanford Health Care. “Pero, si el costo de la atención aumenta en un 20%, ¿es realmente viable?”.
A los funcionarios de gobierno les preocupa que los hospitales no tengan recursos para monitorear rigurosamente estas tecnologías. “He buscado por todas partes”, afirmó Robert Califf, comisionado de la Administración de Drogas y Alimentos (FDA), en una reciente mesa redonda sobre IA. “No creo que en Estados Unidos haya un solo sistema de salud que sea capaz de validar un algoritmo de IA implementado en un sistema de atención clínica”, agregó.
Sin embargo, la IA ya está ampliamente presente en el sector de la salud. Los algoritmos se usan para anticipar el riesgo de muerte o el deterioro de los pacientes, sugerir diagnósticos o clasificar la atención según la urgencia, registrar y resumir consultas para facilitar el trabajo de los médicos, e incluso para evaluar los reclamos de las aseguradoras.
Si los entusiastas de la tecnología están en lo cierto, la tecnología se volverá omnipresente… y rentable.
La empresa de inversión Bessemer Venture Partners ha identificado unas 20 startups de IA centradas en salud que están en vías de facturar $10 millones en un año cada una. La FDA ha aprobado cerca de mil productos de inteligencia artificial.
Evaluar si estas herramientas funcionan es todo un reto. Determinar si siguen funcionando bien —o si tienen fallas en sus sistemas operativos— es aún más complicado.
Por ejemplo, un estudio reciente de Yale Medicine analizó seis “sistemas de alerta precoz”, que avisan a los médicos cuándo es probable que un paciente se deteriore rápidamente.
Dana Edelson, médica de la Universidad de Chicago y cofundadora de una empresa que proporcionó un algoritmo para esta investigación, dijo que una supercomputadora revisó los datos durante varios días. El proceso fue fructífero, ya que mostró enormes diferencias de rendimiento entre los seis productos.
Para los hospitales y proveedores no es fácil seleccionar los mejores algoritmos en base a sus necesidades. No es habitual que los médicos tengan una supercomputadora a su disposición y no existe nada equiparable a un Consumer Reports para la IA.
“No tenemos normas”, aseguró Jesse Ehrenfeld, ex presidente de la Asociación Médica Estadounidense. “No existe nada que hoy se pueda señalar como una norma en relación con la forma de evaluar, supervisar o analizar el rendimiento de un modelo de algoritmo, con o sin inteligencia artificial, cuando se implementa”.
Quizás el producto de IA más común en las consultas médicas sea la “documentación ambiental”, un asistente tecnológico que escucha y transcribe las interacciones entre el médico y el paciente.
El año pasado, los inversores de Rock Health registraron un flujo de $353 millones en inversiones dirigidas hacia estas empresas de registros médicos. Pero, según Ehrenfeld, “actualmente no hay una pauta que permita comparar los resultados de estas herramientas”.
Esto es un problema, ya que incluso pequeños errores pueden ser devastadores. Un equipo de la Universidad de Stanford intentó usar grandes modelos lingüísticos —la tecnología que sustenta herramientas de IA populares como ChatGPT— para resumir el historial médico de los pacientes.
Más tarde, compararon los resultados con lo que hubiera escrito un médico.
“Incluso en el mejor de los casos, los modelos tenían una tasa de error del 35%”, explicó Shah, de Stanford. “Y en medicina, cuando estás escribiendo una historia clínica y te olvidas de una palabra, como por ejemplo ‘fiebre‘, se plantea un verdadero problema”, reflexionó.
A veces, las razones por las que los algoritmos fallan son bastante lógicas. Por ejemplo, las alteraciones en los datos estructurales pueden disminuir su efectividad, por ejemplo, cuando un hospital cambia de proveedor de laboratorio.
Sin embargo, en muchas otras ocasiones los problemas surgen sin un motivo aparente.
Sandy Aronson, ejecutivo tecnológico del programa de medicina personalizada del Mass General Brigham de Boston, contó que cuando su equipo probó una aplicación destinada a ayudar a los consejeros en genética a localizar bibliografía relevante sobre variantes del ADN, el producto sufrió “no determinismo”. Esto significa que, cuando se le hacía varias veces la misma pregunta en un breve período de tiempo, daba resultados diferentes.
Aronson está entusiasmado con el potencial de los grandes modelos lingüísticos para resumir conocimientos que simplifiquen el trabajo de los sobrecargados consejeros, pero considera que “la tecnología tiene que mejorar”.
Si hay pocas métricas y estándares, y los errores pueden surgir por razones raras, ¿qué deben hacer las instituciones? Invertir en una gran cantidad de recursos. En Stanford, Shah comentó que les llevó entre ocho y diez meses revisar solo dos modelos en términos de equidad y confiabilidad.
Expertos entrevistados por KFF Health News plantearon la idea de que la inteligencia artificial supervise a la inteligencia artificial, y que algún genio (humano) en datos supervise a ambas.
Todos reconocieron que esto requeriría que las organizaciones gastaran aún más dinero, una pretensión difícil de satisfacer dada la realidad de los presupuestos hospitalarios y la limitada oferta de especialistas en tecnología de IA.
“Es estupendo tener una perspectiva en la que estamos haciendo un esfuerzo colosal para poder monitorear un modelo con otro modelo”, dijo Shah. “Pero ¿es eso realmente lo que se quería? ¿Cuánta gente más vamos a necesitar?”.
Esta historia fue producida por KFF Health News, conocido antes como Kaiser Health News (KHN), una redacción nacional que produce periodismo en profundidad sobre temas de salud y es uno de los principales programas operativos de KFF, la fuente independiente de investigación de políticas de salud, encuestas y periodismo.