DeepSeek y medicina
“La inteligencia consiste no solo en el conocimiento, sino también en la destreza de aplicar los conocimientos en la práctica” (Aristóteles). Luis Ignacio Brusco enfatiza en su magnífico li...
“La inteligencia consiste no solo en el conocimiento, sino también en la destreza de aplicar los conocimientos en la práctica” (Aristóteles). Luis Ignacio Brusco enfatiza en su magnífico libro Homo IA que el término “inteligencia” es heterogéneo y que mezcla muchas funciones (memoria, pensamiento deductivo, capacidades lingüísticas, capacidad visoespacial). Agreguemos a esto el concepto incorporado en 1995 por Daniel Coleman denominado “inteligencia emocional”. La Inteligencia artificial (IA) trata de imitar a la inteligencia humana en funciones como memoria, aprendizaje, resolución de problemas y toma de decisiones. Incluso muchos descreen que la empatía sea una de las limitaciones de la IA.
Ariel Torres enfatizó recientemente en LA NACION (1/ 02 / 2025), que una noticia tecno de alto impacto en el inicio de este año fue indudablemente la irrupción del modelo de lenguaje de inteligencia artificial (IA) DeepSeek generado por una pequeña empresa china, High Flyer, según su denominación en inglés y Haán Fang (Cuadrado Mágico), su nombre chino. El antecedente previo de impacto equivalente fue el desarrollo de la compañía Open AI cuando el 30 de noviembre de 2022 lanzó el ChatGPT. Un detalle sorprendente es que la startup china informó que sólo utilizó una fracción de los chips informáticos empleados por las empresas de IA. Los ingenieros de DeepSeek comunicaron que sólo necesitaron 2000 chips en lugar de los 16.000 o más utilizados por las compañías de IA preexistentes. (Cade Metz,The New York Times). En otras palabras, DeepSeek habría utilizado 8 a 10 veces menos de recursos de hardware especializado. La explicación disponible para esa novedad es que DeepSeek se basó en una metodología más eficaz para analizar los datos repartiendo el análisis entre varios modelos especializados de IA. Se lo denomina método de “mezcla de expertos” y habilita al modelo para decidir qué redes de procesamiento debe activar para cada tarea. El 20 de enero DeepSeek lanzó su modelo denominado DeepSeek R1. La información indica que R1 fue entrenado tomando como base el funcionamiento del Chatbot V3, de la misma startup china, mediante técnicas de aprendizaje por refuerzo ,donde a partir de las señales de retroalimentación que recibe (recompensa o penalización) el sistema ajusta su comportamiento. (http://es.wired.com)
Open AI ha expresado sus sospechas de que DeepSeek ha entrenado sus modelos estudiando los resultados de los modelos estadounidenses, mediante un proceso conocido como “destilación”. Se trata de una técnica prohibida expresamente en los términos de uso de sus modelos GPT. Vishal Yadav y Nikhil Pandley (Microsoft) se han referido a esto explicando que la destilación es un técnica diseñada para transferir los conocimientos de un gran modelo preentrenado (“el maestro”) a un modelo más pequeño (“el alumno”). Otro aspecto a destacar es que DeepSeek ha abierto su sistema de IA, esto significa que ha compartido el código informático con otras empresas e investigadores (“código abierto”) permitiendo que los desarrolladores trabajen de manera colaborativa. El código abierto está disponible para que cualquiera lo descargue y lo use.
El 5 de febrero le efectuamos un test a DeepSeek solicitándole que responda un cuestionario integrado por 45 preguntas médicas de la especialidad oftalmología. Se utilizó como fuente la bibliografía científica a la que habitualmente recurrimos para elaborar los exámenes de posgrado en la carrera de especialista de la Primera Cátedra de Oftalmología de la Facultad de Medicina de la Universidad de Buenos Aires (UBA) con sede en el Hospital de Clínicas. La novedad que incorporamos fue que el nivel de complejidad de los escenarios clínicos planteados en cada pregunta de este examen fue superior al utilizado habitualmente en nuestros exámenes. Otro rasgo singular de este examen fue que una proporción significativa de los escenarios clínicos planteados corresponde a síndromes sistémicos, es decir, enfermedades que, además del compromiso ocular, afectan a diferentes estructuras del organismo por lo que para su diagnóstico se requiere un profundo conocimiento tanto de oftalmología como de medicina en general. A DeepSeek se le solicitó emitir un diagnóstico para cada uno de los 45 casos clínicos planteados.
El resultado fue que DeepSeek respondió correctamente el 86 % de las preguntas (39/45). Las respuestas de DeepSeek a cada pregunta incluyó extensos párrafos en los que expresó todo el razonamiento que utilizó al valorar los síntomas, signos y resultados de estudios complementarios de cada caso clínico. En ese “razonamiento” DeepSeek emitió diagnósticos presuntivos y diagnósticos diferenciales hasta que finalmente llegó a su diagnóstico final. Un aspecto sorprendente es el lenguaje utilizado durante el razonamiento, simulando el escenario de estar interactuando con un colega experto en el tema, o la situación habitual de un ateneo clínico en una institución de salud. En la primera fase de sus respuestas, consistente en dar las respuestas con todo el “razonamiento” efectuado hasta llegar al diagnóstico final de las 45 preguntas, DeepSeek empleó 214 segundos, En la segunda fase de sus respuestas, realizada sin interrupción luego de la primera fase, DeepSeek ofreció un listado con sus 45 diagnósticos finales, tardando en total 14 segundos. En síntesis, tardó menos de 5 segundos para cada respuesta en la primera fase de respuestas con el razonamiento (4.75 segundos) y la tercera parte de 1 segundo (0.31 seg.) por cada respuesta en la segunda fase (sólo los diagnósticos).
Con el mismo examen fue testeado el modelo GPT4o de Open AI. El resultado fue que el 68 % de sus respuestas fueron correctas (31/45). En este caso el texto de las respuestas fue directamente el diagnóstico de cada caso clínico.
Un detalle interesante fue que DeepSeek y GPT4o coincidieron en 5 preguntas en sus respuestas incorrectas (sin coincidir en sus respectivas respuestas), es decir que en el 83 % de las respuestas incorrectas de DeepSeek (5/6), GPT4o también se equivocó. Se prestó especial atención a la construcción de las preguntas (planteo de casos clínicos) para minimizar un problema en lo que se denomina “prompt”, es decir, la instrucción o pregunta que se le hace a una herramienta de inteligencia artificial para que produzca algo.
Con el mismo examen fue evaluado un médico oftalmólogo con 25 años de experiencia en la especialidad y reconocido por su erudición superlativa en esta disciplina médica. Sus respuestas correctas correspondieron al 66 % de las preguntas (30/45). El tiempo que le demandó responder las 45 preguntas del examen fue de 49 minutos. Al finalizar calificó al examen como de alta dificultad.
La experiencia es ilustrativa en varios aspectos pero debemos considerar que es una “foto” circunstancial en el contexto de una tecnología que avanza con una dinámica sorprendent,e por lo que este “ranking” entre los modelos de inteligencias artificiales variará seguramente en muy poco tiempo (quizás cuando este artículo sea publicado). Valga la aclaración por las suspicacias que esto genera en el contexto geopolítico actual y la competencia tecnológica existente por la supremacía en IA.
Algunas reflexiones finales. No hay dudas respecto a la formidable herramienta que representa la IA para actuar cooperativamente con el médico al poner a su disposición su sorprendente capacidad para procesar una cantidad asombrosa de datos en forma instantánea. Ante la crisis actual que atraviesa la relación médico-paciente, la IA está abriendo la posibilidad para los médicos de humanizar nuestra práctica profesional poniendo el foco, además del conocimiento y las destrezas, en competencias como la empatía y el “criterio médico”, con una mirada holística del paciente. La sorprendente velocidad de estos avances tecnológicos me remite a una frase que repetía mi padre refiriéndose – hace ya muchos años-, a la brevedad de los viajes en avión cubriendo largas distancias: “el cuerpo llega antes que el alma”. Podríamos parafrasearla diciendo que cada novedad de esta revolución tecnológica liderada por la inteligencia artificial nos llega antes de recuperarnos del asombro que nos ha generado el último eslabón. A modo de epílogo, valga una advertencia: la fascinación por la tecnología no nos debe hacer olvidar el rol “humano” del médico ante el paciente.
Profesor Consulto de la Cátedra de Oftalmología de la Facultad de Medicina de la Universidad de Buenos Aires (UBA). Doctor en Medicina (UBA). Hospital de Clínicas (UBA)
Fuente: https://www.lanacion.com.ar/opinion/deepseek-y-medicina-nid03042025/