Quais doenças você terá em 20 anos? Quando Oráculos eram de pedra e fumaça, consultávamos Delfos na Grécia antiga para decifrar o devir; em 2025, consultaremos o Delphi-2M.
Para delírio ou perplexidade da comunidade médica, a revista científica Nature apresentou em 17 de setembro de 2025 o modelo IA-Transformer Delphi-2M. O impacto para o futuro da medicina é incalculável e para o futuro da saúde humana é estonteante. Todavia, talvez sobrecarregue os já combalidos sistemas de saúde com mais entropia: se o paciente pode saber a probabilidade de um tumor infectar seus pulmões em alguns anos, qual será a extensão da fila de acesso aos procedimentos oncológicos? Além disso, estamos prontos para saber como vamos viver e morrer?
O espanto com o poder diagnóstico das IAs ainda paralisa as lideranças do setor, que preferem as previsões de Apolo aos saltos de Cognware. Para os gregos antigos, Delfos era o “umbigo do mundo” (omphalos), um ponto central de onde emanava conhecimento e orientação. Seu templo abrigava a célebre Pitonisa, sacerdotisa que em transe proferia as profecias de Apolo, o deus da luz e da verdade. A mitologia fecundou a filosofia, que emancipou a medicina, que deu forma à civilização nos últimos dois séculos e que chegou ao fim do primeiro quarto do século XXI legendando a Saúde por meio das plataformas de cognição artificial (cognware).
O novo modelo de IA para Saúde, “Delphi-2M” (M de million, 2 milhões de parâmetros), sugere que a “gramática” das doenças pode ser lida como se fosse um texto. Cerca de 403 mil prontuários do UK Biobank (um cofre biomédico com informações clínicas de meio milhão de britânicos entre 40 e 69 anos, cadastrados desde 2006 com exames, genômica e interfaces com o NHS) foram digeridos como “capítulos de um épico clínico” e posteriormente testados em 1,9 milhão de vidas dinamarquesas. Manteve a AUC média de 0,76 na validação interna e ainda AUC de 0,70 ao projetar diagnósticos dez anos adiante; mesmo sem qualquer ajuste local, obteve 0,67 na coorte dinamarquesa. A AUC de 0,76 abrangeu mais de 1.000 códigos CID-10, produzindo predições em linhas de tempo de até vinte anos, nas quais cada novo infarto, carcinoma ou episódio depressivo surgia com probabilidade e data, como ‘notas de rodapé’ de nosso futuro fisiológico.
O modelo calcula riscos concorrentes para todo o capítulo CID-10 (multimorbidade nativa), podendo refletir a realidade polipatológica, por exemplo, de pacientes idosos. Grosso modo, o Delphi-2M evita “ilhas de predição”, que não conversam entre si. Sua arquitetura (LLM GPT-2) substitui o “positional encoding” textual por codificação de idade, acrescentando uma “cabeça” que estima o intervalo até o próximo evento. Com isso, produz probabilidades calibradas de quando algo vai ocorrer, crucial para decidir a (1) janela de rastreio, o (2) follow-up e a (3) prevenção. As métricas de desempenho do Delphi-2M o diferenciam das ferramentas anteriores. O modelo alcançou uma precisão geral de 76% para previsões de curto prazo e manteve 70% ao prever uma década no futuro. Mesmo no horizonte de 20 anos, a precisão permaneceu significativa, embora tenha diminuído para aproximadamente 60-70%, dependendo da doença.
“A capacidade da ferramenta de modelar múltiplas doenças de uma só vez é surpreendente. Ela pode gerar trajetórias futuras completas de saúde”, afirmou Stefan Feuerriegel, cientista da Universidade Ludwig Maximilian (Munique). “A maioria das ferramentas de IA preditivas estima o risco de apenas uma doença, com um profissional de saúde tendo de executar dezenas delas para fornecer uma resposta abrangente”, afirma o coautor do estudo, Moritz Gerstung, cientista de dados do Centro Alemão de Pesquisa do Câncer (Heidelberg). O Delphi-2M enfileira mais de 1.000 patologias e prevê simultaneamente a sua incidência, simulando para cada indivíduo as trajetórias delas em até 20 anos.
Seu desempenho AUC foi mantido ao migrar do Reino Unido para a Dinamarca (sem fine-tuning), sugerindo que o modelo aprende padrões biológicos/epidemiológicos robustos. Além disso, ele pode “fabricar” gêmeos digitais plausíveis (preservando a privacidade) para treinamento de outros modelos. Dessa forma, ele libera pesquisas em cenários onde dados reais são escassos ou altamente regulados, acelerando a P&D em hospitais. Seu “explainability” gera mapas de atenção e revela ‘clusters de comorbidade’ e ‘vieses aprendidos’. Assim, o modelo permite auditoria clínica (sem “caixa-preta”) e identificação de iniquidades antes da aplicabilidade. Em outras palavras: os pesquisadores pegaram o modelo Delphi-2M, treinado nos prontuários clínicos do UK Biobank, e rodaram exatamente o mesmo modelo (com os mesmos pesos, hiperparâmetros e limiares de decisão) em um novo conjunto de dados (registro nacional dinamarquês) sem fazer nenhuma recalibração local. Nesse sentido, cabe a expressão do pesquisador John Nosta (fundador do Nostalab): “O mais urgente não é saber quando as máquinas cruzarão o limite da AGI, mas se já cruzamos o nosso…”
O mais notável do Delphi-2M: todas as previsões apresentadas foram geradas sem qualquer dado genômico ou ômico. Embora o UK Biobank possua genomas completos de 500 mil participantes, os autores deliberadamente não incluíram essa camada, justificando: “como se tratava de uma prova de conceito escalável, começar com campos já padronizados (CID-10) garantiria a portabilidade entre países, evitando o gargalo de qualidade/ausência de dados ômicos”. Além disso, considerou-se a Privacidade & Governança, pois variantes germinativas aumentam o risco de reidentificação (manter o modelo “EHR-only” facilita a liberação ética). Da mesma forma, os pesquisadores consideraram a complexidade computacional: incorporar 1 milhão de SNPs (polimorfismo de nucleotídeo único) exigiria um vocabulário com maior ordem de grandeza, o que extrapolaria o design de 2 milhões de parâmetros. Assim, o modelo foi alimentado unicamente por (1) diagnósticos estruturados (código-raiz da CID-10); (2) metadados de contexto (sexo biológico, faixas de IMC, tabagismo, álcool e o evento “morte”); e (3) tokens de preenchimento “no-event”, para cobrir lacunas longas no prontuário.
Em síntese, o Delphi-2M demonstra que já é possível “escrever” 20 anos do prontuário apenas com aquilo que todo hospital já deveria coletar rotineiramente. O próximo salto, provavelmente o foco do próximo artigo dos mesmos pesquisadores, virá quando essa cronologia probabilística “incorporar DNA, exames de imagem e notas clínicas livres, transformando-se num modelo genuinamente multimodal”. Isso desloca o tabuleiro da saúde: primeiro, rasga o velho paradigma de “um algoritmo por doença”, ou seja, agora a multimorbidade torna-se unidade fundamental da análise, aproximando-se da realidade crua de pacientes que colecionam diagnósticos. Segundo, inaugura um “GPS temporal” da morbidade: gestores podem simular maremotos de doenças crônicas antes de ‘encostar seus barcos no porto orçamentário’. Na outra ponta, clínicos receberão alertas de risco no exato intervalo em que a prevenção ainda é viável. Terceiro, ao gerar trajetórias sintéticas preservando a privacidade, o Delphi-2M ‘fertiliza’ ensaios clínicos, educação personalizada e pesquisa translacional, sinalizando que o próximo salto não será apenas prever doenças, mas reescrever a história natural delas.
O Delphi-2M faz parte de um ecossistema crescente de modelos baseados em transformers (LLMs) aplicados à medicina. Outros exemplos incluem o PDGrapher de Harvard, que prevê interações gene-droga para doenças como Parkinson e Alzheimer; ou o modelo AlphaGenome do Google, treinado em pares de DNA. O que distingue o Delphi-2M é sua colossal amplitude. Não é especializado em um único domínio, como genômica ou proteômica, sendo projetado para ser um modelo generalista (para todas as doenças humanas). Seu horizonte de previsão de longo prazo e a capacidade única de gerar dados sintéticos realistas o tornam extremamente versátil. Sua base de código está disponível no GitHub sob uma licença do MIT, mas o modelo treinado e seus pesos estão restritos e controlados pelo UK Biobank, o que significa que ainda é uma ferramenta para pesquisadores, não para consumidores.
Se você continua confuso e não entendeu o que aconteceu em setembro/2025, pense em um hospital qualquer que tenha acesso a um EHR-limpo (dados higienizados). Ele poderá reproduzir o modelo Delphi-2M em qualquer pesquisa, não exigindo “data center exascale” (o modelo faz em um segundo o que um notebook de 100 GFLOPs levaria cerca de três meses contínuos para computar). Em outras palavras, a única coisa que interessa, ou seja, a parte pesada da pesquisa, será a curadoria de dados, não o hardware (o Delphi-2M mostra que a “mágica” algorítmica da IA na saúde cabe em uma hora de GPU, Unidade de Processamento Gráfico).Essa hora é o intervalo de tempo em que um processador gráfico, projetado para fazer milhares de cálculos ao mesmo tempo, digere todo o material bruto e grava nos “filamentos” do Modelo aquilo que ele precisa saber. A GPU é a coluna vertebral das IAs: seu poder de computação equivale a escutarmos no áudio-book uma obra de dez horas em apenas 12 minutos. O conteúdo é o mesmo, só comprimido no tempo. O treinamento do modelo Delphi-2M “ouve” 400 mil prontuários em 60 minutos, algo que um humano levaria anos para ler. Além disso, escala em minutos uma montanha probabilística de incalculável valor para a medicina preditiva e preventiva.
O que isso implica em valor clínico no futuro? Talvez a pergunta “quanto tempo eu ainda tenho?” possa estar passando da filosofia para a ciência de dados, anunciando uma medicina capaz de antecipar com uma clareza sem precedentes. No Science Media Centre, Gustavo Sudre, investigador de neuroimagem genômica e professor do King’s College de Londres, analisou: “Essa investigação deve ser um passo significativo em direção a uma forma de modelagem preditiva que seja escalável, interpretável e, mais importante, eticamente responsável. A demonstração clara de como a IA explicável pode ser usada para modelar previsões é crucial se quisermos usar essa tecnologia na prática clínica, sugerindo ser possível identificar pessoas de alto risco que precisam de intervenção”.
Tão logo houve a publicação do modelo Delphi-2M, surgiram as primeiras inspirações de uso no curto e médio prazo (2026-2030): (1) Triagem de alto rendimento: hospitais podem rodar Delphi-2M noturno em lotes de EHR para sinalizar quem merece rastreio precoce (ex.: câncer gástrico em populações fora do guideline padrão); (2) Planejamento de recursos: secretarias de saúde podem simular cenários de carga de doenças (ex.: escalada de diabetes + DRC) e alocar orçamento antes que o caos-emergencial chegue; (3) Estudos clínicos direcionados: sponsors podem recrutar os “super-enriquecidos” (pacientes com alta probabilidade de evento-alvo em 3-5 anos) reduzindo a duração dos clinical-trials; (4) Educação do paciente 360: ferramentas de ‘patient-facing’ poderão mostrar, em linguagem natural, a “linha do tempo” de riscos e ganhos em parar de fumar, perder peso, fisicalidade, etc.
Ewan Birney, diretor executivo do EMBL (European Bioinformatics Institute), declarou ao Financial Times: “Ficamos surpresos com o quão bem o modelo foi transferido do Reino Unido para a Dinamarca, embora nunca tivesse visto um único bit de dados dinamarqueses. Nesse sentido, quero enfatizar o poder soberano do prontuário médico digital”. O consórcio responsável pelo Delphi-2M reúne oito líderes, comandados por Moritz Gerstung do Centro Alemão de Pesquisa do Câncer (DKFZ), pelo EMBL (Cambridge) e por pesquisadores da Universidade de Copenhague. Foram dois anos e meio do pedido de dados até a publicação do Modelo na revista, mas “levou pouco menos de uma tarde de GPU para treinar o modelo principal”. Na realidade, a “demora” real veio da engenharia de dados, validação estatística e do tradicional ciclo de revisão científica. Certamente que o modelo ainda tem limitações, como subestimar riscos de ‘doenças monogênicas raras, ou não captar polygenic risk scores (PRS) relevantes para câncer, demência, etc.’, mas nada que não deva ser mitigado com mais transformers de pesquisa.
Nas palavras do mais conceituado e respeitado médico incentivador de ferramentas digitais, genômicas e IA para promoção da saúde humana, o cardiologista Eric Topol (diretor-executivo da Scripps Research): “Estamos só no início da prevenção primária. Existem muitas novas camadas de dados (relógios de órgãos, biomarcadores, genômica, biossensores, IA multimodal e IA Agêntica) para analisar os dados, mas pela primeira vez estamos vendo um grande modelo de saúde (Delphi-2M) que aprendeu a gramática e a linguagem da saúde, tokenizando-a para prever doenças com ancoragem temporal. Nós nos acostumamos com grandes modelos de linguagem que preveem a próxima palavra em uma frase, mas imagine o quão poderoso será um grande modelo de saúde (LHM-Large Health Model) quando todas as outras camadas de dados além daquelas utilizadas no Delphi-2M forem integradas. Sim, o desempenho da AUC de 0,76 para previsão em todas as doenças não é ótimo, mas isso é apenas o começo. Com o Delphi-2M, aprendemos que a história de saúde de uma pessoa pode ser projetada 20 anos à frente. Isso representa um salto em relação à minha previsão sobre a medicina de precisão. Os modelos futuros continuarão melhorando cada vez mais a precisão da previsão médica.”
De acordo com seus desenvolvedores, o Delphi-2M ainda não está pronto para uso imediato. Os cientistas observam que os bancos de dados usados ainda têm limitações (podem ser tendenciosos por idade, composição étnica e indicadores médicos). No entanto, em pouco tempo (meses) o modelo deve se tornar uma âncora para a medicina preventiva, ajudando médicos a identificarem pacientes em risco a tempo, prescrevendo intervenções precoces. Isso não apenas aumentará a eficácia do tratamento, mas reduzirá também a carga sobre os Sistemas de Saúde sobrecarregados.
A estupefação com o Delphi-2M vai mais longe: o modelo será capaz de, literalmente, gerar a “trajetória sintética da saúde”, criando versões virtuais do “você-paciente”, vivendo vidas paralelas com diferentes doenças, muito parecido com o desastroso multiverso, que agora deve renascer impulsionado pelos modelos de IA. A ferramenta pode, assim, desenvolver milhões dessas vidas sintéticas, criando dados médicos que nunca existiram, mas que são estatisticamente consistentes. Como a vida dos pacientes dependerá cada vez mais de suas escolhas, é provável que ele possa, no futuro, escolher que patologias crônicas “prefere” enfrentar em sua vida anciã (viver sem nenhuma delas ainda não é uma opção).
Nesse sentido, o modelo Delphi-2M flerta com o oráculo de Delfos (Grécia antiga): ele não oferece um futuro predestinado, mas uma probabilidade estatística baseada em padrões. Ele funcionará particularmente bem para doenças que seguem padrões previsíveis, como o câncer. Ele captura apenas a primeira ocorrência de uma doença: se o paciente tem câncer, remissão e recorrência, o modelo só vê o primeiro episódio. Se você gosta de filmes de mistério, pense que o modelo foi treinado com dados de pessoas, algumas das quais morreram desde o recrutamento inicial em 2006-2010. Assim, o modelo “ressuscita digitalmente” essas pessoas para criar “vidas mais longas do que as reais” e, com isso, ajudar a prever o futuro dos ainda vivos.
Há muitos aspectos nevrálgicos sob a ótica sociológica, antropológica e até filosófica com esse tipo de modelo, principalmente na perspectiva social de ‘previsionamento’. Ou seja, vamos entrar na temperança da velha discussão sobre “o que queremos ou não saber sobre nossa saúde futura”. Se você souber que tem “68% de chances de desenvolver câncer de pulmão em 10 anos”, como reagirá? O indivíduo poderá parar de fumar, se dedicar a uma vida alimentar regrada, deixar o sedentarismo e se aplicar no bem-estar. No entanto, viver com essa espada de Dâmocles pairando sobre sua cabeça por anos pode até gerar outras instâncias mentais e até patológicas de igual perversidade (Síndrome de Dâmocles: condição emocional que descreve o medo persistente de que uma doença grave, da qual a pessoa se recuperou, possa reaparecer. Uma sensação de que a felicidade e a estabilidade conquistadas podem ser perdidas rapidamente).
Como o Delphi-2M é capaz de gerar probabilidades a partir de dados sintéticos, os pesquisadores também o transformam em uma “fábrica virtual de epidemias”. Podem criar cenários de saúde pública impossíveis de testar em uma realidade factual: “e se todos fumassem 4 maços por dia durante 5 anos?”, ou “o que aconteceria se combinássemos obesidade e alcoolismo ao longo de 10 anos na região mais idosa do sul do Brasil?”, etc. Trata-se de um “laboratório virtual” (infinito) para testar hipóteses médicas sem tirar a vida de ninguém. Da mesma forma, caberão outras questões diante desse laboratório virtual ensaista: o Estado (não importa o país) está preparado para o que pode vir pela frente? Existe uma engenharia previdenciária capaz de sustentar uma visão determinística do futuro sanitário, e não a visão estocástica que temos hoje? Estamos prontos, enfim, para conhecer o futuro?
Obviamente que isso não tem nada a ver com as Ciências Médicas e com os Modelos de IA que surgem todos os dias. O papel do pesquisador está muito além da escolástica sociológica. Ele tem que invadir o futuro com todas as ganas do mundo e buscar as fragilidades e oportunidades que os métodos e modelos científicos lhe apresentam. Nada invalida o exemplar trabalho feito na fusão da medicina avançada com a cognição artificial (cognware) desse grupo de pesquisadores. É por meio dessas pesquisas que virá a continuação das ciências da vida que trouxe a civilização até aqui.
Como o Delphi-2M ainda não está pronto para uso clínico imediato, ainda teremos alguns meses (!) para debater essas questões. Mas, após ler este paper, pense descontraidamente em você sentado à frente de seu médico e ele dizendo: “Ok, bem, você terá um derrame em meados de 2042, uma crise séria de artrite em 2050 e morrerá de câncer de pâncreas em 2061. Alguma pergunta?”
Guilherme S. Hummel
Head Mentor – EMI (eHealth Mentor Institute)