OpenAI, Google și Anthropic au anunțat, la doar câteva zile distanță una de cealaltă în această lună, noi capabilități AI specializate pentru domeniul medical. Această concentrare de lansări sugerează mai degrabă o presiune competitivă intensă decât o simplă coincidență. Cu toate acestea, niciunul dintre produsele prezentate nu este certificat ca dispozitiv medical, aprobat pentru utilizare clinică sau disponibil pentru diagnostic direct al pacienților — în pofida mesajelor de marketing care promit transformarea sistemului de sănătate.
OpenAI a lansat ChatGPT Health pe 7 ianuarie, permițând utilizatorilor din SUA să își conecteze dosarele medicale prin parteneriate cu b.well, Apple Health, Function și MyFitnessPal. Pe 13 ianuarie, Google a prezentat MedGemma 1.5, extinzând modelul său AI medical open-source pentru a interpreta scanări CT și RMN tridimensionale, precum și imagini histopatologice de tip whole-slide.
Între timp, pe 11 ianuarie, Anthropic a introdus Claude for Healthcare, care oferă conectori compatibili cu HIPAA către baze de date CMS, sisteme de codificare ICD-10 și Registrul Național al Furnizorilor de Servicii Medicale (NPI).
Diferențele dintre cele trei soluții apar în modul de implementare și în modelele de acces. ChatGPT Health de la OpenAI funcționează ca un serviciu orientat către consumatori, cu listă de așteptare pentru abonații ChatGPT Free, Plus și Pro din afara Spațiului Economic European, Elveției și Regatului Unit.
MedGemma 1.5 de la Google este lansat ca model deschis prin programul Health AI Developer Foundations, fiind disponibil pentru descărcare prin Hugging Face sau pentru implementare prin Vertex AI din Google Cloud.
În schimb, Claude for Healthcare de la Anthropic este conceput pentru a se integra în fluxurile de lucru enterprise existente, prin Claude for Enterprise, vizând clienți instituționali mai degrabă decât utilizatori individuali.
Poziționarea din punct de vedere al reglementărilor este însă similară pentru toate cele trei companii. OpenAI afirmă explicit că Health „nu este destinat diagnosticării sau tratamentului”. Google descrie MedGemma drept „puncte de plecare pentru dezvoltatori, care pot evalua și adapta modelul pentru propriile cazuri de utilizare medicală”. La rândul său, Anthropic subliniază că rezultatele generate „nu sunt menite să influențeze direct diagnosticul clinic, deciziile de gestionare a pacienților, recomandările de tratament sau orice altă aplicație clinică directă”.
Cuprinsul articolului:
Performanța în benchmark-uri vs. validarea clinică
Rezultatele obținute de AI-ul medical în testele standardizate s-au îmbunătățit semnificativ în toate cele trei lansări recente, însă decalajul dintre performanța în benchmark-uri și utilizarea clinică reală rămâne considerabil. Google raportează că MedGemma 1.5 a atins o acuratețe de 92,3% pe MedAgentBench, benchmark-ul dezvoltat de Stanford pentru evaluarea agenților medicali AI, comparativ cu 69,6% pentru modelul de referință anterior, Sonnet 3.5.
În testele interne, modelul a înregistrat o creștere de 14 puncte procentuale în clasificarea bolilor pe bază de RMN și de 3 puncte procentuale în interpretarea rezultatelor CT. Claude Opus 4.5 de la Anthropic a obținut 61,3% la testele MedCalc pentru acuratețea calculelor medicale (cu execuție de cod Python activată) și 92,3% pe MedAgentBench.
Anthropic susține, de asemenea, îmbunătățiri în evaluările de „onestitate”, legate de reducerea halucinațiilor factuale, însă nu a publicat metrici concrete. OpenAI, în schimb, nu a prezentat benchmark-uri dedicate pentru ChatGPT Health, menționând doar că „peste 230 de milioane de persoane la nivel global adresează săptămânal întrebări legate de sănătate și wellness în ChatGPT”, pe baza unei analize anonimizate a utilizării existente.
Este important de subliniat că aceste benchmark-uri măsoară performanța pe seturi de date controlate, nu rezultatele clinice din practică. În medicină, erorile pot avea consecințe fatale, iar transformarea acurateții din teste în utilitate clinică este mult mai complexă decât în alte domenii de aplicare ale AI-ului.
Traseul de reglementare rămâne neclar
Cadrul de reglementare pentru aceste instrumente de AI medical rămâne ambiguu. În SUA, supravegherea FDA depinde de scopul declarat al utilizării. Software-ul care „sprijină sau oferă recomandări profesioniștilor din domeniul sănătății privind prevenția, diagnosticul sau tratamentul unei boli” poate necesita aprobare prealabilă ca dispozitiv medical. Niciunul dintre instrumentele anunțate nu a primit până acum avizul FDA.
Problemele de răspundere legală sunt la fel de neclare. Atunci când CTO-ul Banner Health, Mike Reagin, afirmă că sistemul medical a fost „atras de accentul pus de Anthropic pe siguranța AI”, acest lucru reflectă criterii de selecție tehnologică, nu un cadru juridic clar de asumare a responsabilității.
Dacă un clinician se bazează pe analiza AI-ului Claude pentru aprobări prealabile, iar un pacient suferă prejudicii din cauza întârzierii tratamentului, jurisprudența actuală oferă puține repere privind distribuirea responsabilității.
Abordările de reglementare diferă semnificativ între regiuni. În timp ce FDA și Regulamentul European privind Dispozitivele Medicale oferă cadre bine definite pentru software-ul medical, mulți reglementatori din regiunea APAC nu au emis încă ghiduri specifice pentru instrumentele de diagnostic bazate pe AI generativ.
Această ambiguitate afectează ritmul adopției, chiar și în piețe unde lipsurile din infrastructura medicală ar putea accelera implementarea, generând o tensiune constantă între nevoia clinică și prudența reglementară.
Fluxuri administrative, nu decizii clinice
Implementările reale rămân atent limitate. Novo Nordisk, prin vocea Louisei Lind Skov, Director of Content Digitalisation, a descris utilizarea Claude pentru „automatizarea documentelor și a conținutului în dezvoltarea farmaceutică”, cu accent pe documentația pentru depuneri reglementare, nu pe diagnosticarea pacienților.
De asemenea, Administrația Națională de Asigurări de Sănătate din Taiwan a folosit MedGemma pentru a extrage date din 30.000 de rapoarte de anatomie patologică în scopuri de analiză a politicilor publice, nu pentru decizii terapeutice.
Tiparul este clar: adopția instituțională se concentrează pe fluxuri administrative — facturare, documentație, redactarea protocoalelor — unde erorile sunt mai puțin periculoase imediat, și nu pe suport decizional clinic direct, acolo unde AI-ul medical ar putea avea cel mai mare impact asupra rezultatelor pentru pacienți.
Capacitățile AI-ului medical avansează mai rapid decât pot instituțiile să gestioneze complexitățile de reglementare, răspundere legală și integrare în fluxurile de lucru. Tehnologia există. Un abonament de 20 de dolari pe lună oferă acces la instrumente sofisticate de raționament medical.
Rămâne însă întrebarea esențială: dacă și când aceste progrese tehnologice se vor traduce într-o transformare reală a modului în care este livrată asistența medicală — o întrebare la care anunțurile coordonate ale marilor jucători AI încă nu oferă un răspuns clar.

