AI LIKE GOD TIL å DIAGNOSTISERE SYKDOM SOM MENNESKER

Den første systematiske gjennomgangen og metaanalysen av sitt slag finner at kunstig intelligens (AI) er like god til å diagnostisere en sykdom basert på et medisinsk image som helsepersonell. Imidlertid er det nødvendig med flere studier av høy kvalitet.

AI og helsepersonell er like effektive til å diagnostisere sykdom basert på medisinsk bildebehandling, antyder ny forskning.

En ny artikkel undersøker eksisterende bevis i et forsøk på å avgjøre om AI kan diagnostisere sykdommer like effektivt som helsepersonell.

Så vidt forfatterne kjenner til - det vil si et stort team av forskere ledet av professor Alastair Denniston fra University Hospitals Birmingham NHS Foundation Trust i Storbritannia - er dette den første systematiske oversikten som sammenligner AI-ytelse med medisinsk fagpersonell for alle sykdommer.

Prof.Denniston og teamet søkte i flere medisinske databaser for alle studier som ble publisert mellom 1. januar 2012 og 6. juni 2019. Teamet publiserte resultatene av sin analyse i tidsskriftet Lancet Digital Health.

AI på nivå med helsepersonell

Forskerne så etter studier som sammenlignet den diagnostiske effektiviteten til dyp læringsalgoritmer med helsepersonell når de hadde stilt en diagnose basert på medisinsk bildebehandling.

De undersøkte kvaliteten på rapporteringen i nevnte studier, deres kliniske verdi og studienes design.

Videre, når det gjaldt å vurdere AIs diagnostiske ytelse sammenlignet med helsepersonell, så forskerne på to utfall: spesifisitet og følsomhet.

"Sensitivity" definerer sannsynligheten for at et diagnostisk verktøy får et positivt resultat hos mennesker som har sykdommen. Spesifisitet refererer til nøyaktigheten til diagnostisk test, som utfyller sensitivitetsmål.

Utvelgelsesprosessen ga bare 14 studier der kvaliteten var høy nok til å inkluderes i analysen. Prof. Denniston forklarer: "Vi gjennomgikk over 20 500 artikler, men mindre enn 1% av disse var tilstrekkelig robuste i design og rapportering om at uavhengige anmeldere hadde høy tillit til deres påstander."

"I tillegg validerte bare 25 studier AI-modellene eksternt (ved bruk av medisinske bilder fra en annen populasjon), og bare 14 studier sammenlignet ytelsen til AI og helsepersonell ved bruk av samme testprøve."

“Innenfor en håndfull studier av høy kvalitet fant vi at dyp læring faktisk kunne oppdage sykdommer som spenner fra kreft til øyesykdommer så nøyaktig som helsepersonell. Men det er viktig å merke seg at AI ikke i betydelig grad overgikk menneskelig diagnose. "
Prof. Alastair Denniston

Mer spesifikt fant analysen at AI kan diagnostisere sykdom riktig i 87% av tilfellene, mens deteksjon av helsepersonell ga en nøyaktighetsgrad på 86%. Spesifisiteten for algoritmer for dyplæring var 93%, sammenlignet med mennesker på 91%.

Skjevheter kan overdrive AI-ytelse

Prof. Denniston og kollegaer gjør også oppmerksom på flere begrensninger de fant i studier som undersøker AI-diagnostisk ytelse.

For det første undersøker de fleste studier AI og helsepersonelles diagnostiske nøyaktighet i isolerte omgivelser som ikke etterligner vanlig klinisk praksis - for eksempel å frata legene ytterligere klinisk informasjon de vanligvis trenger for å stille en diagnose.

For det andre, sier forskerne, sammenlignet de fleste studier bare datasett, mens forskning av høy kvalitet innen diagnostisk ytelse ville kreve å gjøre slike sammenligninger hos mennesker.

Videre led alle studier av dårlig rapportering, sier forfatterne, med analyse som ikke tok hensyn til informasjon som manglet fra nevnte datasett. "De fleste [studier] rapporterte ikke om noen data manglet, hvor stor andel dette representerte og hvordan manglende data ble håndtert i analysen," skriver forfatterne.

Ytterligere begrensninger inkluderer inkonsekvent terminologi, og det er ikke klart å sette en terskel for sensitivitets- og spesifisitetsanalyse, og mangel på validering utenfor prøven.

"Det er en iboende spenning mellom ønsket om å bruke ny, potensielt livreddende diagnostikk og nødvendigheten av å utvikle bevis av høy kvalitet på en måte som kan være til nytte for pasienter og helsesystemer i klinisk praksis," kommenterer førsteforfatter Dr. Xiaoxuan Liu fra University of Birmingham.

“En viktig leksjon fra arbeidet vårt er at i AI - som med alle andre deler av helsevesenet - er god studiedesign viktig. Uten den kan du enkelt introdusere skjevheter som skjev resultatene dine. Disse skjevhetene kan føre til overdrevne påstander om god ytelse for AI-verktøy som ikke oversettes til den virkelige verden. ”
Dr. Xiaoxuan Liu

"Bevis på hvordan AI-algoritmer vil endre pasientens resultater må komme fra sammenligninger med alternative diagnostiske tester i randomiserte kontrollerte studier," legger medforfatter Dr. Livia Faes fra Moorfields Eye Hospital, London, Storbritannia.

"Så langt er det knapt noen slike studier der diagnostiske beslutninger tatt av en AI-algoritme blir fulgt for å se hva som da skjer med utfall som virkelig betyr noe for pasienter, som rettidig behandling, tid til utskrivelse fra sykehus eller til og med overlevelsesrate."

none: mrsa - narkotikamotstand ryggsmerte medisinsk utstyr - diagnostikk