AWS lanceert machine learning-zoekmogelijkheden voor COVID-19-dataset

Door: Taha Kass-Hout, MD, MS - Directeur ML en Chief Medical Officer

24-04-2020

AWS lanceert machine learning-zoekmogelijkheden voor COVID-19-dataset

Terwijl de wereld worstelt met COVID-19, zijn onderzoekers en wetenschappers verenigd in een poging de ziekte te begrijpen en manieren te vinden om infecties zo snel mogelijk te detecteren en te behandelen. Onlangs lanceerde AWS CORD-19 Search, een nieuwe zoekwebsite die wordt aangedreven door machine learning en waarmee onderzoekers snel en gemakkelijk tienduizenden research papers en documenten kunnen doorzoeken met behulp van natuurlijke taalvragen.

Als onderdeel van de afgelegen ronde tafel van het Witte Huis met de Tech Sector die vorige maand werd gehouden, heeft het Allen Institute for AI (AI2) CORD-19 (COVID-19 Open Research Dataset) uitgebracht. CORD-19 Search is gebouwd met gebruikmaking van deze dataset, die aanvankelijk bestond uit ongeveer 24.000 wetenschappelijke en onderzoeksbronnen met betrekking tot COVID-19, SARS-CoV-2 en coronavirussen. Sinds de beschikbaarheid ervan is de CORD-19-dataset bijna verdubbeld tot 47.000 onderzoeksdocumenten en documenten afkomstig van peer-reviewed publicaties en pre-print servers.

De wetenschappelijke gemeenschap reageert op de dreiging van COVID-19 door het nieuwe coronavirus te bestuderen en baanbrekend onderzoek en bevindingen over detectie en behandeling te publiceren. Dit oeuvre genereert wetenschappelijk en medisch bewijs over COVID-19 op een exponentiële schaal - zozeer zelfs dat het moeilijk te verteren en te analyseren is. Het maken van belangrijke inzichten binnen zo'n grote hoeveelheid informatie vindbaar is van cruciaal belang voor het ontwikkelen van reacties op overdracht en behandeling van ziekten, waaronder het vinden van een geneesmiddel of vaccin voor COVID-19.

CORD-19 Search helpt onderzoekers door deze snelgroeiende coronavirusliteratuur te navigeren om efficiënt relevante en up-to-date informatie te vinden. CORD-19 Search biedt een eenvoudige zoekinterface waar onderzoekers vragen kunnen stellen in natuurlijke taal, zoals: "Wanneer is de virale belasting van het speeksel het hoogst voor COVID-19?" en "Is herstellende plasmatherapie een voorloper van vaccin?" CORD-19 Zoeken produceert nauwkeurige antwoorden en brondocumenten.

Het antwoord op de hoogste virale belasting van COVID-19 stelt bijvoorbeeld dat "De virale belasting van het speeksel het hoogst was in de eerste week na het begin van de symptomen en daarna afnam met de tijd". Evenzo reageert CORD-19 Search dat herstellende plasmatherapieën "bij afwezigheid van een vaccin een oplossing zouden bieden om te stoppen, en idealiter overwegen om te geven aan degenen die risico lopen op blootstelling of vroegtijdig symptomen vertonen (als een paraatheidsmaatregel)" samen met gerelateerde wetenschappelijke artikelen uit eerdere proeven tijdens SARS en Ebola. CORD-19 Search biedt ook evidence-based onderwerpen over incubatie, transmissie, therapeutica en risicofactoren. Deze functionaliteit is van onschatbare waarde voor wetenschappers die snel vragen kunnen stellen, hun onderzoek kunnen valideren en hun onderzoek kunnen voortzetten.

Hoe AWS CORD-19 Search heeft gebouwd

CORD-19 Search maakt gebruik van AWS machine learning-services voor uitgebreide en bruikbare resultaten. De oorspronkelijke dataset is verrijkt met Amazon Comprehend Medical, een natuurlijke taalverwerkingsservice die machinaal leren gebruikt om relevante medische informatie te extraheren uit ongestructureerde tekst, waaronder ziekte, behandeling en tijdlijn. De gegevens worden vervolgens in kaart gebracht op klinische modellen en medische onderwerpen die verband houden met COVID-19 met behulp van een multi-label classificatiemodel en gevolgtrekking, zoals virologie, immunologie en laboratorium- of klinische onderzoeken. De informatie wordt vervolgens geïndexeerd in Amazon Kendra, een zeer nauwkeurige zoekservice voor bedrijven die wordt aangedreven door machine learning, en biedt robuuste zoekmogelijkheden in natuurlijke taal die het gemakkelijker maken om gerelateerde artikelen te vinden en te rangschikken. De Comprehend Medical-verrijkte gegevens en Amazon Kendra-zoekopdrachten zijn gebaseerd op gegevens die beschikbaar zijn in het openbare AWS COVID-19-gegevensmeer, waar iedereen kan experimenteren met beheerde gegevens over de ziekte en deze kan analyseren en hun resultaten kan delen.

De voordelen op lange termijn van CORD-19 Search

AWS past machine learning toe op de CORD-19-dataset om het tempo van ontdekking te versnellen, waarbij de snelheid van interventie, progressie en behandeling van COVID-19 van cruciaal belang is. Onze langetermijnvisie is om toekomstige capaciteiten te bouwen op basis van de CORD-19 Search-architectuur om ongelijksoortige gegevensbronnen, waaronder klinische onderzoeksgegevens, te integreren, zodat onderzoekers over de hele wereld patiëntspecifieke patronen van ziekteprogressie kunnen samenvoegen en datagedreven beslissingen kunnen nemen en hebben een positieve invloed op de resultaten van patiënten op schaal.

Door Taha Kass-Hout, MD, MS - Directeur ML en Chief Medical Officer; en Ben Snively, architect-specialist in de publieke sector

Terug naar nieuws overzicht