Wouter Hoeffnagel - 17 maart 2020

Enorme dataset met 29.000 artikelen over coronavirus gepubliceerd

Big data Data Innovation Artificial intelligence

Een groep Amerikaanse techbedrijven, onderzoekscentra en andere partijen publiceert de COVID-19 Open Research Dataset (CORD-19). Deze dataset bestaat uit ruim 29.000 artikelen over het coronavirus en is leesbaar voor machines, wat analyses met kunstmatige intelligentie (AI) mogelijk maakt. Nieuw onderzoek wordt aan de dataset toegevoegd.

De dataset is opgesteld door onderzoekers en medewerkers van het Allen Institute for AI, Chan Zuckerberg Initiative (CZI), Georgetown University’s Center for Security and Emerging Technology (CSET), Microsoft en het National Library of Medicine (NLM) van het Amerikaanse National Institutes of Health. Het initiatief kwam tot stand nadat de Office of Science and Technology Policy van het Amerikaanse Witte Huis roept onderzoekers en techbedrijven opriep samen te werken in de strijd tegen het coronavirus.

29.000 artikelen

De dataset is leesbaar voor machines en bevat ruim 29.000 artikelen gerelateerd aan het coronavirus, waarvan in 13.000 gevallen de volledige tekst beschikbaar is. De betrokken partijen roepen wetenschappers op AI in te zetten om de dataset te analyseren, in de hoop kritieke vragen over het virus te beantwoorden.

De gegevens zijn beschikbaar op de website SemanticScholar.org van het Allen Institute. De organisaties voegen nieuw onderzoek en nieuwe artikelen die verschijnen toe aan de dataset. Het Witte Huis roept onderzoekers tekst- en dataminingtools die zij ontwikkelen en inzichten die zij vergaren te uploaden via het Kaggle platform. Dit is een machine learning en data science community van Google Cloud en toegankelijk voor onderzoekers wereldwijd.

Meer informatie is hier te vinden.

Tip de redactie