IBM introduceert Data Asset eXchange

18-07-2019 | door: Witold Kepinski

IBM introduceert Data Asset eXchange

IBM introduceert Data Asset eXchange (DAX), een online hub voor ontwikkelaars en data-wetenschappers om zorgvuldig samengestelde gratis en open datasets te vinden onder open data-licenties.

Tijdens het OSCON 2019 heeft IBM de lancering aangekondigd van de IBM Data Asset eXchange (DAX), een online hub voor ontwikkelaars en data-wetenschappers om zorgvuldig samengestelde gratis en open datasets te vinden onder open data-licenties. Ontwikkelaars die ML-modellen gebruiken, hebben open gegevens nodig die ze met vertrouwen kunnen gebruiken onder duidelijk gedefinieerde open data-licenties.

Naarmate meer bedrijven kunstmatige intelligentie (AI) overnemen, is het plaatsen van machine learning (ML) -modellen in handen van ontwikkelaars absoluut noodzakelijk. Daartoe lanceerde het Center for Open Source Data & AI Technologies (CODAIT) IBM Model Asset eXchange (MAX) in 2018 om gegevenswetenschappers en ontwikkelaars te helpen eenvoudig kant-en-klare vrije en open source machine learning en deep learning-modellen te ontdekken.

Waar mogelijk, gebruiken datasets die op DAX zijn gepost, het Community Data Licence Agreement (CDLA) open data licensing framework van de Linux Foundation om gegevensuitwisseling en samenwerking mogelijk te maken. Bovendien biedt DAX unieke toegang tot verschillende IBM en IBM Research-datasets. IBM is van plan nieuwe gegevensreeksen op de Data Asset eXchange regelmatig te publiceren. De datasets op DAX zullen indien nodig worden geïntegreerd met IBM Cloud- en AI-services.

Vertrouwde bron van open datasets

Voor ontwikkelaars biedt DAX een vertrouwde bron voor zorgvuldig samengestelde open datasets voor AI. Deze datasets zijn klaar voor gebruik in enterprise-AI-applicaties, met gerelateerde content zoals tutorials om het aan de slag gaan gemakkelijker te maken.

Voor medewerkers die verantwoordelijk zijn voor het gebruik en de controle van datasets, biedt DAX zowel curatie als gestandaardiseerde gegevenssetindelingen en metagegevens, in tegenstelling tot de meeste andere open datasetresources die doorgaans minder kwaliteits- en licentievoorwaardencontroles bevatten. DAX-gegevensreeksen zijn dus meestal eenvoudiger in bedrijven.

Voorbeeld van in gebruik zijnde datasets

Een voorbeeld van de soorten datasets die we vrijgeven, zijn de datasets Finance Propososition Bank en Contracts Proposition Bank. Deze datasets maken deel uit van een actief onderzoeksprogramma van IBM Research. Dit onderzoeksproject heeft als doel de natuurlijke taalbegripstechnologieën achter meerdere IBM-productaanbiedingen te verbeteren, waaronder Watson Natural Language Understanding en Watson Compare & Comply.

IBM onderzoekers hebben deze datasets gemaakt met input van Watson-ontwikkelaars, waarbij ze de kenmerken van de doeltekst hebben gekoppeld aan die van de real-world documenten die het systeem in de productie analyseert. De onderzoekers gebruikten deze datasets om domeinspecifieke versies van de parsers te trainen die semantische betekenis ontlenen aan bedrijfsdocumenten zoals juridische overeenkomsten en financiële rapporten.

IBM Research heeft een lange geschiedenis van dit soort werk in de openbaarheid en wij van het CODAIT-team zijn er trots op om de onderzoeksmissie van IBM Research te helpen door deze geavanceerde onderzoeksgegevens over de Data Asset eXchange vrij te geven.

Waarom DAX?

Hoewel er veel bronnen online beschikbaar zijn voor het vinden van open datasets - variërend van collecties van links op GitHub tot sites zoals Kaggle Datasets - is DAX uniek in zijn hoge kwaliteit en curatie. DAX helpt bij het creëren van end-to-end diepgaande leerworkflows (van het gebruik van de data tot het trainen van modellen tot het implementeren van modellen op standaardmanieren) waardoor ontwikkelaars open data met vertrouwen kunnen gebruiken onder duidelijk gedefinieerde open data-licenties.

Gegevens

IBM heeft de Data Asset eXchange-repository ontworpen als aanvulling op de Model Asset eXchange. De gebruikersinterface voor het organiseren van de items is consistent over de twee platforms en gebruikers kunnen eenvoudig modellen op MAX trainen met behulp van gegevens uit de Data Asset eXchange. "Het doel van het CODAIT-team is om het eenvoudig te maken om DAX- en MAX-middelen te gebruiken in combinatie met IBM AI-producten, evenals andere hybride, multicloud AI-tools, zowel eigen als open source. We willen data scientists en ontwikkelaars goed ontwikkelde data-uitgangspunten geven, zodat het gemakkelijker voor hen is om hun AI-applicaties en -oplossingen te ontwikkelen.". aldus IBM.

Terug naar nieuws overzicht