Redactie - 04 april 2016

Trifacta veredelt data voor optimale analyse

Big data Data

Data wrangling een toverwoord dat voor menig IT’er nog onbekend is. Voor Trifacta is het de beschrijving van een procesflow in de verwerking van big data. Data wrangling is als een project gestart op de universiteiten van Berkeley en Stanford, onder de inspirerende aanvoering van Joe Hellerstein en Sean Kandel. Na de oprichting van Trifacta in 2012, hebben vier investeerders geld in het bedrijf gestort ter waarde van ruim 76 miljoen dollar, en zijn beide ontwikkelaars (Joe Hellerstein en Sean Kandel) tot de onderneming toegetreden.

Trifacta probeert met zijn proces een brug te slaan tussen de ruwe big data dat een proces kan genereren en de wensen van de business afdelingen die hen moeten analyseren. Het Data Wrangler project is niet af, maar zo’n 80% van de doelstellingen is inmiddels wel bereikt. Cruciaal is dat het proces bedoelt is om data klaar te stomen voor verdere analyse, het stopt geen effort in de analyse zelf.

Voor het proces is de Trifacta Wrangler Enterprise ontwikkeld, een systeem dat grote hoeveelheden data in hoge snelheid kan prepareren. Het systeem wordt met een jaarabonnement aangeboden. Het kan onbegrensde hoeveelheden data aan en is schaalbaar.

CSV-bestand

Een kleinere versie Trifacta Wrangler, heeft minder mogelijkheden en een lagere capaciteit. Het is dan ook een testversie die op Windows en OSX (Mac) geprobeerd kan worden. Met een standaard CSV-bestand als input, is het product door iedereen snel en simpel te testen.

Adam Wilson (foto), CEO of Trifacta, data wrangling bestaat feitelijk uit zes processtappen: “Discovering, Structuring, Cleaning, Enriching, Validating and Publishing”. Vrij vertaald lokaliseren, structureren, oppoetsen, verrijken, valideren en vervolgens beschikbaar maken.

Het zijn deze zes processtappen die het verschil maken. Alle te analyseren data kan perfect opgeslagen zijn op een Hadoop cluster, de goedkope en flexibele oplossing. Trifacta Wrangler werkt met een sample van de te analyseren (live) data, waarna deze gemodelleerd wordt in de vorm en structuur die de gebruiker als eindresultaat van het hele bestand wenst. Voldoet het eindresultaat, dan kan de gebruiker het model toepassen op het te analyseren databestand. De procesflow is vergelijkbaar met de Query by Example (QbE) benadering waarmee databases 20 jaar geleden bewerkt werden.

Trifacta krijgt al een behoorlijke footprint in de markt met nu al meer dan 3000 ondernemingen en meer dan 10.000 werknemers die het product benutten. Onder de bedrijven zijn imposante namen zoals GoPro, PepsiCo, Orange, LinkedIn, RBS en Zurich.

Wie meer wil weten over data wrangling: Trifacta publiceerde een O'Reilly boek over de principes en technologie van data wrangling, een boek dat hier (https://www.trifacta.com/gated-form/oreilly-data-wrangling/) gratis te downloaden is.

Door: Hans Steeman

Tip de redactie