MapD haalt alles uit de kast voor snelle datavisualisatie
14-04-2018 | door: Hans Steeman

MapD haalt alles uit de kast voor snelle datavisualisatie

Het visualiseren van bigdata vergt heel veel rekenwerk. Omdat plaatjes meer zeggen dan tabellen, is er grote vraag naar een oplossing voor deze wens. MapD (Massive Parallel Data) heeft daar een uitdaging in gevonden en door in-memory dataverwerking te combineren met een array van GPU’s (Graphical Processing Unit) een bijzonder krachtige oplossing gecreëerd.

GPU’s zijn speciaal ontwikkeld om beeldscherminformatie te genereren en blinken uit door hun rekenkracht. Spelcomputer en werkstations maken er gebruik van, MapD gebruikt ze voor een iets andere toepassing dan het in een computer louter renderen van beeldschermdata. Vergeleken met een gewone CPU is een grafische kaart een uiterst krachtig rekencentrum dat ook voor andere klussen ingezet kan worden. Het gebruik van GPU’s voor louter rekenwerk is niet nieuw. Al vaker werd de hulp van gebruikers van bijvoorbeeld PlayStation ingeroepen om niet gebruikte rekenkracht te “doneren” aan het goede doel (genetic engineering).

Zo is recent nog een hiv-vraagstuk door gamers opgelost via project Foldit. Tal van projecten hebben zo gewerkt aan het ontrafelen van medische data. Dat GPU’s zo geschikt voor zijn ligt aan de opzet van die kaarten. Het is feitelijk een array van zeer krachtige microprocessoren die parallel data verwerken. MapD, in 2013 opgericht door Todd Mostak (foto), laat zien dat voor GPU’s dataverwerking en de analyse van databases het nieuwe werkterrein kan worden. De door MapD gebouwde hardware kan miljarden records binnen milliseconden verwerken. Op dit moment werkt het concept met GPU’s van Nvidia (een van de bedrijven die in MapD geïnvesteerd heeft) maar het is na enige aanpassing technisch ook mogelijk om bijvoorbeeld hardware van AMD te gebruiken. Daarmee kan het systeem vragen van gebruikers in real time visualiseren op het scherm. De MapD-database maakt afhankelijk van het type data gebruik van RAM-geheugen (hot data) en flash geheugen (cold data)

De parallelle rekenkracht van de GPU’s maakt het mogelijk dat de de MapD Core SQL engine miljarden records binnen enkele milliseconden verwerkt via standaard SQL-commando’s. Het visualiserende analyse system MapD Immerse, is onderdeel van het MapD Core SQL-system en toont binnen milliseconden datasets op basis van miljarden records, terwijl gelijktijdig analyse van data tot op individueel niveau mogelijk is. De winst van het system gaat verder dan alleen de snelle visualisatie en analyse, er is niet langer een noodzaak om de bulkdata voor te bewerken. Dit spaart heel veel werk en tijd uit. Gewoonlijk maken databases gebruik van indexen, die continue worden bijgewerkt en bijgehouden. Indexen zijn in zo’n geval eigenlijk al ruwe brokken met eindresultaten. Dankzij MapD is dat dus niet meer nodig.

Door: Hans Steeman

Terug naar nieuws overzicht