Redactie - 11 april 2016

HortonWorks belicht voordelen DataLake en Spark tijdens Hadoop congres

Big data Open source Devops Software

Deze maand staat het Ierse Dublin centraal bij Hortonworks. Tijdens het Hadoop congres zal HortonWorks nogmaals onderstrepen dat de recente acquisitie van DataFlow een positieve impact heeft op de product performance. Dankzij deze aanvulling worden diepere data analyses eenvoudig mogelijk op de gegevens in de Hadoop DataLake, zo meldt de leverancier.

Een Hadoop DataLake is een management platform bestaande uit één of meer Hadoop clusters dat gebruikt wordt voor het bewerken en de opslag van niet-relationele data zoals logfiles, internet records, sensor data, JSON objecten, images en data van sociale media. Een DataLake kan ook transacties data omvatten uit relationele databases, maar ze is primair bestemd voor het ondersteunen van analyse toepassingen, maar niet voor het analyseren als zodanig.

De DataLake staat in de schijnwerpers door de integratie met Kafka en Storm, twee andere Hadoop projecten. Herb Cunitz (foto), CEO van Hadoop, claimt dat inmiddels al meer dan 130 van dergelijke systemen worden geïntegreerd dan wel operationeel zijn. Ook de beveiliging had de afgelopen tijd de nodige aandacht en is met behulp van Kerberos verder verhoogd.

Spark

Nieuw is de beschikbaarheid van Spark op het Hadoop Data Platform (HDP). Deze toevoeging staat garant voor een flinke performance verbeteringAndere recente toevoegingen aan het platform zijn een beter geheugenbeheer met automatische optimalisatie (een soort van dynamische vuilnisbak) en de toevoeging van de Zeppelin, een eenvoudigere user interface voor gebruikers van de Hadoop data-analyse met wat minder ervaring in deze materie.

Door: Hans Steeman

Tip de redactie