Witold Kepinski - 28 juni 2016

Microsoft biedt nieuwe Spark tools en services voor Big Data & Analytics

Microsoft biedt nieuwe Apache Spark gebaseerde tools en cloud services voor Big Data en analytics projecten. Hiermee kunnen organisaties in Microsoft en Linux omgevingen Big Data projecten draaien op Spark SQL databases.

Met Apache Spark kunnen data van Big Data projecten opgeslagen worden op een server geheugen en geanalyseerd worden. Dat leidt volgens Microsoft tot een betere performance dan bij het gebruik van het MapReduce programming model waarbij data op harde schijven wordt opgeslagen alvorens het geanalyseerd wordt.

HDInsight

Het Microsoft Spark aanbod bestaat uit Spark for Azure HDInsight waarmee Spark projecten cloud kunnen worden uitgevoerd. Het Microsoft Spark aanbod kan gekoppeld worden met de Hortonworks big data software service die gebruik maakt van het R programmeertaal die door data scientist wordt gebruikt. Microsoft heeft deze technologie in huis dankzij de overname van Revolution Analytics.

R server platform

Spark streaming data kan gecombineerd worden met de Microsoft Power BI business intelligence/data visualization software. Microsoft heeft verder zijn on-premise R server software platform voor het Hadoop big data framework getweakt. Hiermee kunnen organisaties zowel Spark als MapReduce projecten runnen die Spark ondersteunen. 

Over Apache Spark

Apache Spark is volgens Microsoft een open source verwerkingsframework waarmee grootschalige toepassingen voor gegevensanalyse worden uitgevoerd. "Spark is gebaseerd op een rekenengine die is geïntegreerd in het geheugen, en zorgt voor hoge prestaties bij het uitvoeren van query's bij big data. Het maakt gebruik van een framework voor parallelle gegevensverwerking die indien nodig kan omgaan met in een geheugen geïntegreerde gegevens of schijfgegevens. Op deze manier kan Spark zowel een 100x hogere snelheid als een gemeenschappelijk uitvoeringsmodel bieden voor verschillende taken, zoals extraheren, transformeren, laden (ETL), batch, interactieve query's en andere taken voor gegevens in HDFS (Hadoop Distributed File System). Azure maakt Apache Spark gemakkelijk en betaalbaar te implementeren. Er hoeft geen hardware te worden aangeschaft en geen software te worden geconfigureerd. Het biedt een volledige notebookervaring voor aansprekende scenario's en integratie met Business Intelligence-hulpmiddelen van partners."

Lees meer over de mogelijkheden hier. HDInsight is gratis uit te proberen.

Door: Witold Kepinski

Wil jij dagelijkse updates?

Schrijf je dan in voor onze nieuwsbrief!