Databricks realiseert lakehouse met SQL Analytics cloud
13-11-2020 | door: Wouter Hoeffnagel

Databricks realiseert lakehouse met SQL Analytics cloud

Databricks lanceert SQL Analytics, een oplossing waarmee data-analisten binnen data lakes werk kunnen verrichten dat voorheen alleen in datawarehouses mogelijk was. Hierdoor zijn data lakes niet meer beperkt tot datawetenschap en machine learning, maar zijn alle typen dataverwerking mogelijk – inclusief business intelligence (BI) en SQL. Datateams in de gehele organisatie hebben zo een gezamenlijke single source of truth.

Met SQL Analytics brengt Databricks zijn visie van het lakehouse in de praktijk. Het lakehouse is een architectuur die de prestaties van datawarehouses combineert met de lage operationele kosten van een data lake. Hierdoor is de verhouding tussen kosten en prestaties tot negen keer beter dan bij traditionele cloud datawarehouses. SQL Analytics is vanaf 18 november toegankelijk als preview.

Data en AI versimpelen

Een lakehouse-architectuur versimpelt data en AI voor organisaties. Voorheen dienden datateams hun eigen datawarehouses voor BI-werkzaamheden én data lakes voor datawetenschap en machine learning te onderhouden. Dit omdat geen enkel dataplatform zowel de prestaties kon leveren die nodig waren voor BI en de flexibiliteit kon bieden die vereist was voor datawetenschap. Het onderhoud van legacy-architecturen is bovendien duur en ingewikkeld, en heeft tot datasilo’s geleid die innovatie vertragen en productiviteit verminderen. Een lakehouse lost dit probleem op door alle werkzaamheden te combineren binnen één architectuur.

“Het is niet meer een vraag óf organisaties hun data naar de cloud verhuizen, maar wannéér”, zegt Ali Ghodsi (foto), CEO en medeoprichter van Databricks. “Een lakehouse-architectuur die op een data lake is gebouwd, is de ideale oplossing voor datagedreven organisaties. Deze lancering geeft onze klanten veel betere mogelijkheden voor hun datastrategie. We hebben samengewerkt met duizenden klanten om te doorgronden hoe ze hun datastrategie willen vormgeven. Data lakes hebben hierin de voorkeur voor de overgrote meerderheid. Zij hebben gigantische hoeveelheden data in hun data lakes. Met SQL Analytics kunnen ze deze data direct in dat data lake verwerken door met BI-tools zoals Tableau te koppelen.”

Delta Lake

SQL Analytics is gebouwd op Delta Lake, een open format data engine die betrouwbaarheid, kwaliteit en beveiliging toevoegt aan het bestaande data lake van de klant. Hierdoor zijn meerdere kopieën van data onnodig en wordt dataopslag niet beperkt tot bedrijfsspecifieke formats.

Om BI mogelijk te maken op een data lake bevat SQL Analytics onder meer gebruiksvriendelijke, automatisch schaalbare eindpunten die de query latency consistent laag houden, ook wanneer vele gebruikers tegelijkertijd aan het werk zijn. Daarnaast gebruikt het Delta Engine, de query engine van Databricks, om query’s zeer snel uit te voeren in zowel grote als kleine datasets.

Koppelingen met BI-tools

Dankzij koppelingen met alle grote BI-tools waaronder Tableau en Microsoft Power BI, kunnen klanten SQL Analytics gemakkelijk integreren binnen hun bestaande BI workflows en zo gebruikmaken van actuelere en completere data. SQL Analytics beschikt ook over een query- en visualisatie-interface waarmee analisten, datawetenschappers en ontwikkelaars gemakkelijk dashboards en rapporten kunnen aanmaken en deze binnen hun organisatie delen met gebruikers zonder toegang tot traditionele BI-tools.

“Organisaties hebben meer dan ooit een datastrategie nodig die hen wendbaarder maakt”, zegt Francois Ajenstat, Chief Product Officer bij Tableau. “Nu organisaties hun data naar de cloud verhuizen, zien we dat er meer interesse is in analytics binnen data lakes. SQL Analytics biedt een geheel nieuwe ervaring, waarin klanten inzichten uit enorme hoeveelheden data kunnen verkrijgen met de snelheid, kwaliteit en schaal die ze nodig hebben. We zijn trots op onze samenwerking met Databricks om die mogelijkheden te realiseren.”

Brede ondersteuning

De lakehouse-architectuur wordt breed ondersteund door partners van Databricks, waaronder:

  • BI-partners: Tableau, Power BI, Qlik, Looker, Thoughtspot
  • Ingest-partners: Fivetran, Fishtown Analytics, Matillion, Talend
  • Catalog-partners: Collibra, Alation
  • Consulting-partners: Slalom, Thorogood, Advancing Analytics

“Databricks SQL Analytics is een cruciale stap voor de belangrijkste ontwikkeling in de moderne datastack: de vereniging van traditionele SQL analytics met machine learning en datawetenschap”, zegt George Fraser, CEO bij Fivetran. “Organisaties investeren ontzettend veel om data te centraliseren en te cureren. Deze investeringen zouden eenmalig moeten zijn, waarna ze meerdere analysemethodes en disciplines binnen één omgeving kunnen toepassen. De lakehouse-architectuur ondersteunt deze werkwijze.”

Rohan Dhupelia, Data Platform Senior Manager bij Atlassian, zegt: “Bij Atlassian moeten we ervoor zorgen dat teams met verschillende disciplines goed kunnen samenwerken om onze voortdurend veranderende doelen te bereiken. Een vereenvoudigde lakehouse-architectuur zou ons in staat stellen om grote hoeveelheden gebruikersdata te verwerken en analyses uit te voeren die nodig zijn om klantbehoeften beter te voorspellen en de klantervaring te verbeteren. Met één eenvoudig te gebruiken cloud analytics-platform kunnen we snel nieuwe samenwerkingstools verbeteren en doorontwikkelen op basis van bruikbare inzichten.”

Geautomatiseerde analyses

Daniel Tibble, Head of Data bij Wejo, zegt: “Bij Wejo verzamelen we gegevens van meer dan 50 miljoen auto's om een betere rijervaring te ontwikkelen. Databricks en een robuuste lakehouse-architectuur stellen ons in staat om onze klanten geautomatiseerde analyses aan te bieden, waardoor ze binnen enkele seconden inzicht krijgen in bijna 5 biljoen datapunten per maand, en dat alles in een streamingomgeving van auto naar marktplaats.”

Andrew Gross, Director of Engineering bij Yipitdata, zegt: “Als bedrijf dat datagedreven onderzoek levert aan onze klanten, is de enorme hoeveelheid data in ons data lake bedrijfskritisch. Door het gebruik van Databricks en Delta Lake zijn we er al in geslaagd om data op schaal te democratiseren, terwijl we de kosten voor het uitvoeren van productie-workloads met 60% hebben verlaagd – wat ons miljoenen dollars heeft bespaard. We zijn blij dat we dit momentum vast kunnen houden, door gebruik te maken van de Databricks lakehouse-architectuur, die iedereen binnen onze organisatie – van onderzoeksanalisten tot datawetenschappers – in staat stelt om dezelfde data door elkaar te gebruiken, waardoor we sneller dan ooit tevoren innovatieve inzichten aan onze klanten kunnen bieden.”

De lancering van SQL Analytics volgt na een jaar waarin Databricks sterk is gegroeid. Het bedrijf bereikte in Q3 2020 een run rate van ruim $350 miljoen, vergeleken met $200 miljoen in Q3 2019. Daarmee is Databricks een van de snelst groeiende enterprise cloud softwarebedrijven ooit. Ook is het bedrijf wereldwijd in omvang gegroeid: de teams in het VK, Nederland, Duitsland en Zweden zijn het afgelopen jaar verdubbeld, en zijn vervijfvoudigd in India en Australië. Databricks telt nu 1500 medewerkers, die duizenden datateams wereldwijd bedienen.

Terug naar nieuws overzicht
Cloud