Wouter Hoeffnagel - 30 mei 2021

Databricks vernieuwt Lakehouse-platform

Databricks vernieuwt Lakehouse-platform image

Databricks lanceert vier vernieuwingen voor zijn Lakehouse-platform en mogelijkheden voor machine learning (ML). Delta Live Tables versimpelt de ontwikkeling en het beheer van betrouwbare data pipelines met Delta Lake. Unity Catalog is een nieuwe, verenigde datacatalogus die het makkelijk maakt om alle data assets van een organisatie te beheren en biedt een compleet overzicht van alle data binnen de verschillende clouds en bestaande catalogi in gebruik. De Unity Catalog wordt ondersteund door Delta Sharing, een nieuw open source-protocol van Databricks. Tenslotte lanceert het bedrijf Databricks Machine Learning, een nieuw, data-native platform dat is gebouwd op een open lakehouse-architectuur. Dit platform ondersteunt ML-engineers bij het beheren van de volledige ML-levenscyclus.

Delta Live Tables

Delta Live Tables is een cloudservice die ETL-werk (Extract, Transform en Load) simpeler en betrouwbaarder maakt binnen Delta Lake om ervoor te zorgen dat gegevens opgeschoond en consistent zijn wanneer ze worden gebruikt voor analytics en ML. Dit gebeurt bijvoorbeeld door veel handwerk in de opzet en het beheer van pipelines te automatiseren.

Delta Live Tables is als preview beschikbaar voor Databricks-klanten.

Unity Catalog

Unity Catalog is gericht op data governance in multi-cloud- en multi-format-omgevingen en biedt één interface voor governance van alle data assets, zowel gestructureerd als ongestructureerd en in alle gebruikte cloud data lakes. Dit maakt het voor ondernemingen eenvoudiger om hun data te verenigen op het Lakehouse-platform. Unity Catalog integreert ook met bestaande catalogi, zodat organisaties kunnen voortbouwen op wat er al staat en een toekomstbestendig en gecentraliseerd governancemodel kunnen opzetten zonder dure migratiekosten.

Databricks Machine Learning

Databricks Machine Learning biedt datateams alle benodigde tools binnen één omgeving, waarin ze kunnen schakelen tussen functies voor data science/engineering, SQL Analytics en nieuwe ML-functies. Databricks Machine Learning is gebouwd op de open lakehouse-architectuur en zorgt ervoor dat klanten eenvoudig ML-werk kunnen uitvoeren met ieder type data en op elke schaal. Databricks Machine Learning lanceert daarnaast met twee nieuwe functionaliteiten die ML-werk verbeteren, Databricks AutoML en Databricks Feature Store.

Databricks AutoML

Nieuwe AutoML-mogelijkheden in Databricks ML stellen datateams niet alleen in staat om snel modellen te trainen via een UI of API, maar ook de onderliggende experimenten en notebooks te delen. Data scientists kunnen zo een onbekende dataset valideren of een nieuw ML-project toetsen.

Bovendien zijn alle AutoML-experimenten geïntegreerd met de rest van Databricks’ Lakehouse-platform, zodat onder meer alle gerelateerde parameters, statistieken, modellen die aan elke proefrun zijn gekoppeld kunnen worden bijgehouden. Hierdoor zijn modellen eenvoudig te vergelijken en kunnen ze eenvoudig in productie worden genomen.

Databricks Feature Store

Features zijn de attributen die door ML-modellen worden gebruikt om beslissingen te nemen. Om zo efficiënt mogelijk te kunnen werken, moeten data scientists features binnen de organisatie in kaart brengen, weten hoe ze zijn opgebouwd en waar ze worden gebruikt. Feature Store van Databricks is de eerste feature store die binnen een data- en MLOps-platform is ontworpen. Feature Store stelt datateams in staat om features te hergebruiken in verschillende modellen om herbewerking en duplicatie van features te voorkomen, wat datateams volgens Databricks maanden kan besparen bij het ontwikkelen van nieuwe modellen.

Features worden opgeslagen in Delta Lake's open bestandsformaat en kunnen worden benaderd via de native API's van Delta Lake. Feature Store biedt daarnaast zowel real-time- als batch-toegang tot features voor bijvoorbeeld ML-training en streaming. En dankzij een integratie met MLflow zijn feature-referenties ingebed in het model zelf, zodat gebruikers features kunnen bijwerken zonder dat het applicatieteam wijzigingen hoeft aan te brengen in de applicatiecode.

Databricks Machine Learning is als preview beschikbaar voor alle Databricks-klanten.

Wil jij dagelijkse updates?

Schrijf je dan in voor onze nieuwsbrief!