Daten sind Gold wert!
Am 24. Mai dieses Jahres wurde Microsoft Fabric der Öffentlichkeit vorgestellt und sorgte für viel Aufmerksamkeit. Die vollumfängliche Ende-zu-Ende Datenanalyseplattform löste das Interesse eines breiten Feldes von Mitarbeitern aus. An dieser Stelle gilt es zu klären, was eigentlich hinter Fabric steckt, was Microsoft Fabric kann, und warum diese Plattform nach dem englischen Wort für “Stoff” benannt ist?
In unserem ersten veröffentlichten Blogbeitrag zum Thema Microsoft Fabric wird bereits anschaulich beschrieben, warum Daten mit dem Gold des 21. Jahrhunderts vergleichbar sind. Ebenso wie Gold, werden auch Daten aufbereitet und können anschließend für eine Vielzahl von Anwendungen genutzt werden. Lesen Sie hier nochmal nach, was es mit dem „Goldenen Vergleich“ auf sich hat oder erfahren Sie nachfolgend alles weitere über die Fabric-Prozesskette.
Strukturierung und Aufbereitung von Daten
Schlagen wir an dieser Stelle zunächst noch einmal die Brücke zum Gold. Dieses kommt in unterschiedlichster Form in der Natur vor und kann sowohl im Tagebau als auch Untertage abgebaut werden. Für die Weiterverarbeitung wird das Gold Erz anschließend in eine Fabrik geliefert.
Ähnlich sieht es mit Daten aus – auch diese können in verschiedenen Quellen (CRM-Systemen, SQL-Datenbanken oder Webservern) liegen und müssen mit Microsoft Fabric verbunden werden. Für diese Aufgabe ist die Komponente Data Factory zuständig. Sie bietet über 90 standardisierte Konnektoren, um Daten aus dem Quellsystem abzurufen.
Nach der Anlieferung der Ressourcen in der Fabrik, werden diese weiterverarbeitet. An diesem Punkt müssen bereits einige wichtige Entscheidungen für den weiteren Prozess getroffen werden. Je nach Endprodukt werden unterschiedliche Prozesse gestartet. Dafür stehen verschiedene Komponenten von Synapse zur Verfügung, die eng miteinander verknüpft sind. Eine dieser Komponenten ist Synapse Data Engineering, das einige Optionen der Datentransformation bietet. Mit Hilfe von Apache Spark können dabei große Datenmengen verarbeitet werden. Eine Neuheit von Synapse Data Engineering ist die Möglichkeit der Erstellung von Lakehouses, die eine Art Hybrid aus Datalake und Datawarehouse bilden.
Die Idee dahinter ist die Kombination der Vorteile beider Ansätze in einem Modell zu vereinigen. Mit Synapse Data Warehouse steht eine Komponente für das klassische Speichern der aufbereiteten Daten in einem Data Warehouse bereit. Für das Erstellen von Modellen aus dem Bereich maschinelles Lernen und künstlicher Intelligenz bietet Synapse Data Science beste Möglichkeiten. Hier können in Jupyter Notebooks individuelle und optimierte Klassifizierer für die gewünschten Anwendungen konstruiert werden. Immer größere Bedeutung kommt Echtzeitanalysen von großen Datenmengen zugute, um schneller auf veränderte Umstände reagieren zu können. Hier bietet Synapse Real-Time Analytics eine optimale Lösung an.
Eine vollumfängliche Prozesskette
Der letzte Schritt in dieser Prozesskette ist das fertige Produkt. In diesem Prozess sind das die aufbereiteten und ausgewerteten Daten, die in den bekannten Power BI-Berichten dargestellt werden können. Für eine optimale Darstellung der Ergebnisse bietet Power BI eine Reihe von Visualisierungsmöglichkeiten an. Daneben bietet Fabric mit dem Data-Activator ein automatisiertes Werkzeug, das direkt auf Veränderungen der Daten reagiert. So können vom Benutzer Reaktionen und Handlungen auf bestimmt Ereignisse vordefiniert werden.
Neben all diesen Komponenten ist der OneLake in Fabric von zentraler Bedeutung. Hier werden die Daten quer durch alle Stationen gespeichert und können jederzeit abgerufen werden. Damit wird auch die große Neuerung oder die markanteste Eigenschaft von Microsoft Fabric deutlich, nämlich die enge Vernetzung der Komponenten und den Daten. Hieraus leitet sich auch die Analogie zu Fabric ab. Schließlich ist Stoff auch engmaschig verknüpft.