Aus dem Kurs: Datamining mit Databricks/Spark und Automated Machine Learning in der Cloud
Ausgangssituation
Aus dem Kurs: Datamining mit Databricks/Spark und Automated Machine Learning in der Cloud
Ausgangssituation
Die Ausgangssituation, die wir uns in diesem Training anschauen werden, kann in folgende Bereiche unterteilt werden. Zum einen haben wir Technologien, Applikationen, Services, die Daten generieren und diese zur Verfügung stellen. D. h., wir brauchen zu Beginn unseres Anwendungfalls natürlich Daten. In vielen Fällen kann es beispielsweise eine IoT-Lösung sein, die Sensordaten sammelt und diese für die weitere Analyse im RAW-Format, also unbehandelt, zur Speicherung und Verarbeitung weiterschickt. Neben IoT-Daten können hierbei auch weitere Datenströme entstehen, die uns für unsere zukünftige Analyse interessieren können, wie beispielsweise historische Daten von On-premise-Systemen oder eben auch Daten von Software as a Service-Applikationen, kurz SaaS genannt, wie beispielsweise unser CRM- oder ERP-System. Wenn wir die Daten haben, geht es weiter in die Datenspeicherung. Und da Datenspeicher in der Cloud theoretisch unlimitiert und günstig zur Verfügung steht, werden diese Daten, die eben mittels IoT-Devices, SaaS-Applikationen oder eben auch anderweitigen Quellen erstellen werden, an die Cloud geschickt und dort archiviert. Dann können wir hier Tools wie Azure Databricks, über das wir im folgenden Training oft sprechen werden, darauf zugreifen und diese Daten optimiert transformieren. Azure Databricks ist eine managed Spark-Plattform, d. h., es verwendet zwar Open Source Spark, kümmert sich jedoch um die Bereitstellung von neuen Versionen, Wartungen, aber auch Icons, weiterentwickelten Funktionen. Azure Databricks kann als Plattform gesehen werden, die große Mengen an Daten schnell verarbeiten kann, und wird daher oft, aber nicht ausschließlich für die Transformation von RAW-Daten verwendet. Welche Daten das sind, hängt hier stark von dem Anwendungsfall und der Hypothese, die gelöst werden soll, ab. Dementsprechend würde das Szenario und noch die Datenlandschaft eines IoT-Anwendungsfalls anders aussehen bzw. andere Daten anzapfen wie das einer Kundenzufriedenheitsanalyse. Sobald die Daten in ein akzeptables und sauberes Format transformiert wurden, können wir diese Daten nutzen, um Prognosen und Vorhersagen zu machen. Hier kommt Azure Machine Learning Service ins Spiel, das uns hilft, die sauberen Daten in ein Machine-Learning-Modell einzupflegen. Azure Machine Learning ist ein auf der Cloud gehosteter Service, der mir das Trainieren, Hosten, Deployen, Tracken und Automatisieren von Machine Learning-Modellen erlaubt. Im Zuge des Prozesses und der Datenaufbereitung werden Reports generiert, Applikationen mit Daten erweitert oder auch Daten persistent auf relationalen Datenbanken bzw. auch auf NoSQL-Datenbanken gespeichert. Wir fokusieren uns auf die zwei Bereiche der Datenanalyse und der Verarbeitung und wie wir diese mittels Machine Learning erweitern können.