Aus dem Kurs: Datamining mit Databricks/Spark und Automated Machine Learning in der Cloud
Azure Databricks Service erstellen
Aus dem Kurs: Datamining mit Databricks/Spark und Automated Machine Learning in der Cloud
Azure Databricks Service erstellen
Da wir im Vorfeld gehört haben, wann ich Spark in der Cloud nutzen kann, schauen wir uns nun eine konkrete Möglichkeit an – und zwar Azure Databricks. Azure Databricks ist eine Cloud-basierte Distribution. D. h., wir haben alle Möglichkeiten, die wir auch bei einer eigenen Installation haben, nur mit dem Unterschied, dass wir nur ein paar Minuten für das Setup brauchen. Zudem gibt es aber auch noch zusätzliche Eigenschaften wie das automatische Skalieren der Cluster, die es mir erlauben, bei wenig Arbeitsaufwand kleinere Mengen an Worker für die Verarbeitung zu nutzen bzw. meine Worker zu erhöhen, sobald der Spark Cluster Manager merkt, dass wir mehr Ressourcen brauchen. Und schlussendlich bietet uns Azure Databricks auch noch eine kollaborative Umgebung, die es uns erlaubt, effizient im Team zusammenzuarbeiten. Wir können beispielsweise gemeinsam an unseren Datenpipelinen arbeiten, Code sharen und haben Eigenschaften in Databricks, die es uns erlauben, die Daten so aufzubereiten, dass ein Data Scientist z. B., ein Business Analyst oder auch ein Datenbankadministrator miteinander auf einer Plattform arbeiten können. Schauen wir uns Azure Databricks nun genauer an. Und dazu werden wir auf unseren Browser wechseln. Um einen sogenannten Databricks Workspace, also einen Arbeitsbereich, zu erstellen, müssen wir zunächst auf das Azure Portal gehen. Das ist unser erster Schritt. Um auf das Azure Portal zu gelangen, verwenden wir den Link www.portal.azure.com. Im ersten Schritt werden wir uns hier authentifizieren. Um sich zu authentifizieren, benötigt man einen Azure-Account, also ein Azure-Konto. Fall Sie kein Azure-Konto besitzen, dann können Sie sich über den Link »Create one« für eine Testversion anmelden. Ich habe mich nun angemeldet und befinde mich im Azure Portal. Der erste Schritt, um eine Azure Databricks Instanz zu erstellen, ist entweder im Suchfeld nach Azure Databricks zu suchen oder auf dieses Pluszeichen zu klicken. Hier geben wir dann »Azure Databricks« ein, das uns zur folgenden Seite bringt. Wie Sie sehen können, befindet sich in meiner Darstellung als dritter Service Azure Databricks, das wir auswählen können, und mittels dem Punkt »Erstellen« unsere erste Konfiguration starten. Für unseren Anwendungsfall sind hier die Default-Werte völlig ausreichend. Die Ressourcengruppe ist ein verpflichtendes Feld. Mit Ressourcengruppe ist eine Art Dateiordnerstruktur gemeint, wodurch wir zusammenhängende Services gruppieren können. Hier können wir entweder eine bereits vorhandene Ressourcengruppe auswählen oder eine neue mittels »Neues Element erstellen« definieren. In unserem Fall wählen wir eine bereits vorhandene Ressourcengruppe aus. Zudem brauchen wir einen Arbeitsbereichsnamen, der beliebig gewählt werden kann. In unserem Fall nennen wir es einfach »lilearning- databricks« und schlussendlich auch noch eine Region und einen Tarif. Als Region wählen wir in unserem Fall eine nähere und zwar »West Europe«, für unseren Anwendungsfall brauchen wir den Tarif Premium, weil wir auf unsere Daten im Azure Data Lake zugreifen. Falls das bei Ihnen aber nicht der Fall ist, dann reicht der Standardtarif aus. Die restlichen Einstellungen können als Default übernommen werden. Wir klicken auf »Überprüfen und Erstellen«, warten kurz auf die Validierung, bis diese erfolgreich abgeschlossen ist, und klicken auf »Erstellen«. Hier kann die Erstellung des Databrick Services einige Minuten in Anspruch nehmen, weil neben den virtuellen Maschinen und auch dem Databrick Service auch noch weitere Services wie beispielseise ein Storage Account für die Metadaten erstellt wird. Sobald die Ressource erstellt wurde, bekommen Sie eine Benachrichtigung. Klicken Sie auf »Zu Ressource wechseln«, was uns in den Überblicksbereich vom Azure Databrick Service bringt. Wir können sehen, dass wir, wenn wir runterscrollen, den Bereich »Arbeitsbereich starten« haben. Wenn wir darauf klicken, kommen wir in den Azure Databricks-Bereich. Hier müssen wir uns nur noch mittels Single Sign On authentifizieren, was uns in das Azure Databricks Portal bringt. Sobald die Seite geladen ist, befinden wir uns auf der Startseite von Azure Databricks.
Inhalt
-
-
-
-
(Gesperrt)
Die Spark-Architektur kennenlernen6 Min. 15 Sek.
-
Azure Databricks Service erstellen4 Min. 39 Sek.
-
(Gesperrt)
Einführung in Databricks2 Min. 55 Sek.
-
(Gesperrt)
Wie kann AutoML beim Modell-Training helfen?3 Min. 39 Sek.
-
(Gesperrt)
Azure Machine Learning Service erstellen1 Min. 15 Sek.
-
(Gesperrt)
Einführung in Azure Machine Learning2 Min. 28 Sek.
-
(Gesperrt)
Was Sie in diesem Kapitel gelernt haben39 Sek.
-
(Gesperrt)
-
-