or
Diese Übung ist Teil des Kurses
Spark ist ein Framework für die Arbeit mit Big Data. In diesem Kapitel lernst du ein paar Grundlagen zu Spark und maschinellem Lernen kennen. Anschließend erfährst du, wie du mit Python eine Verbindung zu Spark herstellst und CSV-Daten lädst.
Jetzt, wo du weißt, wie man Daten in Spark reinbekommt, kannst du mit dem Bau von zwei Arten von Klassifizierungsmodellen weitermachen: Entscheidungsbäume und logistische Regression. Außerdem erfährst du ein paar Ansätze zur Datenaufbereitung.
Als Nächstes lernst du, wie du lineare Regressionsmodelle erstellst. Außerdem erfährst du, wie du deine Daten durch die Entwicklung neuer Prädiktoren erweitern kannst und wie du nur die relevantesten Prädiktoren auswählst.
Aktuelle Übung
Zum Schluss lernst du, wie du deine Modelle effizienter machen kannst. Du wirst sehen, wie du Pipelines nutzen kannst, um deinen Code übersichtlicher und einfacher zu warten zu machen. Dann kannst du mit Kreuzvalidierung deine Modelle besser testen und gute Modellparameter auswählen. Zum Schluss probierst du noch zwei Arten von Ensemble-Modellen aus.