Diese Übung ist Teil des Kurses
Spark ist ein Framework für die Arbeit mit Big Data. In diesem Kapitel erfährst du einiges über Spark und Machine Learning. Anschließend erfährst du, wie du dich mit Python mit Spark verbinden und CSV-Daten laden kannst.
Nachdem du dich nun mit dem Einlesen von Daten in Spark vertraut gemacht hast, wirst du zwei Arten von Klassifizierungsmodellen erstellen: Entscheidungsbäume und logistische Regression. Außerdem erfährst du etwas über einige Ansätze zur Datenaufbereitung.
Als Nächstes lernst du, wie du lineare Regressionsmodelle erstellst. Außerdem erfährst du, wie du deine Daten durch die Entwicklung neuer Prädiktoren erweitern kannst und wie du die relevantesten Prädiktoren auswählen kannst.
Aktuelle Übung
Schließlich lernst du, wie du deine Modelle effizienter machen kannst. Du erfährst, wie du Pipelines nutzen kannst, um deinen Code übersichtlicher und leichter wartbar zu machen. Dann nutzt du die Kreuzvalidierung, um deine Modelle besser zu testen und gute Modellparameter auszuwählen. Schließlich beschäftigst du dich mit zwei Arten von Ensemble-Modellen.