Was ist logistische Regression?
Das Modell, das du in diesem Kapitel trainieren wirst, heißt logistische Regression. Dieses Modell ist einer linearen Regression sehr ähnlich, aber anstatt eine numerische Variable vorherzusagen, sagt es die Wahrscheinlichkeit (zwischen 0 und 1) eines Ereignisses voraus.
Um es als Klassifikationsalgorithmus zu verwenden, muss diesen Wahrscheinlichkeiten lediglich ein Grenzwert zugeordnet werden. Wenn die vorhergesagte Wahrscheinlichkeit über dem Grenzwert liegt, wird die Beobachtung als „ja“ klassifiziert (in diesem Fall die Verspätung des Fluges), wenn sie darunter liegt, wird sie als „nein“ klassifiziert!
Du optimierst dieses Modell, indem du verschiedene Werte für verschiedene Hyperparameter testest. Ein Hyperparameter ist nur ein Wert im Modell, der nicht aus den Daten geschätzt wird, sondern vom Nutzer vorgegeben wird, um die Leistung zu maximieren. Für diesen Kurs ist es nicht notwendig, die Mathematik hinter all diesen Werten zu verstehen – wichtig ist nur, dass du ein paar verschiedene Möglichkeiten ausprobierst und die beste wählst.
Warum gibt man Hyperparameter an?
Diese Übung ist Teil des Kurses
Einführung in PySpark
Interaktive Übung zum Anfassen
Setzen Sie die Theorie mit einer unserer interaktiven Übungen in die Tat um
