Hoher Bias oder hohe Varianz?

In dieser Übung findest du heraus, ob der Regressionsbaum dt, den du in der vorherigen Übung trainiert hast, unter einem Bias- oder einem Varianzproblem leidet.

Der RMSE auf dem Trainingssatz (RMSE_train) und der CV-RMSE (RMSE_CV), die dt erreicht hat, stehen in deinem Workspace bereit. Zusätzlich haben wir eine Variable namens baseline_RMSE geladen. Sie entspricht dem Root-Mean-Squared-Error des Regressionsbaums, der nur mit dem Feature disp trainiert wurde (das ist der RMSE des Regressionsbaums aus Kapitel 1, Lektion 3). Hier dient baseline_RMSE als Referenzwert: Liegt der RMSE eines Modells darüber, gilt es als underfittet; liegt er darunter, ist das Modell „gut genug“.

Leidet dt unter hohem Bias oder hoher Varianz?

Diese Übung ist Teil des Kurses

<Kurs>Maschinelles Lernen mit baumbasierten Modellen in Python</Kurs>

Interaktive praktische Übung

Verwandle Theorie mit einer unserer interaktiven Übungen in die Praxis

Diese Übung ist Teil des Kurses

<Kurs>Maschinelles Lernen mit baumbasierten Modellen in Python</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

Klassifikations- und Regressionsbäume (CART) sind eine Klasse überwachter Lernmodelle für Klassifikations- und Regressionsaufgaben. In diesem Kapitel lernst du den CART-Algorithmus kennen.

Exercise 1: Entscheidungsbaum für die Klassifikation Exercise 2: Trainiere deinen ersten Klassifikationsbaum Exercise 3: Den Klassifikationsbaum bewerten Exercise 4: Logistische Regression vs. Klassifikationsbaum Exercise 5: Lernen von Klassifikationsbäumen Exercise 6: Einen Klassifikationsbaum wachsen lassen Exercise 7: Entropie als Kriterium verwenden Exercise 8: Entropie vs. Gini-Index Exercise 9: Entscheidungsbaum für Regression Exercise 10: Trainiere deinen ersten Regressionsbaum Exercise 11: Den Regressionsbaum auswerten Exercise 12: Lineare Regression vs. Regressionsbaum

Der Bias-Variance-Trade-off gehört zu den grundlegenden Konzepten des überwachten maschinellen Lernens. In diesem Kapitel lernst du, Überanpassung (Overfitting) und Unteranpassung (Underfitting) zu diagnostizieren. Außerdem bekommst du eine Einführung in Ensembling, bei dem die Vorhersagen mehrerer Modelle aggregiert werden, um robustere Vorhersagen zu erhalten.

Exercise 1: Generalisierungsfehler Exercise 2: Komplexität, Bias und Varianz Exercise 3: Overfitting und Underfitting Exercise 4: Bias- und Varianzprobleme diagnostizieren Exercise 5: Modell instanziieren Exercise 6: Bewerte den 10-fach-CV-Fehler Exercise 7: Trainingsfehler auswerten Exercise 8: Hoher Bias oder hohe Varianz?

Aktuelle Übung

Exercise 9: Ensemble Learning Exercise 10: Das Ensemble definieren Exercise 11: Einzelne Klassifikatoren bewerten Exercise 12: Bessere Leistung mit einem Voting Classifier

Bagging ist eine Ensemblemethode, bei der derselbe Algorithmus mehrfach auf unterschiedlichen, aus den Trainingsdaten gezogenen Stichproben trainiert wird. In diesem Kapitel verstehst du, wie sich mit Bagging ein Baum-Ensemble aufbauen lässt. Außerdem lernst du, wie der Random-Forests-Algorithmus durch zusätzliche Randomisierung bei jedem Split in den Bäumen des Ensembles zu noch mehr Vielfalt führt.

Exercise 1: Bagging Exercise 2: Definiere den Bagging-Classifier Exercise 3: Bagging-Leistung bewerten Exercise 4: Out-of-Bag-Auswertung Exercise 5: Bereite den Boden vor Exercise 6: OOB-Score vs. Testset-Score Exercise 7: Random Forests (RF)Exercise 8: Einen RF-Regressor trainieren Exercise 9: Den RF-Regressor auswerten Exercise 10: Visualisierung der Feature-Importanzen

Boosting bezeichnet eine Ensemblemethode, bei der mehrere Modelle sequenziell trainiert werden und jedes Modell aus den Fehlern seiner Vorgänger lernt. In diesem Kapitel lernst du die beiden Boosting-Methoden AdaBoost und Gradient Boosting kennen.

Exercise 1: Adaboost Exercise 2: Den AdaBoost-Klassifikator definieren Exercise 3: Den AdaBoost-Klassifikator trainieren Exercise 4: Bewerte den AdaBoost-Klassifikator Exercise 5: Gradient Boosting (GB)Exercise 6: GB-Regressor definieren Exercise 7: Trainiere den GB-Regressor Exercise 8: GB-Regressor auswerten Exercise 9: Stochastic Gradient Boosting (SGB)Exercise 10: Regression mit SGB Exercise 11: Den SGB-Regressor trainieren Exercise 12: Den SGB-Regressor bewerten

Die Hyperparameter eines Machine-Learning-Modells werden nicht aus Daten gelernt. Sie werden festgelegt, bevor das Modell auf den Trainingssatz angepasst wird. In diesem Kapitel lernst du, die Hyperparameter eines baumbasierten Modells mithilfe von Grid-Search-Cross-Validation zu optimieren.

Exercise 1: Hyperparameter eines CART abstimmen Exercise 2: Hyperparameter von Bäumen Exercise 3: Hyperparameter-Grid des Baums festlegen Exercise 4: Suche nach dem optimalen Baum Exercise 5: Den optimalen Baum auswerten Exercise 6: Hyperparameter eines Random Forest abstimmen Exercise 7: Hyperparameter von Random Forests Exercise 8: Lege das Hyperparameter-Grid des RF fest Exercise 9: Suche nach dem optimalen Forest Exercise 10: Den optimalen Forest evaluieren Exercise 11: Glückwunsch!