Accuracy nach Dimensionsreduktion

Du reduzierst das Overfitting mithilfe von Dimensionsreduktion. In diesem Fall verwendest du eine ziemlich drastische Variante, indem du nur eine einzelne Spalte auswählst, die gute Informationen zur Unterscheidung zwischen Geschlechtern liefert. Du wiederholst den Train-Test-Split, das Fitten des Modells und die Vorhersage, um die Accuracy auf Test- gegenüber Trainingsdaten zu vergleichen.

Alle relevanten Pakete und y wurden bereits geladen.

Diese Übung ist Teil des Kurses

<Kurs>Dimensionsreduktion in Python</Kurs>

Übungsanweisungen

Wähle nur die Spalte für den Halsumfang ('neckcircumferencebase') aus ansur_df aus.
Teile die Daten, instanziiere einen Klassifikator und fitte die Daten. Das wurde bereits für dich erledigt.
Berechne erneut die Accuracy-Scores für Trainings- und Test-Set.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Assign just the 'neckcircumferencebase' column from ansur_df to X
X = ansur_df[[____]]

# Split the data, instantiate a classifier and fit the data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
svc = SVC()
svc.fit(X_train, y_train)

# Calculate accuracy scores on both train and test data
accuracy_train = accuracy_score(____, svc.predict(____))
accuracy_test = accuracy_score(____, svc.predict(____))

print(f"{accuracy_test:.1%} accuracy on test set vs. {accuracy_train:.1%} on training set")

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Dimensionsreduktion in Python</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Du lernst das Konzept der Dimensionsreduktion kennen und erfährst, wann und warum sie wichtig ist. Du lernst den Unterschied zwischen Feature-Auswahl und Feature-Extraktion und wendest beide Techniken zur Datenexploration an. Das Kapitel endet mit einer Lektion zu t-SNE, einer leistungsstarken Feature-Extraktionstechnik, mit der du einen hochdimensionalen Datensatz visualisieren kannst.

Exercise 1: Einführung Exercise 2: Die Anzahl der Dimensionen in einem Datensatz bestimmen Exercise 3: Features ohne Varianz entfernen Exercise 4: Feature Selection vs. Feature Extraction Exercise 5: Redundante Merkmale visuell erkennen Exercise 6: Vorteil der Feature Selection Exercise 7: t-SNE-Visualisierung hochdimensionaler Daten Exercise 8: t-SNE-Intuition Exercise 9: t-SNE auf die ANSUR-Daten anwenden Exercise 10: t-SNE-Visualisierung der Dimensionalität

In diesem ersten von zwei Kapiteln zur Feature-Auswahl lernst du den Fluch der Dimensionalität kennen und wie dir Dimensionsreduktion hilft, ihn zu überwinden. Du wirst verschiedene Techniken kennenlernen, um Features zu erkennen und zu entfernen, die dem Datensatz wenig Mehrwert bringen – sei es wegen geringer Varianz, zu vieler fehlender Werte oder starker Korrelationen mit anderen Features.

Exercise 1: Der Fluch der Dimensionalität Exercise 2: Train-Test-Split Exercise 3: Modell trainieren und testen Exercise 4: Accuracy nach Dimensionsreduktion

Aktuelle Übung

Exercise 5: Features mit fehlenden Werten oder geringer Varianz Exercise 6: Eine gute Varianzschwelle finden Exercise 7: Merkmale mit geringer Varianz Exercise 8: Features mit vielen fehlenden Werten entfernen Exercise 9: Paarweise Korrelation Exercise 10: Intuition zur Korrelation Exercise 11: Die Korrelationsmatrix untersuchen Exercise 12: Die Korrelationsmatrix visualisieren Exercise 13: Stark korrelierte Features entfernen Exercise 14: Hoch korrelierte Features herausfiltern Exercise 15: Kernenergie und Pool-Ertrinkungen

In diesem zweiten Kapitel zur Feature-Auswahl lernst du, wie Modelle dir helfen können, die wichtigsten Features in einem Datensatz zur Vorhersage eines bestimmten Ziel-Features zu finden. In der abschließenden Lektion dieses Kapitels kombinierst du die Empfehlungen mehrerer unterschiedlicher Modelle, um zu entscheiden, welche Features es wert sind, beibehalten zu werden.

Exercise 1: Features für die Modellleistung auswählen Exercise 2: Einen Diabetes-Klassifikator bauen Exercise 3: Manuelle rekursive Merkmalselimination Exercise 4: Automatisches rekursives Feature Elimination Exercise 5: Baumbasierte Feature-Auswahl Exercise 6: Ein Random-Forest-Modell erstellen Exercise 7: Random Forest zur Feature-Auswahl Exercise 8: Rekursive Merkmalseliminierung mit Random Forests Exercise 9: Regularisierte lineare Regression Exercise 10: Einen LASSO-Regressor erstellen Exercise 11: Ergebnisse des Lasso-Modells Exercise 12: Anpassung der Regularisierungsstärke Exercise 13: Feature-Selektoren kombinieren Exercise 14: Einen LassoCV-Regressor erstellen Exercise 15: Ensemble-Modelle für zusätzliche Stimmen Exercise 16: Kombinieren von 3 Feature-Selektoren

Dieses Kapitel ist ein Deep Dive in den am häufigsten verwendeten Algorithmus zur Dimensionsreduktion: die Principal Component Analysis (PCA). Du entwickelst ein Verständnis dafür, wie und warum dieser Algorithmus so mächtig ist, und wendest ihn sowohl zur Datenexploration als auch zur Datenvorverarbeitung in einer Modellierungspipeline an. Zum Abschluss gibt es einen coolen Use Case zur Bildkomprimierung.

Exercise 1: Feature-Extraktion Exercise 2: Manuelle Merkmalsextraktion I Exercise 3: Manuelle Merkmalsextraktion II Exercise 4: Intuition zu Hauptkomponenten Exercise 5: Hauptkomponentenanalyse Exercise 6: Hauptkomponenten berechnen Exercise 7: PCA auf einem größeren Datensatz Exercise 8: Durch PCA erklärte Varianz Exercise 9: Anwendungen von PCA Exercise 10: Die Komponenten verstehen Exercise 11: PCA zur Merkmalsexploration Exercise 12: PCA in einer Modell-Pipeline Exercise 13: Auswahl der Hauptkomponenten Exercise 14: Auswahl des zu behaltenden Varianzanteils Exercise 15: Auswahl der Anzahl an Komponenten Exercise 16: PCA zur Bildkomprimierung Exercise 17: Glückwunsch!