In der Variablenwichtigkeit stöbern

Der Datensatz attrition enthält 839 Beobachtungen und 30 Prädiktoren für „Attrition“. Du möchtest den Trade-off zwischen der Performance eines Modells mit allen verfügbaren Prädiktoren und eines reduzierten Modells mit wenigen informativen Variablen untersuchen.

In dieser Übung passt du ein Modell an und schaust dir die Variablenwichtigkeit dieses angepassten Modells an. In der nächsten Übung bewertest du die Modellgüte dieses Modells im Vergleich zu einem reduzierten Modell.

Die Splits train und test sowie das Paket vip() stehen dir in deiner Umgebung zur Verfügung, zusammen mit einem vordefinierten logistischen Regressions-model.

Diese Übung ist Teil des Kurses

<Kurs>Feature Engineering in R</Kurs>

Übungsanweisungen

Erstelle ein Rezept, das Attrition mit allen Prädiktoren modelliert.
Fitte den Workflow auf die Trainingsdaten.
Verwende das Objekt fit_full, um die Variablenwichtigkeit deines Modells zu visualisieren.
Wende vor vip() die Funktion extract_fit_parsnip() an, um die benötigten Informationen zu übergeben.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create a recipe that models Attrition using all the predictors
recipe_full <- ___(___, data = train)

workflow_full <- workflow() %>%
  add_model(model) %>%
  add_recipe(recipe_full)

# Fit the workflow to the training data
fit_full <- ___ %>%
  ___(data = train)

# Use the fit_full object to graph the variable importance of your model. Apply extract_fit_parsnip() function before vip()
fit_full %>% ___() %>%
  ___(aesthetics = list(fill = "steelblue"))

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Feature Engineering in R</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Rohdaten liegen nicht immer in der besten Form für Analysen vor. In diesem einführenden Kapitel bekommst du einen ersten Eindruck davon, wie du Features transformierst und erstellst, um die Leistung und Interpretierbarkeit deines Modells zu verbessern.

Exercise 1: Was ist Feature Engineering?Exercise 2: Ein vorläufiges Modell Exercise 3: Ein Feature manuell entwickeln Exercise 4: Neue Features mithilfe von Domänenwissen erstellen Exercise 5: Deine Daten für die Analyse vorbereiten Exercise 6: Einen Workflow erstellen Exercise 7: Den Informationsgehalt von Rohdaten erhöhen Exercise 8: Fehlende Werte identifizieren Exercise 9: Fehlende Werte imputieren und Dummy-Variablen erstellen Exercise 10: Modell fitten und bewerten Exercise 11: Vorhersage von Hotelbuchungen

In diesem Kapitel lernst du, dass du über manuelle Transformationen hinaus Tools aus dem tidyverse nutzen kannst, um programmgesteuert neue Variablen zu erzeugen. Du erkundest, wie dieser Ansatz die Reproduzierbarkeit deiner Modelle verbessert und besonders hilfreich ist, wenn du mit Datensätzen mit vielen Features arbeitest.

Exercise 1: Warum bestehende Features transformieren?Exercise 2: Ein schneller Blick auf deine Daten Exercise 3: Normalisieren und Log-Transformation Exercise 4: Fitten und Augmentieren Exercise 5: Bewertung deines Modells anpassen Exercise 6: Häufige Feature-Transformationen Exercise 7: Häufige Transformationen Exercise 8: Einfache Recipe Exercise 9: Box-Cox-Transformation Exercise 10: Yeo-Johnson-Transformation Exercise 11: Fortgeschrittene Transformationen Exercise 12: Baseline Exercise 13: step_poly()Exercise 14: step_percentile()Exercise 15: Wer bleibt?

Jetzt lernst du, wie Modelle oft davon profitieren, die Dimensionalität zu reduzieren und Features aus hochdimensionalen Daten zu extrahieren – unter anderem durch die Umwandlung von Textdaten in numerische Werte, das Codieren kategorialer Daten und das Bewerten der Vorhersagekraft von Variablen. Du lernst Methoden wie Hauptkomponentenanalyse, Kernel-Hauptkomponentenanalyse, numerische Extraktion aus Text, kategoriale Codierungen und Variable-Importance-Scores kennen.

Exercise 1: Dimensionalität verringern Exercise 2: Bühne vorbereiten Exercise 3: In die Struktur eintauchen Exercise 4: Prozent erklärter Varianz Exercise 5: Erklärte Varianz visualisieren Exercise 6: Feature Hashing Exercise 7: Bildungsbereich untersuchen Exercise 8: Ab in die Matrix Exercise 9: Das Hashing erkunden Exercise 10: Hashing visualisieren Exercise 11: Kategorische Daten mit überwachtem Lernen encodieren Exercise 12: Deinen Workflow einrichten Exercise 13: Fitten, Augmentieren und Bewerten Exercise 14: Modelle zusammenbinden Exercise 15: Variablenwichtigkeit Exercise 16: Erstelle einen Workflow Exercise 17: Fit und Augmentieren Exercise 18: Was ist der wichtigste Prädiktor?

Zum Abschluss des Kurses lernst du Feature-Engineering- und Machine-Learning-Techniken kennen. Zunächst konzentrierst du dich auf die Probleme, die entstehen, wenn alle verfügbaren Features in einem Modell verwendet werden, und auf die Bedeutung, irrelevante und redundante Features zu erkennen und mithilfe eingebetteter Methoden wie Lasso und Elastic Net zu entfernen. Anschließend erkundest du Shrinkage-Methoden wie Lasso, Ridge und Elastic Net, die zur Regularisierung von Feature-Gewichten dienen oder Features auswählen, indem Koeffizienten auf null gesetzt werden. Abschließend erstellst du einen End-to-End-Workflow für Feature Engineering und wiederholst und übst die zuvor gelernten Konzepte und Funktionen in einem kleinen Projekt.

Exercise 1: Die Merkmale des Modells reduzieren Exercise 2: In der Variablenwichtigkeit stöbern

Aktuelle Übung

Exercise 3: Modellleistung mit allen verfügbaren Prädiktoren bewerten Exercise 4: Ein reduziertes Modell erstellen Exercise 5: Shrinkage-Methoden Exercise 6: Manuelle Regularisierung mit Lasso Exercise 7: Die penalty abstimmen Exercise 8: Das Modell finalisieren Exercise 9: Alles zusammenführen Exercise 10: Vorbereiten und splitten Exercise 11: Vorverarbeitung Exercise 12: Modell Exercise 13: Bewerten Exercise 14: Glückwunsch!