Trainings- und Testdatensätze erstellen

Einen Datensatz in Trainings- und Testmenge zu teilen, ist ein wichtiger Schritt beim Erstellen und Testen eines Klassifikationsmodells. Die Trainingsmenge wird verwendet, um das Modell zu erstellen, und die Testmenge, um seine Vorhersagegenauigkeit zu bewerten.

In dieser Übung teilst du den Datensatz, den du im vorherigen Kapitel erstellt hast, in Trainings- und Testmenge auf. Der Datensatz wurde bereits im Data Frame df geladen, und ein Seed wurde gesetzt, um die Reproduzierbarkeit sicherzustellen. Erinnere dich: Im vorherigen Video haben wir die Obergrenze für die Länge der Trainingsmenge mit praktischen Funktionen festgelegt – jetzt bist du dran, sie umzusetzen!

Diese Übung ist Teil des Kurses

Support Vector Machines in R

Anleitung zur Übung

Bestimme die Obergrenze für die Anzahl der Zeilen in der Trainingsmenge und speichere sie in sample_size.
Erstelle den Vektor train, der die zufällig zugewiesene Trainingsmenge gemäß dem 80/20-Verhältnis speichert.
Weise die Zeilen im Vektor train dem Data Frame trainset zu und den Rest dem Data Frame testset.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Set the upper bound for the length of the training set
sample_size <- ___(___ * nrow(df))

# Assign rows to training set randomly
train <- ___(seq_len(nrow(df)), size = ___)

# Yield training and test sets
trainset <- df[___, ]
testset <- df[-___, ]

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Support Vector Machines in R

Mittlere SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

In diesem Kapitel lernst du zentrale Konzepte von Support Vector Machines anhand eines einfachen eindimensionalen Beispiels kennen. Außerdem erstellst du einen linear separierbaren Datensatz, der im nächsten Kapitel verwendet wird.

Exercise 1: Zuckergehalt von Erfrischungsgetränken Exercise 2: Visualisierung eines Datensatzes zum Zuckergehalt Exercise 3: Entscheidungsgrenzen erkennen Exercise 4: Finde den Maximalmargen-Separator Exercise 5: Den Separator mit maximalem Rand visualisieren Exercise 6: Einen linear trennbaren Datensatz erzeugen Exercise 7: Erzeuge einen zweidimensional gleichverteilten Datensatz.Exercise 8: Erzeuge eine Entscheidungsgrenze Exercise 9: Füge dem Datensatz einen Margin hinzu

Dieses Kapitel führt dich in die Grundkonzepte von Support Vector Machines ein, indem der svm-Algorithmus auf einen linear separierbaren Datensatz angewandt wird. Zentrale Ideen werden mit ggplot-Visualisierungen veranschaulicht, die auf den Ausgaben des Algorithmus basieren, und die Rolle des Kostenparameters wird an einem einfachen Beispiel hervorgehoben. Das Kapitel schließt mit einem Abschnitt darüber, wie der Algorithmus mit Multiclass-Problemen umgeht.

Exercise 1: Lineare Support-Vector-Machines Exercise 2: Trainings- und Testdatensätze erstellen

Aktuelle Übung

Exercise 3: Einen linearen SVM-Klassifikator erstellen Exercise 4: Das Modell erkunden und Genauigkeit berechnen Exercise 5: Lineare SVMs visualisieren Exercise 6: Support-Vektoren mit ggplot visualisieren Exercise 7: Entscheidungs- und Randgrenzen mit `ggplot2` visualisieren Exercise 8: Entscheidungs- und Margin-Grenzen mit `plot()` visualisieren Exercise 9: Lineare SVMs tunen Exercise 10: Tuning eines linearen SVM Exercise 11: Entscheidungsgrenzen und Margen visualisieren Exercise 12: Wann sind Soft-Margin-Klassifikatoren nützlich?Exercise 13: Multiklassenprobleme Exercise 14: Ein Multiclass-Klassifikationsproblem Exercise 15: Iris reloaded – eine robustere Genauigkeit.

Dieses Kapitel führt polynomielle Kernel anhand eines radial separierbaren Datensatzes ein (d. h. mit einer kreisförmigen Entscheidungsgrenze). Nachdem gezeigt wurde, dass lineare Kernel für diesen Datensatz unzureichend sind, siehst du, wie eine einfache Transformation das Problem linear separierbar macht und so eine intuitive Diskussion des Kernel-Tricks motiviert. Anschließend wendest du den polynomialen Kernel auf den Datensatz an und stimmst den resultierenden Klassifikator ab.

Exercise 1: Erzeugen eines radial separierbaren Datensatzes Exercise 2: Erzeugen eines 2D radial separierbaren Datensatzes Exercise 3: Den Datensatz visualisieren Exercise 4: Lineare SVMs auf radial separierbaren Daten Exercise 5: Lineare SVM für einen radial separierbaren Datensatz Exercise 6: Durchschnittliche Genauigkeit für lineare SVM Exercise 7: Der Kernel-Trick Exercise 8: Transformierte radial separierbare Daten visualisieren Exercise 9: SVM mit Polynomial-Kernel Exercise 10: SVMs tunen Exercise 11: Verwendung von `tune.svm()`Exercise 12: Getuntes Modell erstellen und visualisieren

Aufbauend auf den ersten drei Kapiteln lernst du den sehr flexiblen Radial-Basisfunktions-(RBF)-Kernel kennen. Du erstellst einen „komplexen“ Datensatz, der die Grenzen polynomialer Kernel aufzeigt. Danach siehst du – ausgehend von einer intuitiven Motivation für den RBF-Kernel –, wie er die Schwächen der anderen in diesem Kurs behandelten Kernel adressiert.

Exercise 1: Einen komplexen Datensatz erzeugen Exercise 2: Einen komplexen Datensatz erzeugen – Teil 1 Exercise 3: Ein komplexer Datensatz erzeugen – Teil 2 Exercise 4: Den Datensatz visualisieren Exercise 5: Motivation für den RBF-Kernel Exercise 6: Lineare SVM für komplexen Datensatz Exercise 7: Quadratische SVM für komplexen Datensatz Exercise 8: Der RBF-Kernel Exercise 9: Polynomiale SVM auf einem komplexen Datensatz Exercise 10: RBF-SVM auf einem komplexen Datensatz Exercise 11: Tuning eines RBF-Kernel-SVM