Den Data Frame zufällig anordnen

Eine Möglichkeit, einen Train/Test-Split eines Datensatzes zu erstellen, ist, den Datensatz zuerst zufällig anzuordnen und ihn dann in die beiden Teilmengen zu teilen. So stellst du sicher, dass Trainings- und Testmenge zufällige Stichproben sind und dass eventuelle Verzerrungen in der ursprünglichen Reihenfolge des Datensatzes (z. B. wenn er ursprünglich nach Preis oder Größe sortiert war) nicht in die Stichproben übernommen werden, die wir zum Trainieren und Testen deiner Modelle verwenden. Du kannst dir das vorstellen wie das Mischen eines neuen Kartendecks, bevor die Karten ausgeteilt werden.

Zuerst setzt du einen Zufalls-Seed, damit deine Arbeit reproduzierbar ist und du bei jedem Ausführen deines Skripts denselben zufälligen Split erhältst:

set.seed(42)

Als Nächstes verwendest du die Funktion sample(), um die Zeilenindizes des Datensatzes diamonds zu mischen. Diese Indizes kannst du später verwenden, um den Datensatz neu anzuordnen.

rows <- sample(nrow(diamonds))

Abschließend kannst du diesen zufälligen Vektor verwenden, um den Datensatz diamonds neu zu ordnen:

diamonds <- diamonds[rows, ]

Diese Übung ist Teil des Kurses

<Kurs>Maschinelles Lernen mit caret in R</Kurs>

Kurs ansehen

Übungsanweisungen

Setze den Zufalls-Seed auf 42.
Erzeuge einen Vektor mit Zeilenindizes namens rows.
Ordne den Data Frame diamonds zufällig neu an und weise das Ergebnis shuffled_diamonds zu.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Set seed


# Shuffle row indices: rows


# Randomly order data

Code bearbeiten und ausführen