1. Learn
  2. /
  3. คอร์ส
  4. /
  5. Uczenie maszynowe w tidyverse

Connected

แบบฝึกหัด

Podział na zbiór treningowy i testowy

W rzetelnym procesie uczenia maszynowego kluczowe jest wyłączenie części danych (danych testowych) z wszelkich decyzji podejmowanych podczas budowania modelu. Dzięki temu możesz niezależnie ocenić jego wydajność po zakończeniu pracy. Pozostała część danych – dane treningowe – służy do budowania i wyboru najlepszego modelu.

W tym ćwiczeniu użyjesz pakietu rsample, aby podzielić dane gapminder na zbiór treningowy i testowy.

Uwaga: Ponieważ podział jest losowy, dobrą praktyką jest ustawienie ziarna losowości przed jego wykonaniem.

คำแนะนำ

100 XP
  • Podziel dane na 75% treningowych i 25% testowych za pomocą funkcji initial_split() i przypisz wynik do gap_split.
  • Wyodrębnij ramkę danych treningowych z gap_split za pomocą funkcji training().
  • Wyodrębnij ramkę danych testowych z gap_split za pomocą funkcji testing().
  • Sprawdź wymiary nowych ramek danych za pomocą funkcji dim() na obiektach training_data i testing_data, aby upewnić się, że są zgodne z oczekiwaniami.