1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy PySpark

Connected

ćwiczenie

Podział danych

Wszystkie przekształcenia masz już za sobą – ostatnim krokiem przed modelowaniem jest podział danych!

Instrukcje

100 XP
  • Użyj metody DataFrame .randomSplit(), aby podzielić piped_data na dwie części: training zawierającą 60% danych oraz test zawierającą 40% danych. W tym celu przekaż listę [.6, .4] do metody .randomSplit().