MulaiMulai sekarang secara gratis

Bagi himpunan data

Setelah semua manipulasi selesai, langkah terakhir sebelum membuat model adalah membagi data!

Latihan ini adalah bagian dari kursus

Dasar-Dasar PySpark

Lihat Kursus

Petunjuk latihan

  • Gunakan metode DataFrame .randomSplit() untuk membagi piped_data menjadi dua bagian: training dengan 60% data, dan test dengan 40% data dengan meneruskan daftar [.6, .4] ke metode .randomSplit().

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Split the data into training and test sets
training, test = piped_data.randomSplit(____)
Edit dan Jalankan Kode