Mulai sekarangMulai gratis

Bagi himpunan data

Setelah semua manipulasi selesai, langkah terakhir sebelum membuat model adalah membagi data!

Latihan ini merupakan bagian dari kursus

Dasar-Dasar PySpark

Lihat Kursus

Instruksi latihan

  • Gunakan metode DataFrame .randomSplit() untuk membagi piped_data menjadi dua bagian: training dengan 60% data, dan test dengan 40% data dengan meneruskan daftar [.6, .4] ke metode .randomSplit().

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Split the data into training and test sets
training, test = piped_data.randomSplit(____)
Edit dan Jalankan Kode