MulaiMulai sekarang secara gratis

Membagi data

Sebuah dataframe df_examples tersedia dengan kolom endword: string, features: vector, outvec: vector, dan label: int. Anda akan membaginya untuk memperoleh himpunan latih dan uji, yang akan Anda gunakan untuk melatih dan menguji sebuah classifier.

Latihan ini adalah bagian dari kursus

Pengantar Spark SQL dalam Python

Lihat Kursus

Petunjuk latihan

  • Bagi contoh menjadi train dan test dengan pembagian 80/20.
  • Cetak jumlah contoh pelatihan.
  • Cetak jumlah contoh pengujian.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Split the examples into train and test, use 80/20 split
df_trainset, df_testset = df_examples.____((____), 42)

# Print the number of training examples
print("Number training: ", ____.____)

# Print the number of test examples
print("Number test: ", ____.____)
Edit dan Jalankan Kode