1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Spark SQL bằng Python

Connected

Bài tập

Chia dữ liệu

Một dataframe df_examples có sẵn với các cột endword: string, features: vector, outvec: vector, và label: int. Bạn sẽ tách nó để lấy tập huấn luyện và tập kiểm tra, dùng để huấn luyện và kiểm tra một bộ phân loại.

Hướng dẫn

100 XP
  • Chia các ví dụ thành train và test theo tỷ lệ 80/20.
  • In số lượng ví dụ huấn luyện.
  • In số lượng ví dụ kiểm tra.