1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Feature Engineering cho Machine Learning bằng Python

Connected

Bài tập

Biến đổi dữ liệu chưa từng thấy

Khi tạo vector từ văn bản, mọi biến đổi mà bạn thực hiện trước khi huấn luyện mô hình Machine Learning cũng cần được áp dụng cho dữ liệu mới (dữ liệu kiểm tra) chưa từng thấy. Để làm được điều này, hãy làm theo cách ở chương trước: chỉ fit vectorizer trên dữ liệu huấn luyện, rồi áp dụng nó lên dữ liệu kiểm tra.

Trong bài này, DataFrame speech_df đã được chia làm hai phần:

  • train_speech_df: Tập huấn luyện gồm 45 bài phát biểu đầu tiên.
  • test_speech_df: Tập kiểm tra gồm các bài phát biểu còn lại.

Hướng dẫn

100 XP
  • Khởi tạo TfidfVectorizer.
  • Fit vectorizer và áp dụng lên cột text_clean.
  • Áp dụng cùng vectorizer đó lên cột text_clean của dữ liệu kiểm tra.
  • Tạo một DataFrame từ các đặc trưng mới này của tập kiểm tra.