1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Feature Engineering cho Machine Learning bằng Python

Connected

Bài tập

Đặc trưng văn bản cấp cao

Khi văn bản đã được làm sạch và chuẩn hóa, bạn có thể bắt đầu tạo đặc trưng từ dữ liệu. Thông tin cơ bản nhất bạn có thể tính từ văn bản tự do là kích thước của nó, như độ dài và số lượng từ. Trong bài tập này (và phần còn lại của chương), bạn sẽ tập trung vào cột văn bản đã làm sạch/biến đổi (text_clean) mà bạn đã tạo ở bài trước.

Hướng dẫn

100 XP
  • Ghi độ dài ký tự của mỗi bài diễn văn vào cột char_count.
  • Ghi số lượng từ của mỗi bài diễn văn vào cột word_count.
  • Ghi độ dài từ trung bình của mỗi bài diễn văn vào cột avg_word_length.