1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Feature Engineering cho Machine Learning bằng Python

Connected

Bài tập

Làm sạch văn bản của bạn

Dữ liệu văn bản phi cấu trúc không thể dùng trực tiếp trong hầu hết các phân tích. Bạn cần nhiều bước để chuyển từ một chuỗi tự do dài thành một tập các cột số ở đúng định dạng để mô hình machine learning có thể sử dụng. Bước đầu tiên là chuẩn hóa dữ liệu và loại bỏ mọi ký tự có thể gây trục trặc về sau trong pipeline phân tích của bạn.

Trong chương này, bạn sẽ làm việc với một tập dữ liệu mới chứa các bài diễn văn nhậm chức của các tổng thống Hoa Kỳ, đã được nạp dưới tên speech_df, với nội dung bài diễn văn nằm trong cột text.

Hướng dẫn 1/2

undefined XP
    1
    2

In 5 hàng đầu tiên của cột text để xem các trường văn bản tự do.