1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai thác đặc trưng cho NLP bằng Python

Connected

Bài tập

Đếm số từ trong các bài TED Talk

ted là một dataframe chứa bản chép lời của 500 TED Talk. Nhiệm vụ của bạn là tính một đặc trưng mới word_count thể hiện số từ xấp xỉ của mỗi bài nói. Sau đó, bạn cũng cần tính số từ trung bình của các bài nói. Bản chép lời có trong đặc trưng transcript của ted.

Để hoàn thành, bạn sẽ định nghĩa hàm count_words nhận một chuỗi làm tham số và trả về số từ trong chuỗi đó. Tiếp theo, áp dụng hàm này lên đặc trưng transcript của ted để tạo đặc trưng mới word_count và tính giá trị trung bình của nó.

Hướng dẫn

100 XP
  • Tách string thành danh sách các từ bằng phương thức split().
  • Trả về số phần tử trong words bằng len().
  • Áp dụng hàm của bạn lên cột transcript của ted để tạo đặc trưng mới word_count.
  • Tính số từ trung bình của các bài nói bằng mean().