1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai thác đặc trưng cho NLP bằng Python

Connected

Bài tập

Đếm ký tự trong các tweet tiếng Nga

Trong bài tập này, bạn được cung cấp một dataframe tweets chứa một số tweet liên quan đến Cơ quan Nghiên cứu Internet của Nga, do FiveThirtyEight tổng hợp.

Nhiệm vụ của bạn là tạo một đặc trưng mới 'char_count' trong tweets để tính số ký tự của mỗi tweet. Đồng thời, hãy tính độ dài trung bình của mỗi tweet. Các tweet nằm trong cột content của tweets.

Lưu ý rằng đây là dữ liệu thực từ Twitter, vì vậy luôn có rủi ro chứa lời lẽ thô tục hoặc nội dung phản cảm (trong bài tập này và các bài tập tiếp theo cũng sử dụng dữ liệu Twitter thực).

Hướng dẫn

100 XP
  • Tạo đặc trưng mới char_count bằng cách áp dụng len lên cột 'content' của tweets.
  • In số ký tự trung bình của các tweet bằng cách tính mean của cột 'char_count'.