1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Giới thiệu về Functions trong Python

Connected

Bài tập

Tổng hợp kiến thức (1)

Ở các bài trước, bạn đã làm quen với việc tự viết hàm. Bạn đã học cách thêm tham số vào định nghĩa hàm, trả về một hoặc nhiều giá trị bằng tuple, và cách gọi các hàm bạn đã định nghĩa.

Trong bài này và bài tiếp theo, bạn sẽ tổng hợp các khái niệm đó và áp dụng vào một bài toán khoa học dữ liệu đơn giản. Bạn sẽ nạp một tập dữ liệu và phát triển các chức năng để rút ra một vài insight cơ bản từ dữ liệu.

Mục tiêu của bài này là ôn lại cách nạp một tập dữ liệu vào DataFrame. Tập dữ liệu chứa dữ liệu Twitter và bạn sẽ lặp qua các mục trong một cột để xây dựng một từ điển, trong đó khóa là tên ngôn ngữ và giá trị là số lượng tweet bằng ngôn ngữ đó. File tweets.csv có sẵn trong thư mục hiện tại của bạn.

Lưu ý đây là dữ liệu thật từ Twitter nên luôn có khả năng chứa ngôn từ thô tục hoặc nội dung gây phản cảm (trong bài này và các bài tiếp theo cũng sử dụng dữ liệu Twitter thật).

Hướng dẫn

100 XP
  • Import gói pandas với bí danh pd.
  • Import file 'tweets.csv' bằng hàm read_csv() của pandas. Gán DataFrame thu được vào df.
  • Hoàn thiện vòng lặp for bằng cách lặp qua col, cột 'lang' trong DataFrame df.
  • Hoàn thiện phần thân các câu lệnh if-else trong vòng lặp: if khóa đã có trong từ điển langs_count thì cộng thêm 1 vào giá trị tương ứng trong từ điển, else thêm khóa đó vào langs_count và đặt giá trị tương ứng là 1. Sử dụng biến vòng lặp entry trong mã của bạn.