1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Hộp Công Cụ Python

Connected

Bài tập

Trích xuất thông tin từ lượng dữ liệu Twitter lớn

Bạn đã làm rất tốt khi chia nhỏ tệp ở bài trước. Giờ bạn đã biết cách xử lý tình huống phải làm việc với một tệp rất lớn — đây là một kỹ năng vô cùng hữu ích!

Biết cách xử lý tệp theo các phần nhỏ, dễ quản lý là rất tốt, nhưng việc phải viết đi viết lại cùng một đoạn mã cho cùng một tác vụ có thể trở nên rất tẻ nhạt. Trong bài tập này, bạn sẽ giúp mã của mình dễ tái sử dụng hơn bằng cách đóng gói công việc ở bài trước vào một định nghĩa hàm.

Gói pandas đã được nhập dưới tên pd và tệp 'tweets.csv' đã có sẵn trong thư mục hiện tại để bạn sử dụng.

Hướng dẫn

100 XP
  • Định nghĩa hàm count_entries() với 3 tham số. Tham số thứ nhất là csv_file cho tên tệp, tham số thứ hai là c_size cho kích thước khối, và tham số cuối cùng là colname cho tên cột.
  • Duyệt qua tệp trong csv_file bằng một vòng lặp for. Dùng biến lặp chunk và lặp qua lời gọi pd.read_csv(), truyền c_size vào chunksize.
  • Ở vòng lặp trong, lặp qua cột được chỉ định bởi colname trong chunk bằng một vòng lặp for. Dùng biến lặp entry.
  • Gọi hàm count_entries() với tên tệp 'tweets.csv', kích thước khối 10, và tên cột cần đếm 'lang'. Gán kết quả trả về cho biến result_counts.