Xử lý lượng lớn dữ liệu Twitter

Đôi khi, dữ liệu cần xử lý có kích thước quá lớn so với bộ nhớ của máy tính. Đây là vấn đề mà các nhà khoa học dữ liệu thường gặp. Một cách giải quyết là xử lý toàn bộ nguồn dữ liệu theo từng phần (chunk) thay vì tải và xử lý tất cả cùng lúc.

Trong bài tập này, bạn sẽ làm đúng như vậy. Bạn sẽ xử lý một tệp csv lớn chứa dữ liệu Twitter tương tự cách bạn đã xử lý 'tweets.csv' trong phần Bringing it all together của khóa học trước, nhưng lần này sẽ làm theo từng phần, mỗi lần 10 bản ghi.

Nếu bạn quan tâm đến cách truy cập dữ liệu Twitter để tự làm việc trên hệ thống của mình, hãy tham khảo Phần 2 của khóa học DataCamp về Importing Data in Python.

Gói pandas đã được import với tên pd và tệp 'tweets.csv' đang có sẵn trong thư mục hiện tại để bạn sử dụng.

Lưu ý đây là dữ liệu thực từ Twitter nên luôn có rủi ro chứa lời lẽ tục tĩu hoặc nội dung gây phản cảm (áp dụng cho bài tập này và mọi bài tập tiếp theo cũng dùng dữ liệu Twitter thực).

Khởi tạo một dictionary rỗng counts_dict để lưu kết quả xử lý dữ liệu Twitter.
Duyệt qua tệp 'tweets.csv' bằng vòng lặp for. Dùng biến vòng lặp chunk và lặp qua lời gọi pd.read_csv() với chunksize bằng 10.
Ở vòng lặp trong, duyệt qua cột 'lang' trong chunk bằng vòng lặp for. Dùng biến vòng lặp entry.

Bài tập

Xử lý lượng lớn dữ liệu Twitter

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập