1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Hộp Công Cụ Python

Connected

Bài tập

Viết một iterator để tải dữ liệu theo từng khối (5)

Chặng cuối cùng rồi. Bạn đã học được rất nhiều về cách xử lý một bộ dữ liệu lớn theo từng khối. Trong bài tập này, bạn sẽ gom toàn bộ mã xử lý dữ liệu vào một hàm duy nhất để có thể tái sử dụng mà không phải viết lại mọi thứ.

Bạn sẽ định nghĩa hàm plot_pop() với hai đối số: tên tệp cần xử lý và mã quốc gia của các dòng bạn muốn xử lý trong bộ dữ liệu.

Vì toàn bộ mã bạn đã viết ở các bài trước sẽ được đưa vào plot_pop(), nên việc gọi hàm sẽ tự động thực hiện những việc sau:

  • Tải tệp theo từng khối,
  • Tạo cột mới cho giá trị dân số đô thị, và
  • Vẽ biểu đồ dữ liệu dân số đô thị.

Đó là khá nhiều việc, nhưng giờ hàm giúp bạn dễ dàng lặp lại quy trình cho bất kỳ tệp và mã quốc gia nào bạn muốn xử lý và trực quan hóa!

Bạn sẽ dùng dữ liệu từ 'ind_pop_data.csv', có sẵn trong thư mục hiện tại. Các gói pandas và matplotlib.pyplot đã được nhập sẵn lần lượt là pd và plt để bạn sử dụng.

Sau khi hoàn thành, hãy dành chút thời gian xem các biểu đồ và nghĩ về những kỹ năng mới bạn đã tích lũy. Hành trình chưa dừng lại ở đây! Nếu bạn thích làm việc với dữ liệu này, bạn có thể tiếp tục khám phá phiên bản đã tiền xử lý có sẵn trên Kaggle.

Hướng dẫn

100 XP
  • Định nghĩa hàm plot_pop() với hai đối số: thứ nhất là filename cho tệp cần xử lý và thứ hai là country_code cho quốc gia cần xử lý trong bộ dữ liệu.
  • Gọi plot_pop() để xử lý dữ liệu cho mã quốc gia 'CEB' trong tệp 'ind_pop_data.csv'.
  • Gọi plot_pop() để xử lý dữ liệu cho mã quốc gia 'ARB' trong tệp 'ind_pop_data.csv'.