1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Hộp Công Cụ Python

Connected

Bài tập

Viết một iterator để tải dữ liệu theo từng phần (2)

Trong bài trước, bạn đã dùng read_csv() để đọc các phần (chunk) DataFrame từ một tập dữ liệu lớn. Ở bài này, bạn sẽ đọc một tệp với kích thước phần DataFrame lớn hơn và sau đó xử lý dữ liệu từ phần đầu tiên.

Để xử lý dữ liệu, bạn sẽ tạo một DataFrame khác chỉ gồm các hàng của một quốc gia cụ thể. Sau đó, bạn sẽ zip hai cột của DataFrame mới, 'Total Population' và 'Urban population (% of total)'. Cuối cùng, bạn sẽ tạo một danh sách các tuple từ đối tượng zip, trong đó mỗi tuple gồm một giá trị từ mỗi trong hai cột nêu trên.

Bạn sẽ sử dụng dữ liệu từ 'ind_pop_data.csv', có sẵn trong thư mục hiện tại. pandas đã được import là pd.

Hướng dẫn

100 XP
  • Dùng pd.read_csv() để đọc tệp 'ind_pop_data.csv' theo từng phần có kích thước 1000. Gán kết quả cho urb_pop_reader.
  • Lấy phần DataFrame đầu tiên từ iterable urb_pop_reader và gán cho df_urb_pop.
  • Chỉ chọn các hàng của df_urb_pop có 'CountryCode' là 'CEB'. Để làm điều này, so sánh xem df_urb_pop['CountryCode'] có bằng 'CEB' trong dấu ngoặc vuông của df_urb_pop[____] hay không.
  • Dùng zip() để ghép hai cột 'Total Population' và 'Urban population (% of total)' của df_pop_ceb. Gán đối tượng zip thu được cho pops.