1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nạp dữ liệu gọn nhẹ với pandas

Connected

Bài tập

Nhập một tập con các cột

Bộ dữ liệu thuế Vermont có 147 cột mô tả thành phần hộ gia đình, nguồn thu nhập và thuế đã nộp theo mã ZIP và nhóm thu nhập. Phần lớn phân tích không cần tất cả các cột này. Trong bài tập này, bạn sẽ tạo một dataframe với ít biến hơn bằng cách dùng đối số usecols của read_csv().

Hãy tập trung vào thành phần hộ gia đình để xem có khác biệt theo địa lý và mức thu nhập hay không. Để làm điều này, chúng ta cần các cột về nhóm thu nhập, mã ZIP, trạng thái nộp tờ khai thuế (ví dụ: độc thân hoặc đã kết hôn), và số người phụ thuộc. Dữ liệu dùng mã làm tên biến, vì vậy các cột cụ thể cần dùng được liệt kê trong phần hướng dẫn.

pandas đã được import với bí danh pd.

Hướng dẫn

100 XP
  • Tạo một danh sách các cột sẽ dùng: zipcode, agi_stub (nhóm thu nhập), mars1 (số hộ độc thân), MARS2 (số hộ nộp theo diện đã kết hôn), và NUMDEP (số người phụ thuộc).
  • Tạo một dataframe từ vt_tax_data_2016.csv chỉ sử dụng các cột đã chọn.