1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nạp dữ liệu gọn nhẹ với pandas

Connected

Bài tập

Lấy dữ liệu từ các flat file khác

Mặc dù CSV là dạng flat file phổ biến nhất, đôi khi bạn sẽ gặp các tệp dùng bộ phân tách khác. read_csv() có thể tải tất cả các dạng này với đối số từ khóa sep. Mặc định, pandas giả định bộ phân tách là dấu phẩy, đó là lý do ta không cần chỉ định sep cho CSV.

Phiên bản dữ liệu thuế Vermont ở đây là tệp giá trị phân tách bằng tab (TSV), nên bạn sẽ cần dùng sep để truyền đúng bộ phân tách khi đọc tệp. Hãy nhớ rằng tab được biểu diễn là \t. Sau khi tải tệp, phần mã còn lại sẽ nhóm trường N1, trường này chứa các danh mục khoảng thu nhập, để tạo biểu đồ số tờ khai thuế theo nhóm thu nhập.

Hướng dẫn

100 XP
  • Import pandas với bí danh pd.
  • Tải vt_tax_data_2016.tsv, nhớ đặt đúng ký tự phân tách bằng đối số từ khóa sep.