1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập dữ liệu vào Python: Giới thiệu

Connected

Bài tập

Dùng pandas để nhập flat file thành DataFrame (2)

Trong bài trước, bạn đã nhập được flat file vào một DataFrame của pandas. Thêm nữa, bạn có thể dễ dàng lấy mảng numpy tương ứng bằng phương thức .to_numpy(). Giờ bạn sẽ thực hành điều này với bộ dữ liệu MNIST, có sẵn dưới tên digits.csv.

Có một số đối số của pd.read_csv() sẽ hữu ích cho bài này:

  • nrows cho phép bạn chỉ định đọc bao nhiêu hàng từ tệp. Ví dụ, nrows=10 sẽ chỉ nhập 10 hàng đầu tiên.
  • header nhận số thứ tự hàng để dùng làm nhãn cột và đánh dấu điểm bắt đầu của dữ liệu. Nếu tệp không có hàng header, bạn có thể đặt header=None, và pandas sẽ tự động gán nhãn cột là các số nguyên bắt đầu từ 0 (ví dụ: 0, 1, 2, …).

Hướng dẫn

100 XP
  • Nhập 5 hàng đầu tiên của tệp vào một DataFrame bằng hàm pd.read_csv() và gán kết quả cho data. Bạn sẽ cần dùng các đối số nrows và header. Lưu ý tệp này không có hàng header.
  • Tạo một mảng numpy từ DataFrame thu được trong data và gán cho data_array.
  • Chạy print(type(data_array)) để in kiểu dữ liệu của data_array.