1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập dữ liệu vào Python: Giới thiệu

Connected

Bài tập

Tùy chỉnh cách nhập dữ liệu với pandas

Gói pandas xử lý rất tốt nhiều vấn đề bạn sẽ gặp khi nhập dữ liệu với vai trò nhà khoa học dữ liệu, như các dòng chú thích trong flat file, dòng trống và giá trị thiếu (NA hoặc NaN). Để kết thúc chương này, bạn sẽ nhập một bản sao bị lỗi của bộ dữ liệu Titanic titanic_corrupt.txt, trong đó có các chú thích sau ký tự '#' và được phân tách bằng tab (tab-delimited).

Các đối số chính cho pd.read_csv() gồm có:

  • sep đặt ký tự phân tách mong đợi.
    • Bạn có thể dùng ',' cho định dạng phân tách bằng dấu phẩy.
    • Bạn có thể dùng '\t' cho định dạng phân tách bằng tab.
  • comment nhận các ký tự mà sau đó là phần chú thích trong tệp, nghĩa là bất kỳ văn bản bắt đầu bằng các ký tự này sẽ bị bỏ qua.
  • na_values nhận một danh sách các chuỗi sẽ được nhận diện là NA/NaN. Mặc định đã có một số giá trị được nhận diện là NA/NaN. Cung cấp đối số này sẽ bổ sung thêm các giá trị cần coi là thiếu.

Hướng dẫn

100 XP
  • Hoàn thiện các đối số của pd.read_csv() để nhập titanic_corrupt.txt đúng cách bằng pandas:
    • sep đặt ký tự phân tách sẽ dùng và hoạt động giống đối số delimiter của np.loadtxt(). Lưu ý tệp bạn đang nhập được phân tách bằng tab.
    • comment nhận các ký tự mà sau đó là chú thích trong tệp; trong trường hợp này là '#'.
    • na_values nhận một danh sách các chuỗi sẽ được coi là NA/NaN; ở đây là chuỗi 'Nothing'.
  • Chạy phần mã còn lại để in phần đầu của DataFrame kết quả và vẽ biểu đồ histogram của 'Age' của các hành khách trên tàu Titanic.