1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nạp dữ liệu gọn nhẹ với pandas

Connected

Bài tập

Xử lý dữ liệu lồng nhau sâu

Trong bài trước, bạn đã làm phẳng dữ liệu lồng một cấp. Ở đây, bạn sẽ mở rộng dữ liệu lồng nhiều cấp hơn.

Thuộc tính categories trong phản hồi của Yelp API chứa các danh sách đối tượng. Để làm phẳng dữ liệu này, bạn sẽ dùng các đối số của json_normalize() để chỉ định đường dẫn đến categories và chọn các thuộc tính khác để đưa vào dataframe. Bạn cũng nên đổi ký tự phân tách để thuận tiện cho việc chọn cột và thêm tiền tố cho các thuộc tính khác để tránh trùng tên cột. Chúng ta sẽ thực hiện từng bước.

pandas (dưới tên pd) và json_normalize() đã được import. Dữ liệu Yelp dạng JSON về các quán cafe ở NYC được lưu trong data.

Hướng dẫn 1/3

undefined XP
    1
    2
    3
  • Dùng json_normalize() để làm phẳng các bản ghi dưới khóa businesses trong data, đặt dấu gạch dưới (_) làm ký tự phân tách.