1. Learn
  2. /
  3. Courses
  4. /
  5. Nạp dữ liệu gọn nhẹ với pandas

Connected

Exercise

Lấy các giá trị duy nhất

Đôi khi bạn không cần mọi bản ghi, mà chỉ cần các giá trị duy nhất ở một hoặc nhiều cột. Bạn có thể loại bỏ giá trị trùng lặp sau khi nạp dữ liệu vào dataframe, nhưng cũng có thể làm ngay khi nhập bằng từ khóa DISTINCT của SQL.

Vì hpd311calls chứa dữ liệu về các vấn đề nhà ở, ta kỳ vọng hầu hết bản ghi đều có quận (borough) đi kèm. Hãy kiểm chứng giả định này bằng cách truy vấn các cặp complaint_type/borough duy nhất.

pandas đã được import là pd, và engine cơ sở dữ liệu đã được tạo là engine.

Lưu ý: Bộ kiểm tra SQL khá khắt khe về vị trí cột và yêu cầu chọn các trường theo đúng thứ tự chỉ định.

Instructions

100 XP
  • Tạo một truy vấn lấy các giá trị DISTINCT cho borough và complaint_type (theo thứ tự đó) từ hpd311calls.
  • Dùng read_sql() để nạp kết quả truy vấn vào một dataframe, issues_and_boros.
  • In dataframe để kiểm tra giả định rằng mọi vấn đề (ngoại trừ yêu cầu tài liệu) đều xuất hiện kèm quận (borough).