1. Học hỏi
  2. /
  3. Dự An
  4. /
  5. Phân tích dữ liệu Điều tra Dân số Hoa Kỳ bằng Python

Connected

Bài tập

Ghép Tracts và Khu vực Đô thị (MSA)

Để tập trung vào cách hoạt động của phương thức merge, một hàm tính Chỉ số Khác biệt (Index of Dissimilarity) đã được cung cấp sẵn cho bạn. (Bạn sẽ tự viết hàm này ở bài tiếp theo!)

Để áp dụng hàm này, bạn cần thêm mã định danh MSA vào DataFrame tracts. Bạn sẽ dùng state và county, có mặt ở cả hai DataFrame, làm khóa ghép. Cuối cùng, bạn sẽ dùng phương thức stripplot của seaborn để hiển thị 10 khu vực đô thị có mức độ phân tách chủng tộc cao nhất.

DataFrame tracts mà bạn đã dùng trước đó đã được nạp. Dữ liệu dân số theo MSA được nạp dưới tên msa, và vài dòng đầu đã được hiển thị trong console. Cuối cùng, msa_def được nạp với danh sách các county cấu thành mỗi MSA.

pandas và seaborn đã được nạp với các bí danh quen thuộc.

Hướng dẫn

100 XP
  • Dùng phương thức nlargest trên DataFrame msa để trả về 50 khu vực đô thị lớn nhất theo "population".
  • Cả tracts và msa_def đều có các cột "state" và "county". Dùng phương thức merge với tham số on để ghép theo các cột này.
  • Dùng phương thức merge để ghép msa và msa_D theo mã định danh MSA.