1. Học hỏi
  2. /
  3. Dự An
  4. /
  5. Phân tích dữ liệu Điều tra Dân số Hoa Kỳ bằng Python

Connected

Bài tập

Tính D trong vòng lặp

Chỉ số khác biệt (Index of Dissimilarity) của Georgia là 0,544 — cao hay thấp? Hãy so sánh với Illinois (FIPS = 17), nơi có thành phố Chicago.

Trong bài này, bạn sẽ dùng vòng lặp để tính \(D\) cho tất cả các bang, rồi so sánh Georgia và Illinois.

Nhớ rằng công thức của Index of Dissimilarity là:

$$D = \frac{1}{2}\sum{\left\lvert \frac{a}{A} - \frac{b}{B} \right\rvert}$$

pandas đã được import với bí danh quen thuộc, và DataFrame tracts với các cột dân số "white" và "black" đã được nạp. Các biến w và b đã được gán tên cột "white" và "black".

Hướng dẫn

100 XP
  • Dùng phương thức unique() trên cột "state" để tạo danh sách mã FIPS của các bang.
  • Dùng vòng lặp for để lần lượt gán từng phần tử của states (tức từng mã FIPS) vào biến state.
  • Lọc DataFrame tracts theo mỗi giá trị state, và gán vào tmp.
  • Tính \(D\) cho mỗi bang bằng cách áp dụng công thức lên tmp, và lưu kết quả vào dictionary state_D.