1. Học hỏi
  2. /
  3. Dự An
  4. /
  5. Phân tích dữ liệu Điều tra Dân số Hoa Kỳ bằng Python

Connected

Bài tập

Tạo hàm để tính D

Việc tính Chỉ số Khác biệt (Index of Dissimilarity) gồm nhiều bước và có tiềm năng tái sử dụng cao. Trong bài này, bạn sẽ tạo hàm dissimilarity mà chúng ta đã dùng ở bài trước. Tham số đầu vào của hàm sẽ là một DataFrame của các đơn vị địa lý nhỏ (như tract), cùng ba tên cột: hai cột là số dân của Nhóm A và Nhóm B, và cột chứa tên hoặc mã định danh địa lý của đơn vị bao chứa (như bang hoặc khu vực đô thị).

Nhắc lại, công thức của Chỉ số Khác biệt là:

$$D = \frac{1}{2}\sum{\left\lvert \frac{a}{A} - \frac{b}{B} \right\rvert}$$

pandas đã được import với bí danh quen thuộc. Các bước groupby và merge đã được chuẩn bị sẵn trong mã bên dưới.

Hướng dẫn

100 XP
  • Tính biểu thức bên trong dấu giá trị tuyệt đối theo công thức: Tên cột cho \(A\) và \(B\) được tạo bằng cách thêm hậu tố "_sum" vào các tham số col_A và col_B
  • Phương thức sum trên một cột đơn lẻ trả về một series; dùng phương thức to_frame() để chuyển series đó thành DataFrame
  • Kiểm thử hàm mới trên tracts: tính chỉ số khác biệt White-Black theo tên MSA