Combi-aanval!

Je hebt de vier meest voorkomende vormen van datamanipulatie gezien: rijen sorteren, subsets van kolommen maken, subsets van rijen maken en nieuwe kolommen toevoegen. In een echte data-analyse kun je deze vier bewerkingen combineren om allerlei vragen te beantwoorden.

In deze oefening beantwoord je de vraag: "Welke staat heeft het hoogste aantal dakloze individuen per 10.000 inwoners in de staat?" Combineer je nieuwe pandas-skills om erachter te komen.

Deze oefening maakt deel uit van de cursus

Datamanipulatie met pandas

Bekijk cursus

Oefeninstructies

Voeg een kolom toe aan homelessness, indiv_per_10k, met het aantal dakloze individuen per tienduizend mensen in elke staat, waarbij je state_pop gebruikt voor de staatsbevolking.
Maak een subset van de rijen waar indiv_per_10k hoger is dan 20 en sla dit op als high_homelessness.
Sorteer high_homelessness aflopend op indiv_per_10k en sla dit op als high_homelessness_srt.
Selecteer alleen de kolommen state en indiv_per_10k van high_homelessness_srt en sla dit op als result. Kijk naar result.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create indiv_per_10k col as homeless individuals per 10k state pop
homelessness["indiv_per_10k"] = 10000 * ____ / ____ 

# Subset rows for indiv_per_10k greater than 20
high_homelessness = ____

# Sort high_homelessness by descending indiv_per_10k
high_homelessness_srt = ____

# From high_homelessness_srt, select the state and indiv_per_10k cols
result = ____

# See the result
print(result)

Code bewerken en uitvoeren