Combi-aanval!
Je hebt de vier meest voorkomende vormen van datamanipulatie gezien: rijen sorteren, subsets van kolommen maken, subsets van rijen maken en nieuwe kolommen toevoegen. In een echte data-analyse kun je deze vier bewerkingen combineren om allerlei vragen te beantwoorden.
In deze oefening beantwoord je de vraag: "Welke staat heeft het hoogste aantal dakloze individuen per 10.000 inwoners in de staat?" Combineer je nieuwe pandas-skills om erachter te komen.
Deze oefening maakt deel uit van de cursus
Datamanipulatie met pandas
Oefeninstructies
- Voeg een kolom toe aan
homelessness,indiv_per_10k, met het aantal dakloze individuen per tienduizend mensen in elke staat, waarbij jestate_popgebruikt voor de staatsbevolking. - Maak een subset van de rijen waar
indiv_per_10khoger is dan20en sla dit op alshigh_homelessness. - Sorteer
high_homelessnessaflopend opindiv_per_10ken sla dit op alshigh_homelessness_srt. - Selecteer alleen de kolommen
stateenindiv_per_10kvanhigh_homelessness_srten sla dit op alsresult. Kijk naarresult.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create indiv_per_10k col as homeless individuals per 10k state pop
homelessness["indiv_per_10k"] = 10000 * ____ / ____
# Subset rows for indiv_per_10k greater than 20
high_homelessness = ____
# Sort high_homelessness by descending indiv_per_10k
high_homelessness_srt = ____
# From high_homelessness_srt, select the state and indiv_per_10k cols
result = ____
# See the result
print(result)