Gemiddelden per categorie berekenen
Een goede manier om categorische variabelen verder te verkennen is het berekenen van samenvattende statistieken voor elke categorie. Je kunt bijvoorbeeld het gemiddelde en de mediaan van je responsvariabele berekenen, gegroepeerd naar een categorische variabele. Zo kun je elke categorie gedetailleerder vergelijken.
Hier bekijk je gegroepeerde gemiddelden voor de huizenprijzen in de Taiwan real estate-gegevensset. Dit helpt je de output van een lineaire regressie met een categorische variabele beter te begrijpen.
taiwan_real_estate is beschikbaar als een pandas DataFrame.
Deze oefening maakt deel uit van de cursus
Introductie tot regressie met statsmodels in Python
Oefeninstructies
- Groepeer
taiwan_real_estateophouse_age_yearsen bereken de gemiddelde prijs (price_twd_msq) voor elke leeftijdsgroep. Sla het resultaat op inmean_price_by_age. - Print het resultaat en bekijk de output.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Calculate the mean of price_twd_msq, grouped by house age
mean_price_by_age = ____.____(____)[____].____
# Print the result
print(____)