Aan de slagGa gratis aan de slag

Gemiddelden per categorie berekenen

Een goede manier om categorische variabelen verder te verkennen is het berekenen van samenvattende statistieken voor elke categorie. Je kunt bijvoorbeeld het gemiddelde en de mediaan van je responsvariabele berekenen, gegroepeerd naar een categorische variabele. Zo kun je elke categorie gedetailleerder vergelijken.

Hier bekijk je gegroepeerde gemiddelden voor de huizenprijzen in de Taiwan real estate-gegevensset. Dit helpt je de output van een lineaire regressie met een categorische variabele beter te begrijpen.

taiwan_real_estate is beschikbaar als een pandas DataFrame.

Deze oefening maakt deel uit van de cursus

Introductie tot regressie met statsmodels in Python

Cursus bekijken

Oefeninstructies

  • Groepeer taiwan_real_estate op house_age_years en bereken de gemiddelde prijs (price_twd_msq) voor elke leeftijdsgroep. Sla het resultaat op in mean_price_by_age.
  • Print het resultaat en bekijk de output.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Calculate the mean of price_twd_msq, grouped by house age
mean_price_by_age = ____.____(____)[____].____

# Print the result
print(____)
Code bewerken en uitvoeren