Gelijke variantie
Verschillende sectoren krijgen verschillende hoeveelheden investeringen van durfkapitalisten (VC’s). Maar als je een steekproef van VC-investeringen bekijkt en licht verschillende gemiddelde investeringsbedragen ziet, is het dan redelijk om aan te nemen dat dit verschil statistisch significant is? Dit is een perfecte situatie voor ANOVA. Een belangrijke voorwaarde voor ANOVA is echter gelijke variantie tussen alle groepen steekproeven. In deze oefening test je dat met de Levene-test voor gelijke variantie.
Een pandas DataFrame met investeringen van drie sectoren (Biotechnology, Enterprise Software en Health Care) is voor je geladen in investments_df. De pakketten pandas als pd, NumPy als np, Matplotlib als plt, en het stats-pakket van SciPy zijn ook al geladen.
Deze oefening maakt deel uit van de cursus
Basis van inferentie in Python
Oefeninstructies
- Selecteer de financiering voor elke
marketafzonderlijk uitinvestments_dfmet de opgegeven kolomnamen. - Voer Levene-tests uit voor gelijke variantie tussen elk paar sectoren, in de volgende volgorde: (i) Biotechnology en Enterprise Software, (ii) Biotechnology en Health Care, en (iii) Enterprise Software en Health Care, overeenkomend met respectievelijk
statistic1,statistic2enstatistic3. - Geef in elk geval een Boolean terug die aangeeft of de nulhypothese van gelijke variantie wordt verworpen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Select each industry separately
biotech_df = ____
enterprise_df = ____
health_df = ____
# Conduct Levene tests for equal variance between funding_total_usd for all pairs of industries
statistic_1, p_value_1 = ____
statistic_2, p_value_2 = ____
statistic_3, p_value_3 = ____
# Print if the p-value is significant at the 5% level
print(____)
print(____)
print(____)