EDA van geletterdheid/vruchtbaarheid
In de volgende paar oefeningen bekijken we de correlatie tussen vrouwelijke geletterdheid en vruchtbaarheid (gedefinieerd als het gemiddelde aantal kinderen per vrouw) wereldwijd. Voor een eenvoudigere analyse en interpretatie werken we met het analfabetismepercentage.
Het is altijd verstandig om eerst wat EDA te doen. Maak daarom een plot van vruchtbaarheid tegen analfabetisme en bereken de Pearson-correlatiecoëfficiënt. De NumPy-array illiteracy bevat het analfabetismepercentage onder vrouwen voor de meeste landen ter wereld. De array fertility bevat de bijbehorende vruchtbaarheidsgegevens.
Hier is het handig om terug te grijpen op de functie die je in de vorige cursus schreef om de Pearson-correlatiecoëfficiënt te berekenen.
Deze oefening maakt deel uit van de cursus
Statistical Thinking in Python (deel 2)
Oefeninstructies
- Plot
fertility(y-as) tegenilliteracy(x-as) als een scatterplot. - Stel een marge van 2% in.
- Bereken en print de Pearson-correlatiecoëfficiënt tussen
illiteracyenfertility.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Plot the illiteracy rate versus fertility
_ = plt.plot(____, ____, ____='.', ____='none')
# Set the margins and label axes
plt.margins(____)
_ = plt.xlabel('percent illiterate')
_ = plt.ylabel('fertility')
# Show the plot
plt.show()
# Show the Pearson correlation coefficient
print(pearson_r(____, ____))