De Pearson-correlatiecoëfficiënt berekenen
Zoals in de video genoemd, is de Pearson-correlatiecoëfficiënt, ook wel Pearson r, vaak makkelijker te interpreteren dan de covariantie. Je berekent deze met de functie np.corrcoef(). Net als np.cov() neemt die twee arrays als argument en geeft een 2D-array terug. De elementen [0,0] en [1,1] zijn per definitie gelijk aan 1 (kun je bedenken waarom?), en de waarde die we nodig hebben staat op positie [0,1].
In deze oefening schrijf je een functie pearson_r(x, y) die twee arrays inneemt en de Pearson-correlatiecoëfficiënt teruggeeft. Daarna gebruik je deze functie om de correlatie te berekenen voor de kelkbladlengtes en -breedtes van I. versicolor.
We voegen opnieuw de scatterplot toe die je in een eerdere oefening hebt gemaakt, zodat je nog eens ziet hoe kelkbladbreedte en -lengte samenhangen.
Deze oefening maakt deel uit van de cursus
Statistisch denken in Python (deel 1)
Oefeninstructies
- Definieer een functie met de signatuur
pearson_r(x, y).- Gebruik
np.corrcoef()om de correlatiematrix vanxenyte berekenen (geef ze in die volgorde door aannp.corrcoef()). - De functie retourneert element
[0,1]van de correlatiematrix.
- Gebruik
- Bereken de Pearson-correlatie tussen de gegevens in de arrays
versicolor_petal_lengthenversicolor_petal_width. Wijs het resultaat toe aanr. - Print het resultaat.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
def ____(____, ____):
"""Compute Pearson correlation coefficient between two arrays."""
# Compute correlation matrix: corr_mat
# Return entry [0,1]
return corr_mat[0,1]
# Compute Pearson correlation coefficient for I. versicolor: r
# Print the result