Calcular el coeficiente de correlación de Pearson
Como se mencionó en el vídeo, el coeficiente de correlación de Pearson, también llamado Pearson r, suele ser más fácil de interpretar que la covarianza. Se calcula con la función np.corrcoef(). Al igual que np.cov(), toma dos arrays como argumentos y devuelve un array 2D. Las entradas [0,0] y [1,1] necesariamente son iguales a 1 (¿se te ocurre por qué?), y el valor que nos interesa es la entrada [0,1].
En este ejercicio, escribirás una función, pearson_r(x, y), que recibe dos arrays y devuelve el coeficiente de correlación de Pearson. Después usarás esta función para calcularlo para las longitudes y anchuras de los pétalos de I. versicolor.
De nuevo, incluimos el diagrama de dispersión que generaste en un ejercicio anterior para recordarte cómo se relacionan la anchura y la longitud del pétalo.
Este ejercicio forma parte del curso
Pensamiento estadístico en Python (Parte 1)
Instrucciones del ejercicio
- Define una función con la firma
pearson_r(x, y).- Usa
np.corrcoef()para calcular la matriz de correlación dexyy(pásalos anp.corrcoef()en ese orden). - La función devuelve la entrada
[0,1]de la matriz de correlación.
- Usa
- Calcula la correlación de Pearson entre los datos de los arrays
versicolor_petal_lengthyversicolor_petal_width. Asigna el resultado ar. - Imprime el resultado.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
def ____(____, ____):
"""Compute Pearson correlation coefficient between two arrays."""
# Compute correlation matrix: corr_mat
# Return entry [0,1]
return corr_mat[0,1]
# Compute Pearson correlation coefficient for I. versicolor: r
# Print the result