Determinación de un intervalo de confianza
Una herramienta útil para evaluar la variabilidad de algunos datos es el bootstrap. En este ejercicio, escribirás tu propia función de bootstrapping que se puede utilizar para devolver un intervalo de confianza bootstrapped.
Esta función toma tres parámetros: una matriz bidimensional de números (data
), una lista de percentiles a calcular (percentiles
) y el número de iteraciones boostrap a utilizar (n_boots
). Utiliza la función resample
para generar una muestra bootstrap, y luego repítelo muchas veces para calcular el intervalo de confianza.
Este ejercicio forma parte del curso
Machine learning para datos de series temporales en Python
Instrucciones de ejercicio
- La función debe hacer un bucle sobre el número de bootstraps (dado por el parámetro
n_boots
) y:- Toma una muestra aleatoria de los datos, con reemplazamiento, y calcula la media de esta muestra aleatoria
- Calcula los percentiles de
bootstrap_means
y devuélvelo
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
from sklearn.utils import ____
def bootstrap_interval(data, percentiles=(2.5, 97.5), n_boots=100):
"""Bootstrap a confidence interval for the mean of columns of a 2-D dataset."""
# Create our empty array to fill the results
bootstrap_means = np.zeros([n_boots, data.shape[-1]])
for ii in range(____):
# Generate random indices for our data *with* replacement, then take the sample mean
random_sample = ____
bootstrap_means[ii] = random_sample.mean(axis=0)
# Compute the percentiles of choice for the bootstrapped means
percentiles = ____(bootstrap_means, percentiles, axis=0)
return percentiles