Bootstrap para un intervalo de confianza
Una herramienta útil para evaluar la variabilidad de unos datos es el bootstrap. En este ejercicio, vas a escribir tu propia función de bootstrap que te permita devolver un intervalo de confianza por bootstrap.
Esta función recibe tres parámetros: un array 2D de números (data), una lista de percentiles a calcular (percentiles) y el número de iteraciones de bootstrap a usar (n_boots). Utiliza la función resample para generar una muestra de bootstrap y, después, repite este proceso muchas veces para calcular el intervalo de confianza.
Este ejercicio forma parte del curso
Machine Learning para datos de series temporales en Python
Instrucciones del ejercicio
- La función debe iterar sobre el número de bootstraps (dado por el parámetro
n_boots) y:- Tomar una muestra aleatoria de los datos, con reemplazo, y calcular la media de esa muestra aleatoria
- Calcular los percentiles de
bootstrap_meansy devolverlos
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
from sklearn.utils import ____
def bootstrap_interval(data, percentiles=(2.5, 97.5), n_boots=100):
"""Bootstrap a confidence interval for the mean of columns of a 2-D dataset."""
# Create our empty array to fill the results
bootstrap_means = np.zeros([n_boots, data.shape[-1]])
for ii in range(____):
# Generate random indices for our data *with* replacement, then take the sample mean
random_sample = ____
bootstrap_means[ii] = random_sample.mean(axis=0)
# Compute the percentiles of choice for the bootstrapped means
percentiles = ____(bootstrap_means, percentiles, axis=0)
return percentiles