Bootstrap d’un intervalle de confiance
Un outil utile pour évaluer la variabilité de données est le bootstrap. Dans cet exercice, vous allez écrire votre propre fonction de bootstrap qui renverra un intervalle de confiance par bootstrap.
Cette fonction prend trois paramètres : un tableau 2D de nombres (data), une liste de centiles à calculer (percentiles), et le nombre d’itérations de bootstrap à utiliser (n_boots). Elle utilise la fonction resample pour générer un échantillon bootstrap, puis répète l’opération de nombreuses fois pour calculer l’intervalle de confiance.
Cet exercice fait partie du cours
Machine Learning for Time Series Data in Python
Instructions
- La fonction doit boucler sur le nombre de bootstraps (donné par le paramètre
n_boots) et :- Prendre un échantillon aléatoire des données, avec remise, et calculer la moyenne de cet échantillon
- Calculer les centiles de
bootstrap_meanset les renvoyer
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
from sklearn.utils import ____
def bootstrap_interval(data, percentiles=(2.5, 97.5), n_boots=100):
"""Bootstrap a confidence interval for the mean of columns of a 2-D dataset."""
# Create our empty array to fill the results
bootstrap_means = np.zeros([n_boots, data.shape[-1]])
for ii in range(____):
# Generate random indices for our data *with* replacement, then take the sample mean
random_sample = ____
bootstrap_means[ii] = random_sample.mean(axis=0)
# Compute the percentiles of choice for the bootstrapped means
percentiles = ____(bootstrap_means, percentiles, axis=0)
return percentiles