Bootstrap d’un intervalle de confiance

Un outil utile pour évaluer la variabilité de données est le bootstrap. Dans cet exercice, vous allez écrire votre propre fonction de bootstrap qui renverra un intervalle de confiance par bootstrap.

Cette fonction prend trois paramètres : un tableau 2D de nombres (data), une liste de centiles à calculer (percentiles), et le nombre d’itérations de bootstrap à utiliser (n_boots). Elle utilise la fonction resample pour générer un échantillon bootstrap, puis répète l’opération de nombreuses fois pour calculer l’intervalle de confiance.

Cet exercice fait partie du cours

Machine Learning for Time Series Data in Python

Afficher le cours

Instructions

La fonction doit boucler sur le nombre de bootstraps (donné par le paramètre n_boots) et :
- Prendre un échantillon aléatoire des données, avec remise, et calculer la moyenne de cet échantillon
- Calculer les centiles de bootstrap_means et les renvoyer

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

from sklearn.utils import ____

def bootstrap_interval(data, percentiles=(2.5, 97.5), n_boots=100):
    """Bootstrap a confidence interval for the mean of columns of a 2-D dataset."""
    # Create our empty array to fill the results
    bootstrap_means = np.zeros([n_boots, data.shape[-1]])
    for ii in range(____):
        # Generate random indices for our data *with* replacement, then take the sample mean
        random_sample = ____
        bootstrap_means[ii] = random_sample.mean(axis=0)
        
    # Compute the percentiles of choice for the bootstrapped means
    percentiles = ____(bootstrap_means, percentiles, axis=0)
    return percentiles

Modifier et exécuter le code