Blocage des données expérimentales
Vous travaillez avec une entreprise manufacturière qui souhaite mener des expériences sur la productivité des travailleurs. Leur jeu de données ne contient que 100 lignes, il est donc important que les groupes expérimentaux soient équilibrés.
Cela semble être une excellente occasion d'utiliser vos connaissances en matière de blocage pour les aider. Ils ont fourni un DataFrame productivity_subjects
. Divisez l'ensemble de données fourni en deux groupes égaux de 50 entrées chacun.
Les bibliothèques numpy
et pandas
ont été importées en tant que np
et pd
respectivement.
Cet exercice fait partie du cours
Conception expérimentale en Python
Instructions
- Sélectionnez au hasard 50 sujets du DataFrame
productivity_subjects
dans un nouveau DataFrameblock_1
sans remplacement. - Définissez une nouvelle colonne,
block
à 1 pour le DataFrameblock_1
. - Affectez les sujets restants à un DataFrame appelé
block_2
et fixez la colonneblock
à 2 pour ce DataFrame. - Réunissez les blocs en un seul DataFrame et imprimez le nombre de chaque valeur dans la colonne
block
pour confirmer que le blocage a fonctionné.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Randomly assign half
block_1 = productivity_subjects.____(____, random_state=42, ____)
# Set the block column
block_1['block'] = ____
# Create second assignment and label
block_2 = ____
block_2['block'] = ____
# Concatenate and print
productivity_combined = pd.____([block_1, block_2], axis=0)
print(productivity_combined['block'].value_counts())