Bloquer des données expérimentales
Vous travaillez avec une entreprise industrielle qui souhaite mener des expériences sur la productivité des employés. Leur jeu de données ne contient que 100 lignes ; il est donc essentiel d’équilibrer les groupes expérimentaux.
C’est une excellente occasion d’appliquer vos connaissances du blocage pour les aider. Ils vous ont fourni un DataFrame productivity_subjects. Scindez le jeu de données fourni en deux groupes égaux de 50 enregistrements chacun.
Les bibliothèques numpy et pandas ont été importées respectivement sous les alias np et pd.
Cet exercice fait partie du cours
<cours>Conception expérimentale en Python</cours>Instructions de l’exercice
- Sélectionnez aléatoirement 50 sujets du DataFrame
productivity_subjectsdans un nouveau DataFrameblock_1, sans remise. - Ajoutez une nouvelle colonne
blockavec la valeur 1 pour le DataFrameblock_1. - Assignez les sujets restants à un DataFrame appelé
block_2et définissez la colonneblockà 2 pour ce DataFrame. - Concaténez les deux blocs en un seul DataFrame, puis affichez le nombre d’occurrences de chaque valeur de la colonne
blockpour confirmer que le blocage a bien fonctionné.
Exercice interactif pratique
Essayez cet exercice en complétant ce code d’exemple.
# Randomly assign half
block_1 = productivity_subjects.____(____, random_state=42, ____)
# Set the block column
block_1['block'] = ____
# Create second assignment and label
block_2 = ____
block_2['block'] = ____
# Concatenate and print
productivity_combined = pd.____([block_1, block_2], axis=0)
print(productivity_combined['block'].value_counts())