Blocco dei dati sperimentali
Stai collaborando con un'azienda manifatturiera che vuole condurre alcuni esperimenti sulla produttività dei lavoratori. Il loro insieme di dati contiene solo 100 righe, quindi è importante che i gruppi sperimentali siano bilanciati.
Questa è un'ottima occasione per usare le tue conoscenze di blocking per aiutarli. Ti hanno fornito un DataFrame productivity_subjects. Suddividi l'insieme di dati in due gruppi uguali da 50 record ciascuno.
Le librerie numpy e pandas sono già state importate rispettivamente come np e pd.
Questo esercizio fa parte del corso
Progettazione Sperimentale in Python
Istruzioni dell'esercizio
- Seleziona casualmente 50 soggetti dal DataFrame
productivity_subjectsin un nuovo DataFrameblock_1senza reinserimento. - Imposta una nuova colonna
blocka 1 per il DataFrameblock_1. - Assegna i soggetti rimanenti a un DataFrame chiamato
block_2e imposta la colonnablocka 2 per questo DataFrame. - Concatena i due blocchi in un unico DataFrame e stampa il conteggio di ciascun valore nella colonna
blockper confermare che il blocking ha funzionato.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Randomly assign half
block_1 = productivity_subjects.____(____, random_state=42, ____)
# Set the block column
block_1['block'] = ____
# Create second assignment and label
block_2 = ____
block_2['block'] = ____
# Concatenate and print
productivity_combined = pd.____([block_1, block_2], axis=0)
print(productivity_combined['block'].value_counts())