Filtra i dati corrotti
Uno dei passaggi ricorrenti che puoi aspettarti nella fase di trasformazione è la pulizia dei dati incompleti. In questo esercizio analizzerai i dati dei corsi, con il seguente formato:
| course_id | title | description | programming_language |
|---|---|---|---|
| 1 | Some Course | … | r |
Ispezionerai questo DataFrame e ti assicurerai che non ci siano valori mancanti usando i metodi .isnull().sum() dei DataFrame di pandas. Noterai che la colonna programming_language contiene alcuni valori mancanti.
Di conseguenza, completerai la funzione transform_fill_programming_language() usando il metodo .fillna() per riempire i valori mancanti.
Questo esercizio fa parte del corso
Introduzione al Data Engineering
Istruzioni dell'esercizio
- Stampa il numero di valori mancanti in
course_data. - I valori mancanti di
programming_languagedevono essere impostati sul linguaggio "R". - Stampa di nuovo il numero di valori mancanti per colonna, questa volta per
transformed.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
course_data = extract_course_data(db_engines)
# Print out the number of missing values per column
print(____.____().____())
# The transformation should fill in the missing values
def transform_fill_programming_language(course_data):
imputed = course_data.____({"programming_language": "____"})
return imputed
transformed = transform_fill_programming_language(course_data)
# Print out the number of missing values per column of transformed
print(____)