IniziaInizia gratis

Filtra i dati corrotti

Uno dei passaggi ricorrenti che puoi aspettarti nella fase di trasformazione è la pulizia dei dati incompleti. In questo esercizio analizzerai i dati dei corsi, con il seguente formato:

course_id title description programming_language
1 Some Course r

Ispezionerai questo DataFrame e ti assicurerai che non ci siano valori mancanti usando i metodi .isnull().sum() dei DataFrame di pandas. Noterai che la colonna programming_language contiene alcuni valori mancanti.

Di conseguenza, completerai la funzione transform_fill_programming_language() usando il metodo .fillna() per riempire i valori mancanti.

Questo esercizio fa parte del corso

Introduzione al Data Engineering

Visualizza il corso

Istruzioni dell'esercizio

  • Stampa il numero di valori mancanti in course_data.
  • I valori mancanti di programming_language devono essere impostati sul linguaggio "R".
  • Stampa di nuovo il numero di valori mancanti per colonna, questa volta per transformed.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

course_data = extract_course_data(db_engines)

# Print out the number of missing values per column
print(____.____().____())

# The transformation should fill in the missing values
def transform_fill_programming_language(course_data):
    imputed = course_data.____({"programming_language": "____"})
    return imputed

transformed = transform_fill_programming_language(course_data)

# Print out the number of missing values per column of transformed
print(____)
Modifica ed esegui il codice