MulaiMulai sekarang secara gratis

Saring data yang korup

Salah satu langkah berulang yang dapat Anda harapkan pada fase transformasi adalah membersihkan data yang tidak lengkap. Dalam latihan ini, Anda akan melihat data kursus dengan format berikut:

course_id title description programming_language
1 Some Course r

Anda akan memeriksa DataFrame ini dan memastikan tidak ada nilai yang hilang dengan menggunakan metode .isnull().sum() pada DataFrame pandas. Anda akan menemukan bahwa kolom programming_language memiliki beberapa nilai yang hilang.

Oleh karena itu, Anda akan melengkapi fungsi transform_fill_programming_language() dengan menggunakan metode .fillna() untuk mengisi nilai yang hilang.

Latihan ini adalah bagian dari kursus

Pengantar Data Engineering

Lihat Kursus

Petunjuk latihan

  • Cetak jumlah nilai yang hilang dalam course_data.
  • Nilai yang hilang pada programming_language harus diisi dengan bahasa "R".
  • Cetak kembali jumlah nilai yang hilang per kolom, kali ini untuk transformed.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

course_data = extract_course_data(db_engines)

# Print out the number of missing values per column
print(____.____().____())

# The transformation should fill in the missing values
def transform_fill_programming_language(course_data):
    imputed = course_data.____({"programming_language": "____"})
    return imputed

transformed = transform_fill_programming_language(course_data)

# Print out the number of missing values per column of transformed
print(____)
Edit dan Jalankan Kode