Mulai sekarangMulai gratis

Saring data yang korup

Salah satu langkah berulang yang dapat Anda harapkan pada fase transformasi adalah membersihkan data yang tidak lengkap. Dalam latihan ini, Anda akan melihat data kursus dengan format berikut:

course_id title description programming_language
1 Some Course r

Anda akan memeriksa DataFrame ini dan memastikan tidak ada nilai yang hilang dengan menggunakan metode .isnull().sum() pada DataFrame pandas. Anda akan menemukan bahwa kolom programming_language memiliki beberapa nilai yang hilang.

Oleh karena itu, Anda akan melengkapi fungsi transform_fill_programming_language() dengan menggunakan metode .fillna() untuk mengisi nilai yang hilang.

Latihan ini merupakan bagian dari kursus

Pengantar Data Engineering

Lihat Kursus

Instruksi latihan

  • Cetak jumlah nilai yang hilang dalam course_data.
  • Nilai yang hilang pada programming_language harus diisi dengan bahasa "R".
  • Cetak kembali jumlah nilai yang hilang per kolom, kali ini untuk transformed.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

course_data = extract_course_data(db_engines)

# Print out the number of missing values per column
print(____.____().____())

# The transformation should fill in the missing values
def transform_fill_programming_language(course_data):
    imputed = course_data.____({"programming_language": "____"})
    return imputed

transformed = transform_fill_programming_language(course_data)

# Print out the number of missing values per column of transformed
print(____)
Edit dan Jalankan Kode