Bozuk verileri filtrele
Dönüşüm aşamasında bekleyebileceğin yineleyen adımlardan biri, eksik bazı verileri temizlemektir. Bu egzersizde aşağıdaki biçime sahip kurs verilerine bakacaksın:
| course_id | title | description | programming_language |
|---|---|---|---|
| 1 | Some Course | … | r |
Bu DataFrame'i inceleyip pandas DataFrame'inin .isnull().sum() yöntemlerini kullanarak eksik değer olmadığından emin olacaksın. programming_language sütununda bazı eksik değerler olduğunu bulacaksın.
Bu nedenle, .fillna() yöntemini kullanarak eksik değerleri doldurmak için transform_fill_programming_language() fonksiyonunu tamamlayacaksın.
Bu egzersiz
Data Engineering'e Giriş
kursunun bir parçasıdırEgzersiz talimatları
course_dataiçindeki eksik değerlerin sayısını yazdır.programming_languagesütunundaki eksik değerler "R" dili olmalı.- Bu kez
transformediçin olmak üzere, sütun başına eksik değerlerin sayısını bir kez daha yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
course_data = extract_course_data(db_engines)
# Print out the number of missing values per column
print(____.____().____())
# The transformation should fill in the missing values
def transform_fill_programming_language(course_data):
imputed = course_data.____({"programming_language": "____"})
return imputed
transformed = transform_fill_programming_language(course_data)
# Print out the number of missing values per column of transformed
print(____)