Memverifikasi Tipe Data
Di era data, kita memiliki akses ke lebih banyak atribut daripada sebelumnya. Untuk menanganinya, kita akan membangun banyak otomatisasi, tetapi setidaknya diperlukan bahwa tipe data setiap atribut sudah benar. Pada latihan ini, kita akan memvalidasi sebuah kamus berisi atribut dan tipe datanya untuk melihat apakah sudah tepat. Kamus ini disimpan dalam variabel validation_dict dan tersedia di workspace Anda.
Latihan ini merupakan bagian dari kursus
Rekayasa Fitur dengan PySpark
Instruksi latihan
- Gunakan
dfuntuk membuat daftar tuple atribut dan tipe data dengandtypesbernamaactual_dtypes_list. - Iterasikan
actual_dtypes_list, lalu periksa apakah nama kolom tersebut ada dalam kamus tipe data yang diharapkanvalidation_dict. - Untuk key yang ada di kamus, periksa tipe datanya dan cetak yang sesuai.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# create list of actual dtypes to check
actual_dtypes_list = df.____
print(actual_dtypes_list)
# Iterate through the list of actual dtypes tuples
for attribute_tuple in ____:
# Check if column name is dictionary of expected dtypes
col_name = attribute_tuple[____]
if col_name in ____:
# Compare attribute types
col_type = attribute_tuple[____]
if col_type == validation_dict[____]:
print(col_name + ' has expected dtype.')