Membagi dan meledakkan kolom teks
Sebuah dataframe clauses_df dengan 100 baris telah disediakan. Dataframe ini memiliki kolom clause dan id baris. Setiap clause adalah string yang berisi satu atau lebih kata yang dipisahkan oleh spasi.
Latihan ini merupakan bagian dari kursus
Pengantar Spark SQL dalam Python
Instruksi latihan
- Bagi kolom
clausemenjadi kolom bernamawordsyang berisi array kata per kata. - Lakukan explode pada kolom
wordsmenjadi kolom bernamaword. - Hitung jumlah baris yang dihasilkan.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Split the clause column into a column called words
split_df = clauses_df.select(____('clause', ' ').____('words'))
split_df.show(5, truncate=False)
# Explode the words column into a column called word
exploded_df = split_df.____(____('____').____('word'))
exploded_df.show(10)
# Count the resulting number of rows in exploded_df
print("\nNumber of rows: ", ____)