Membagi dan meledakkan kolom teks
Sebuah dataframe clauses_df dengan 100 baris telah disediakan. Dataframe ini memiliki kolom clause dan id baris. Setiap clause adalah string yang berisi satu atau lebih kata yang dipisahkan oleh spasi.
Latihan ini adalah bagian dari kursus
Pengantar Spark SQL dalam Python
Petunjuk latihan
- Bagi kolom
clausemenjadi kolom bernamawordsyang berisi array kata per kata. - Lakukan explode pada kolom
wordsmenjadi kolom bernamaword. - Hitung jumlah baris yang dihasilkan.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Split the clause column into a column called words
split_df = clauses_df.select(____('clause', ' ').____('words'))
split_df.show(5, truncate=False)
# Explode the words column into a column called word
exploded_df = split_df.____(____('____').____('word'))
exploded_df.show(10)
# Count the resulting number of rows in exploded_df
print("\nNumber of rows: ", ____)