MulaiMulai sekarang secara gratis

Membagi dan meledakkan kolom teks

Sebuah dataframe clauses_df dengan 100 baris telah disediakan. Dataframe ini memiliki kolom clause dan id baris. Setiap clause adalah string yang berisi satu atau lebih kata yang dipisahkan oleh spasi.

Latihan ini adalah bagian dari kursus

Pengantar Spark SQL dalam Python

Lihat Kursus

Petunjuk latihan

  • Bagi kolom clause menjadi kolom bernama words yang berisi array kata per kata.
  • Lakukan explode pada kolom words menjadi kolom bernama word.
  • Hitung jumlah baris yang dihasilkan.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Split the clause column into a column called words 
split_df = clauses_df.select(____('clause', ' ').____('words'))
split_df.show(5, truncate=False)

# Explode the words column into a column called word 
exploded_df = split_df.____(____('____').____('word'))
exploded_df.show(10)

# Count the resulting number of rows in exploded_df
print("\nNumber of rows: ", ____)
Edit dan Jalankan Kode