Mulai sekarangMulai gratis

Membagi dan meledakkan kolom teks

Sebuah dataframe clauses_df dengan 100 baris telah disediakan. Dataframe ini memiliki kolom clause dan id baris. Setiap clause adalah string yang berisi satu atau lebih kata yang dipisahkan oleh spasi.

Latihan ini merupakan bagian dari kursus

Pengantar Spark SQL dalam Python

Lihat Kursus

Instruksi latihan

  • Bagi kolom clause menjadi kolom bernama words yang berisi array kata per kata.
  • Lakukan explode pada kolom words menjadi kolom bernama word.
  • Hitung jumlah baris yang dihasilkan.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Split the clause column into a column called words 
split_df = clauses_df.select(____('clause', ' ').____('words'))
split_df.show(5, truncate=False)

# Explode the words column into a column called word 
exploded_df = split_df.____(____('____').____('word'))
exploded_df.show(10)

# Count the resulting number of rows in exploded_df
print("\nNumber of rows: ", ____)
Edit dan Jalankan Kode