1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Spark SQL bằng Python

Connected

Bài tập

Luyện tập với cột mảng

Hàm SQL udf đã sẵn có, và một dataframe df_before cũng đã sẵn có, kiểu DataFrame[doc: array<string>, in: array<string>, out: array<string>].

Biến TRIVIAL_TOKENS là một set. Nó chứa một số từ mà chúng ta muốn loại bỏ.

Hướng dẫn

100 XP
  • Hiển thị các dòng của df_before nơi doc chứa phần tử 5.
  • Tạo một udf để loại bỏ các phần tử trong TRIVIAL_TOKENS khỏi một cột mảng. Không cần giữ nguyên thứ tự.
  • Loại bỏ các token khỏi các cột in và out trong df2 nếu chúng xuất hiện trong TRIVIAL_TOKENS.