1. Learn
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶ Spark SQL 入門

Connected

Exercise

配列カラムの練習

SQL 関数 udf と、DataFrame[doc: array<string>, in: array<string>, out: array<string>] 型のデータフレーム df_before が利用できます。

変数 TRIVIAL_TOKENS は set で、削除したい特定の単語を含んでいます。

Instructions

100 XP
  • doc に要素 5 を含む df_before の行を表示してください。
  • 配列カラムから TRIVIAL_TOKENS に含まれる要素を取り除く UDF を作成してください。順序は保持しなくて構いません。
  • df2 の in と out 列から、TRIVIAL_TOKENS に含まれるトークンを削除してください。