1. Lära sig
  2. /
  3. Courses
  4. /
  5. Python에서 Spark SQL 입문

Connected

exercise

배열 컬럼 연습

SQL 함수 udf를 사용할 수 있으며, DataFrame[doc: array<string>, in: array<string>, out: array<string>] 타입의 데이터프레임 df_before도 제공됩니다.

변수 TRIVIAL_TOKENS는 set입니다. 제거하려는 특정 단어들이 들어 있습니다.

Instruktioner

100 XP
  • doc에 항목 5가 포함된 df_before의 행을 보여주세요.
  • 배열 컬럼에서 TRIVIAL_TOKENS에 있는 항목들을 제거하는 udf를 만드세요. 순서는 유지하지 않아도 됩니다.
  • df2의 in과 out 컬럼에서 TRIVIAL_TOKENS에 포함된 토큰을 제거하세요.