1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. PySpark でデータをクレンジングする

Connected

Bài tập

不正な行の削除

コメント行の削除に成功したら、データのおおまかな形式に関する情報がわかりました。DataFrame には最低でも 5 個のタブ区切りの列があるはずです。元の DataFrame は 1 列しかないので、タブ(\t)でデータを分割する必要があります。

DataFrame annotations_df はすでに利用可能で、コメント行は削除済みです。spark.sql.functions ライブラリはエイリアス F で利用できます。DataFrame の初期の行数は変数 initial_count に保存されています。

Hướng dẫn

100 XP
  • annotations_df の列 '_c0' をタブ文字で分割して、新しい変数 tmp_fields を作成します。
  • 直前の手順で得たフィールド数を表す列 'colcount' を annotations_df に新規作成します。
  • annotations_df から、フィールドが 5 未満の行をすべて除外します。
  • DataFrame の行数を数え、initial_count と比較します。