1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark でデータをクレンジングする

Connected

연습 문제

コメント行の削除

上司から、新しいデータセットに対して複雑なパース処理を行うよう依頼されました。これは ImageNet データセットのアノテーションデータで、特に犬種と画像内での識別に焦点を当てています。本格的な分析に入る前に、不正確・不正なデータをいくつか取り除く必要があります。文書の一般的なスキーマは不明なため、まずは行全体を 1 列に取り込んで、すばやく分析できるようにしたいと考えています。

最初の手順として、データセット内のすべてのコメント行を削除します。

spark コンテキストと、ベースとなる CSV ファイル(annotations.csv.gz)が利用可能です。col 関数も使用できます。

지침

100 XP
  • annotations.csv.gz ファイルを DataFrame に読み込み、行数をカウントします。区切り文字には | を指定します。
  • 先頭が # で始まる行の数をクエリします。
  • ファイルを別の DataFrame として再読み込みし、オプションでコメント文字を指定してコメント行を除外します。
  • 新しい DataFrame の行数を数え、差分が想定どおりか確認します。