コメント行の削除

上司から、新しいデータセットに対して複雑なパース処理を行うよう依頼されました。これは ImageNet データセットのアノテーションデータで、特に犬種と画像内での識別に焦点を当てています。本格的な分析に入る前に、不正確・不正なデータをいくつか取り除く必要があります。文書の一般的なスキーマは不明なため、まずは行全体を 1 列に取り込んで、すばやく分析できるようにしたいと考えています。

最初の手順として、データセット内のすべてのコメント行を削除します。

spark コンテキストと、ベースとなる CSV ファイル（annotations.csv.gz）が利用可能です。col 関数も使用できます。