1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySpark でデータをクレンジングする

Connected

演習

Python で列の内容をフィルタリングする

これまでに DataFrame の各列に対してさまざまな操作を行ってきました。ここでは実際のデータセットを整形してみます。DataFrame voter_df には、過去数年分の Dallas City Council(ダラス市議会)の投票者に関する情報が入っています。この省略版の DataFrame には、投票日、投票者の氏名、役職が含まれます。マネージャーから、このデータを後でレポートに統合できるようクリーニングするよう依頼されています。主な作業は、null のエントリや不自然な文字を取り除き、情報を検証できる特定の投票者の集合を返すことです。

これはデータクリーニングの最初のステップのひとつで、明らかにフォーマット外のものを除去します。このデータセットでは、元データを確認し、VOTER_NAME 列で不自然に見えるものがないかをチェックしてください。

pyspark.sql.functions ライブラリは、エイリアス F で既にインポートされています。

指示

100 XP
  • VOTER_NAME の重複しない値を表示します。
  • VOTER_NAME の長さが 1〜20 文字の行に voter_df をフィルタリングします。
  • VOTER_NAME に _ が含まれる行を voter_df から除外します。
  • もう一度、VOTER_NAME の重複しない値を表示します。