Python で列の内容をフィルタリングする

これまでに DataFrame の各列に対してさまざまな操作を行ってきました。ここでは実際のデータセットを整形してみます。DataFrame voter_df には、過去数年分の Dallas City Council（ダラス市議会）の投票者に関する情報が入っています。この省略版の DataFrame には、投票日、投票者の氏名、役職が含まれます。マネージャーから、このデータを後でレポートに統合できるようクリーニングするよう依頼されています。主な作業は、null のエントリや不自然な文字を取り除き、情報を検証できる特定の投票者の集合を返すことです。

これはデータクリーニングの最初のステップのひとつで、明らかにフォーマット外のものを除去します。このデータセットでは、元データを確認し、VOTER_NAME 列で不自然に見えるものがないかをチェックしてください。

pyspark.sql.functions ライブラリは、エイリアス F で既にインポートされています。