1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶ特徴量エンジニアリング

Connected

演習

テキストフィルターでレコードを除外する

クライアントにたくさん質問し、変数をよく理解することはとても重要です。調べてみると、Assumable mortgage は不動産業界では珍しいケースで、クライアントからはそれらを除外するよう提案がありました。この演習では、like() に似ていますが、単一の値ではなくフィルターに使う値のリストを渡せる isin() を使います。

指示

100 XP
  • select() と show() を使って列 'ASSUMABLEMORTGAGE' に含まれる重複のない値を確認し、文字列 'Yes' を含むすべての値からリスト yes_values を作成します。
  • ~df['ASSUMABLEMORTGAGE']、isin()、.isNull() を使って、リスト yes_values に該当する値を含むレコードを除外し、かつ null のレコードは保持するための NOT フィルターを作成します。このフィルターを変数 text_filter に保存します。
  • where() を使って text_filter を df に適用します。
  • df に残っているレコード数を出力します。