1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶ特徴量エンジニアリング

Connected

演習

誤った結合の検出

注意しないと、Join は静かに「おかしく」なることがあります。エラーは出ず、意図より多かったり少なかったりする壊れたデータが返ってくるのです。ここでは、誤った結合がどのようにデータセットを悪化させるかをいくつかの方法で確認します。

この例では、結合キーの精度が一致していない状態で2つのデータフレームを結合した場合に何が起こるかを見て、正しい結合と誤った結合でレコード件数を比較します。

指示

100 XP
  • 精度補正前のデータフレーム df_orig と walk_df の間で、それぞれのデータフレームの longitude と latitude をキーにして結合を作成します。
  • df['walkscore'] と correct_join['walkscore'] について、where() と isNull() を使って欠損値の数を数えます。データ型や精度が一致していないため、欠損が多いことに気づくはずです。
  • df と walk_df の間で、longitude のみをキーにした結合を作成します。
  • count() を使って few_keys_df と correct_join_df のレコード数を数えます。結合条件を十分に絞れていないため、値が大幅に増えていることに気づくはずです。