1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySpark でデータをクレンジングする

Connected

演習

ブロードキャスト結合と通常の結合を比較する

通常の結合とブロードキャスト結合の2種類を作成しました。次に、Spark の最適化を使うことでどの程度パフォーマンスが向上するかを、マネージャーに示す必要があります。結果が有望であれば、必要に応じて Spark の設定をさらに調整する機会が与えられます。

DataFrame normal_df と broadcast_df は利用可能です。

指示

100 XP
  • 通常の DataFrame で .count() を実行します。
  • ブロードキャストした DataFrame で .count() を実行します。
  • 両方の件数と処理時間を出力し、違いに注目して記録します。