1. सीखें
  2. /
  3. पाठ्यक्रम
  4. /
  5. Pythonで学ぶ Spark SQL 入門

Connected

अभ्यास

キャッシュの練習:パート1

次のいくつかの演習では、2つのDataFrameをキャッシュするさまざまな方法を試します。

DataFrame df1 は csv ファイルから読み込まれ、いくつかの処理ステップが実行されています。df1 は複数回利用するため、キャッシュの候補です。

2つ目の DataFrame df2 は、df1 に対してさらに計算負荷の高い処理を行って作成されます。これもキャッシュの候補です。

df2 は df1 に依存しているため、df1 をキャッシュすべきか、df2 をキャッシュすべきか、という疑問が生じます。

この演習では、まず df1 をキャッシュしてみます。各アクションにかかった時間に注目してください。次の演習でこれらを比較します。

निर्देश

100 XP
  • df1 のみをキャッシュしてください。
  • df1 に対して最初のアクションを実行してから繰り返し、次に df2 に対してアクションを実行してから繰り返します。これはすでに用意されています。
  • df1 がキャッシュされているかどうかを確認してください。