1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySpark入門

Connected

演習

Selecting II

SQLと同様に、.select() メソッドを使って列ごとの演算を行うこともできます。df.colName という表記で列を選択するとき、任意の列演算を行え、.select() は変換後の列を返します。たとえば、

flights.select(flights.air_time/60)

は、分ではなく時間単位のフライト所要時間の列を返します。選択している列は、.alias() メソッドで名前を変更することもできます。たとえば、duration_hrs という列(DataFrameには存在しません)を .select() したい場合は、次のように書けます。

flights.select((flights.air_time/60).alias("duration_hrs"))

同等のSpark DataFrameメソッドである .selectExpr() は、SQL式を文字列として受け取ります。

flights.selectExpr("air_time/60 as duration_hrs")

ここで使っているSQLの as キーワードは、.alias() メソッドと同等です。複数列を選択するには、複数の文字列を渡せます。

SparkSession の spark と、Spark DataFrame の flights は、すでにワークスペースに用意されています。

指示

100 XP

各フライトの平均速度を、2通りの方法で計算した表を作成します。

  • distance を air_time(時間に換算)で割って平均速度を計算します。.alias() メソッドを使って、この列名を "avg_speed" にしてください。出力は変数 avg_speed に保存します。
  • 列 "origin", "dest", "tailnum" と、avg_speed(クォートなし)を選択します。これを speed1 として保存します。
  • 同じ表を、.selectExpr() とSQL式を含む文字列を使って作成します。これを speed2 として保存します。