1. Learn
  2. /
  3. Courses
  4. /
  5. PySpark入門

Connected

Exercise

列の選択

SQL の SELECT に相当する Spark のメソッドは .select() です。このメソッドは複数の引数を取り、選択したい列ごとに 1 つずつ指定します。引数には、列名を文字列で渡す方法(列ごとに 1 つの文字列)と、df.colName 構文を使って列オブジェクトを渡す方法があります。列オブジェクトを渡すと、.withColumn() 内と同様に、その列に対して加算や減算などの演算を行い、含まれるデータを変更できます。

.select() と .withColumn() の違いは、.select() は指定した列だけを返すのに対して、.withColumn() は定義した列に加えて DataFrame のすべての列を返す点です。データの前処理では、不要な列を最初に落としておくと、その後の操作で余分なデータを抱えずに済むので効率的です。この場合は .withColumn() ではなく .select() を使います。

ワークスペースには、すでに spark という SparkSession と、Spark DataFrame の flights が用意されています。

Instructions

100 XP
  • 列名を文字列で渡して、flights から "tailnum"、"origin"、"dest" 列を選択し、selected1 として保存してください。
  • df.colName 構文を使って "origin"、"dest"、"carrier" 列を選択し、用意されている 2 つのフィルタ(filterA と filterB)を両方適用して、SEA 発 PDX 行きのフライトだけに絞り込み、selected2 として保存してください。