1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Foundations of PySpark

Connected

Cvičení

Výběr sloupců

Sparkový ekvivalent SQL příkazu SELECT je metoda .select(). Přijímá více argumentů – jeden pro každý sloupec, který chceš vybrat. Argumenty mohou být buď název sloupce jako řetězec, nebo objekt sloupce (syntaxí df.colName). Při předání objektu sloupce můžeš provádět operace jako sčítání nebo odčítání, čímž upravíš data v daném sloupci – podobně jako uvnitř .withColumn().

Rozdíl mezi metodami .select() a .withColumn() spočívá v tom, že .select() vrátí pouze sloupce, které zadáš, zatímco .withColumn() vrátí všechny sloupce DataFrame spolu s nově definovaným sloupcem. Obvykle se vyplatí zbytečné sloupce odebrat hned na začátku, aby ses při zpracování dat nevláčel/a s nadbytečnými informacemi. V takovém případě použiješ .select(), ne .withColumn().

Pamatuj, že v pracovním prostředí máš k dispozici SparkSession s názvem spark i Spark DataFrame flights.

Pokyny

100 XP
  • Z DataFrame flights vyber sloupce "tailnum", "origin" a "dest" tak, že předáš názvy sloupců jako řetězce. Výsledek ulož do proměnné selected1.
  • Vyber sloupce "origin", "dest" a "carrier" pomocí syntaxe df.colName a výsledek filtruj oběma filtry, které jsou pro tebe už připraveny (filterA a filterB), aby zůstaly pouze lety z SEA do PDX. Výsledek ulož do proměnné selected2.