1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy PySpark

Connected

ćwiczenie

Wybieranie kolumn

Odpowiednikiem SQL-owego SELECT w Sparku jest metoda .select(). Przyjmuje ona wiele argumentów – po jednym dla każdej kolumny, którą chcesz wybrać. Argumenty mogą być podane jako nazwy kolumn w postaci ciągów znaków albo jako obiekty kolumn (z użyciem składni df.colName). Gdy przekazujesz obiekt kolumny, możesz wykonywać na niej operacje, takie jak dodawanie czy odejmowanie, zmieniając zawarte w niej dane – podobnie jak wewnątrz .withColumn().

Różnica między .select() a .withColumn() polega na tym, że .select() zwraca tylko wskazane kolumny, natomiast .withColumn() zwraca wszystkie kolumny DataFrame wraz z nowo zdefiniowaną. Zazwyczaj warto usunąć zbędne kolumny na początku pracy, żeby nie operować na nadmiarowych danych. W takim przypadku użyj .select() zamiast .withColumn().

Pamiętaj, że w twoim środowisku pracy dostępna jest już sesja SparkSession o nazwie spark oraz Spark DataFrame flights.

Instrukcje

100 XP
  • Wybierz kolumny "tailnum", "origin" i "dest" z DataFrame flights, przekazując nazwy kolumn jako ciągi znaków. Zapisz wynik jako selected1.
  • Wybierz kolumny "origin", "dest" i "carrier" za pomocą składni df.colName, a następnie przefiltruj wynik, używając obu już zdefiniowanych filtrów (filterA i filterB), tak aby zachować tylko loty z SEA do PDX. Zapisz wynik jako selected2.