1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do PySpark

Connected

ćwiczenie

Uruchamianie zapytań SQL na DataFrames

W PySpark można łatwo manipulować DataFrames za pomocą zapytań SQL. Metoda .sql() obiektu SparkSession umożliwia programowe wykonywanie zapytań SQL i zwraca wynik jako nowy DataFrame. W tym ćwiczeniu utworzysz tymczasową tabelę z wcześniej przygotowanego DataFrame, a następnie skomponujesz zapytanie wybierające imiona osób z tej tabeli i przypiszesz wynik do nowego DataFrame.

Pamiętaj, że w środowisku roboczym masz już dostępną sesję SparkSession spark oraz DataFrame df.

Instrukcje

100 XP
  • Utwórz tymczasową tabelę o nazwie "people" z DataFrame df.
  • Skomponuj zapytanie wybierające imiona osób z tymczasowej tabeli people.
  • Przypisz wynik zapytania Spark do nowego DataFrame o nazwie people_df_names.
  • Wyświetl 10 pierwszych imion z DataFrame people_df_names.