1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy Big Data z PySpark

Connected

ćwiczenie

Programowe wykonywanie zapytań SQL

W PySpark można łatwo operować na DataFrame za pomocą zapytań SQL. Funkcja sql() w SparkSession umożliwia programowe wykonywanie zapytań SQL i zwraca wynik jako nowy DataFrame. W tym ćwiczeniu utworzysz tymczasową tabelę z DataFrame, który powstał wcześniej, a następnie skonstruujesz zapytanie wybierające imiona osób z tej tabeli i przypiszesz wynik do nowego DataFrame.

Pamiętaj, że w swoim środowisku masz już dostępne SparkSession spark oraz DataFrame.

Instrukcje

100 XP
  • Utwórz tymczasową tabelę people.
  • Skonstruuj zapytanie query, które wybiera imiona osób z tymczasowej tabeli people.
  • Przypisz wynik zapytania query Sparka do nowego DataFrame o nazwie people_df_names.
  • Wyświetl 10 pierwszych imion z DataFrame people_df_names.