1. 学ぶ
  2. /
  3. コース
  4. /
  5. Podstawy Big Data z PySpark

Connected

演習

Część 2: Zapytania SQL na DataFrame

DataFrame fifa_df, który wcześniej utworzyliśmy, zawiera dodatkowe informacje o typach danych i nazwach kolumn. Dzięki temu PySpark SQL może uruchamiać zapytania SQL bezpośrednio na DataFrame. Zapytania SQL są zwięzłe i wygodne w użyciu – często prostsze niż operacje na DataFrame. Żeby jednak zastosować zapytania SQL na DataFrame, najpierw musisz utworzyć tymczasowy widok DataFrame jako tabelę, a następnie wykonać zapytania na tej tabeli (tzw. programowe uruchamianie zapytań SQL).

W tej drugiej części utworzysz tymczasową tabelę z DataFrame fifa_df i uruchomisz zapytania SQL, aby wyodrębnić kolumnę 'Age' dla piłkarzy z Niemiec.

W swoim środowisku pracy masz już dostępny SparkContext spark oraz DataFrame fifa_df.

指示

100 XP
  • Utwórz tymczasową tabelę fifa_df_table z DataFrame fifa_df.
  • Skonstruuj zapytanie "query", które wyodrębni kolumnę „Age" dla piłkarzy z Niemiec z tabeli fifa_df_table.
  • Zastosuj zapytanie SQL "query" i utwórz nowy DataFrame fifa_df_germany_age.
  • Oblicz podstawowe statystyki utworzonego DataFrame.