1. Learn
  2. /
  3. Cursuri
  4. /
  5. Introducere în PySpark

Connected

exercițiu

Rularea SQL pe DataFrame-uri

DataFrame-urile pot fi manipulate cu ușurință folosind interogări SQL în PySpark. Metoda .sql() dintr-un SparkSession permite aplicațiilor să ruleze interogări SQL în mod programatic și returnează rezultatul ca un nou DataFrame. În acest exercițiu, vei crea un tabel temporar dintr-un DataFrame creat anterior, vei construi o interogare pentru a selecta numele persoanelor din acel tabel temporar și vei atribui rezultatul unui nou DataFrame.

Reține că ai deja un SparkSession spark și un DataFrame df disponibile în spațiul tău de lucru.

Instrucțiuni

100 XP
  • Creează un tabel temporar numit "people" din DataFrame-ul df.
  • Construiește o interogare pentru a selecta numele persoanelor din tabelul temporar people.
  • Atribuie rezultatul interogării Spark unui nou DataFrame numit people_df_names.
  • Afișează primele 10 nume din DataFrame-ul people_df_names.