1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Foundations of PySpark

Connected

Cvičení

Bez zbytečných mezikroků

Teď už víš, jak dostat data do Sparku přes pandas – ale možná tě napadá otázka, proč pandas vůbec používat? Nebylo by jednodušší načíst textový soubor přímo do Sparku? Jasně, že ano!

Naštěstí má tvůj SparkSession atribut .read, který nabízí několik metod pro načítání různých datových zdrojů do Spark DataFrames. Pomocí nich můžeš vytvořit DataFrame ze souboru .csv úplně stejně jako s běžnými pandas DataFrames!

Proměnná file_path je řetězec s cestou k souboru airports.csv. Tento soubor obsahuje informace o různých letištích po celém světě.

V tvém pracovním prostředí je k dispozici SparkSession s názvem spark.

Pokyny

100 XP
  • Pomocí metody .read.csv() vytvoř Spark DataFrame s názvem airports
    • Prvním argumentem je file_path
    • Předej argument header=True, aby Spark věděl, že má vzít názvy sloupců z prvního řádku souboru.
  • Vypiš tento DataFrame zavoláním .show().