1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy PySpark

Connected

ćwiczenie

Bez pośredników

Wiesz już, jak wczytywać dane do Sparka za pomocą pandas, ale pewnie zastanawiasz się, po co w ogóle korzystać z pandas? Czy nie byłoby prościej wczytać plik tekstowy bezpośrednio do Sparka? Oczywiście, że tak!

Na szczęście obiekt SparkSession ma atrybut .read, który oferuje kilka metod do wczytywania danych z różnych źródeł do Spark DataFrames. Dzięki nim możesz utworzyć DataFrame z pliku .csv – dokładnie tak jak w przypadku zwykłych DataFrames w pandas!

Zmienna file_path zawiera ścieżkę do pliku airports.csv. Plik ten zawiera informacje o różnych lotniskach na całym świecie.

W obszarze roboczym dostępna jest sesja SparkSession o nazwie spark.

Instrukcje

100 XP
  • Użyj metody .read.csv(), aby utworzyć Spark DataFrame o nazwie airports.
    • Pierwszym argumentem jest file_path.
    • Przekaż argument header=True, aby Spark wiedział, że nazwy kolumn należy pobrać z pierwszego wiersza pliku.
  • Wyświetl ten DataFrame, wywołując metodę .show().