Bez pośredników

Wiesz już, jak wczytywać dane do Sparka za pomocą pandas, ale pewnie zastanawiasz się, po co w ogóle korzystać z pandas? Czy nie byłoby prościej wczytać plik tekstowy bezpośrednio do Sparka? Oczywiście, że tak!

Na szczęście obiekt SparkSession ma atrybut .read, który oferuje kilka metod do wczytywania danych z różnych źródeł do Spark DataFrames. Dzięki nim możesz utworzyć DataFrame z pliku .csv – dokładnie tak jak w przypadku zwykłych DataFrames w pandas!

Zmienna file_path zawiera ścieżkę do pliku airports.csv. Plik ten zawiera informacje o różnych lotniskach na całym świecie.

W obszarze roboczym dostępna jest sesja SparkSession o nazwie spark.

Użyj metody .read.csv(), aby utworzyć Spark DataFrame o nazwie airports.
- Pierwszym argumentem jest file_path.
- Przekaż argument header=True, aby Spark wiedział, że nazwy kolumn należy pobrać z pierwszego wiersza pliku.
Wyświetl ten DataFrame, wywołując metodę .show().

ćwiczenie

Bez pośredników

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie