1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy Big Data z PySpark

Connected

ćwiczenie

Wczytywanie pliku CSV do DataFrame

W poprzednim ćwiczeniu poznałeś metodę tworzenia DataFrame z RDD. Zazwyczaj jednak najczęściej stosowanym sposobem tworzenia DataFrame jest wczytywanie danych z pliku CSV. W tym ćwiczeniu utworzysz PySpark DataFrame z pliku people.csv, który jest już dostępny w postaci zmiennej file_path, a następnie potwierdzisz, że utworzony obiekt jest PySpark DataFrame.

Pamiętaj, że w swoim środowisku masz już dostępną sesję SparkSession spark oraz zmienną file_path (ścieżkę do pliku people.csv).

Instrukcje

100 XP
  • Utwórz DataFrame ze zmiennej file_path, która wskazuje ścieżkę do pliku people.csv.
  • Potwierdź, że wynik jest obiektem PySpark DataFrame.