1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy Big Data z PySpark

Connected

ćwiczenie

Część 1: Tworzenie DataFrame z pliku CSV

Co cztery lata kibice piłki nożnej na całym świecie świętują Mistrzostwa Świata FIFA – wydarzenie, które w wielu krajach odmienia rzeczywistość dosłownie w każdym wymiarze. W tym ćwiczeniu składającym się z 3 części przeprowadzisz podstawową eksplorację danych (EDA) na zbiorze „FIFA 2018 World Cup Player" przy użyciu PySpark SQL – z wykorzystaniem operacji na DataFrame, zapytań SQL i wizualizacji.

W pierwszej części wczytasz zbiór danych zawodników Mistrzostw Świata FIFA 2018 (Fifa2018_dataset.csv) w formacie CSV do DataFrame PySpark, a następnie zapoznasz się z danymi za pomocą podstawowych operacji na DataFrame.

Pamiętaj, że w swoim środowisku masz już dostępną sesję SparkSession spark oraz zmienną file_path.

Instrukcje

100 XP
  • Utwórz DataFrame PySpark na podstawie file_path (ścieżki do pliku Fifa2018_dataset.csv).
  • Wyświetl schemat DataFrame.
  • Wyświetl pierwsze 10 obserwacji.
  • Ile wierszy zawiera DataFrame?