1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do PySpark

Connected

ćwiczenie

Łączymy wszystko w całość – część I

Masz już solidne podstawy w PySparku – poznałeś/-aś jego kluczowe komponenty i przećwiczyłeś/-aś praktyczne scenariusze z użyciem Spark SQL, DataFrames oraz zaawansowanych operacji. Czas połączyć tę wiedzę w całość. W kolejnych dwóch ćwiczeniach utworzysz SparkSession i DataFrame, zapiszesz ten DataFrame w pamięci podręcznej (cache), przeprowadzisz analizę danych i wyjaśnisz jej wyniki!

Instrukcje

100 XP
  • Zaimportuj SparkSession z pyspark.sql.
  • Utwórz nową SparkSession o nazwie final_spark, używając SparkSession.builder.getOrCreate().
  • Wyświetl my_spark w konsoli, aby potwierdzić, że to SparkSession.
  • Utwórz nowy DataFrame na podstawie wczytanego wcześniej schematu i definicji kolumn.