1. Learn
  2. /
  3. Cursuri
  4. /
  5. Wprowadzenie do PySpark

Connected

exercițiu

Wczytywanie danych spisowych

Zacznijmy od stworzenia pierwszego DataFrame'a w PySparku! Plik adult_reduced.csv zawiera dane dotyczące dorosłych, pogrupowane według różnych kategorii demograficznych. Dane zostały opracowane na podstawie spisu powszechnego USA i obejmują łącznie 32 562 rekordów.

Wczytaj plik CSV i sprawdź wynikowy schemat danych.

Słownik danych:

Zmienna Opis
age Wiek osoby
education_num Poziom wykształcenia
marital_status Stan cywilny
occupation Zawód
income Kategoria dochodów

Instrucțiuni

100 XP
  • Utwórz DataFrame PySpark z pliku "adult_reduced.csv", używając metody spark.read.csv().
  • Wyświetl wynikowy DataFrame.