1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Introduction to PySpark

Connected

cvičení

Načítání dat ze sčítání lidu

Pojďme vytvořit tvůj první PySpark DataFrame! Soubor adult_reduced.csv obsahuje skupiny dospělých osob rozdělených podle různých demografických kategorií. Data jsou upravena z amerického sčítání lidu a celkem obsahují 32 562 skupin.

Načteme CSV soubor a podíváme se na výsledné schéma.

Slovník dat:

Proměnná Popis
age Věk jedince
education_num Úroveň vzdělání podle stupně
marital_status Rodinný stav
occupation Povolání
income Kategorický příjem

Pokyny

100 XP
  • Vytvoř PySpark DataFrame ze souboru "adult_reduced.csv" pomocí metody spark.read.csv().
  • Zobraz výsledný DataFrame.