1. Learn
  2. /
  3. Cursuri
  4. /
  5. Introducere în PySpark

Connected

exercițiu

Definirea schemei

Am încărcat scheme în mai multe moduri până acum. Hai să definim o schemă direct. Vom folosi un dicționar de date:

Variabilă Descriere
age Vârsta persoanei
education_num Nivelul de educație
marital_status Starea civilă
occupation Ocupația
income Venitul (categorial)

Instrucțiuni

100 XP
  • Specifică schema de date, indicând numele coloanelor (age, education_num, marital_status, occupation și income) și tipurile acestora, setând o virgulă pentru argumentul sep=.
  • Citește datele dintr-un fișier delimitat prin virgulă numit adult_reduced_100.csv.
  • Afișează schema DataFrame-ului rezultat.