1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Cleaning Data with PySpark

Connected

cvičení

Definování schématu

Definované schéma pomáhá zajistit kvalitu dat a zrychlit jejich načítání. Jak jsme si ukázali v lekci, vytvoříme jednoduché schéma pro načtení následujících sloupců:

  • Name
  • Age
  • City

Sloupce Name a City jsou typu StringType() a sloupec Age je typu IntegerType().

Pokyny

100 XP
  • Importuj * z knihovny pyspark.sql.types.
  • Definuj nové schéma pomocí metody StructType.
  • Definuj StructField pro name, age a city. Každé pole by mělo odpovídat správnému datovému typu a nesmí být nullable.