1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w PySpark

Connected

ćwiczenie

Definiowanie schematu

Zdefiniowanie schematu poprawia jakość danych i wydajność ich wczytywania. Jak omówiono w lekcji, stworzymy prosty schemat do odczytu następujących kolumn:

  • Name
  • Age
  • City

Kolumny Name i City są typu StringType(), a kolumna Age jest typu IntegerType().

Instrukcje

100 XP
  • Zaimportuj * z biblioteki pyspark.sql.types.
  • Zdefiniuj nowy schemat za pomocą metody StructType.
  • Zdefiniuj StructField dla pól name, age i city. Każde pole powinno odpowiadać właściwemu typowi danych i nie powinno dopuszczać wartości nullable.