1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu với PySpark

Connected

Bài tập

Định nghĩa một schema

Tạo một schema được xác định trước giúp cải thiện chất lượng dữ liệu và hiệu năng nhập liệu. Như đã đề cập trong bài học, bạn sẽ tạo một schema đơn giản để đọc các cột sau:

  • Name
  • Age
  • City

Các cột Name và City có kiểu StringType() và cột Age có kiểu IntegerType().

Hướng dẫn

100 XP
  • Import * từ thư viện pyspark.sql.types.
  • Định nghĩa một schema mới bằng phương thức StructType.
  • Định nghĩa StructField cho name, age, và city. Mỗi trường phải đúng kiểu dữ liệu tương ứng và không được nullable.