1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nền tảng Big Data với PySpark

Connected

Bài tập

Phần 1: Tạo DataFrame từ tệp CSV

Cứ 4 năm một lần, người hâm mộ bóng đá trên khắp thế giới lại đón lễ hội mang tên “Fifa World Cup”, và theo đó, mọi thứ dường như thay đổi ở nhiều quốc gia. Trong bài tập gồm 3 phần này, bạn sẽ thực hiện exploratory data analysis (EDA) trên tập dữ liệu "FIFA 2018 World Cup Player" bằng PySpark SQL, bao gồm các thao tác với DataFrame, truy vấn SQL và trực quan hóa.

Ở phần đầu, bạn sẽ nạp tập dữ liệu FIFA 2018 World Cup Players (Fifa2018_dataset.csv) ở định dạng CSV vào một DataFrame của PySpark và khám phá dữ liệu bằng các thao tác DataFrame cơ bản.

Lưu ý, bạn đã có sẵn SparkSession spark và biến file_path trong không gian làm việc của mình.

Hướng dẫn

100 XP
  • Tạo một PySpark DataFrame từ file_path (đường dẫn đến tệp Fifa2018_dataset.csv).
  • In schema của DataFrame.
  • In 10 quan sát đầu tiên.
  • Trong DataFrame có bao nhiêu hàng?