1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. PySpark入門

Connected

Bài tập

国勢調査データの読み込み

最初の PySpark の DataFrame を作成してみましょう。adult_reduced.csv には、さまざまな人口統計カテゴリに基づいてグループ化された成人のデータが入っています。これらのデータは米国国勢調査(US Census)を基に調整されたものです。合計で 32562 件の成人グループがあります。

まずは CSV を読み込み、生成されるスキーマを確認しましょう。

データディクショナリ:

Variable Description
age 個人の年齢
education_num 学位に基づく教育年数
marital_status 配偶関係の状態
occupation 職業
income 所得カテゴリ

Hướng dẫn

100 XP
  • spark.read.csv() メソッドを使って、"adult_reduced.csv" から PySpark の DataFrame を作成します。
  • 作成した DataFrame を表示します。