1. 学ぶ
  2. /
  3. コース
  4. /
  5. Machine Learning with PySpark

Connected

演習

SMSスパムデータの読み込み

これまでに、データから直接データ型を推論できることを見てきました。ですが、列の型を自分でコントロールできたほうが便利な場面もあります。その場合は、明示的なスキーマを定義します。

ファイル sms.csv には、'spam' または 'ham' に分類されたSMSメッセージの一部が含まれています。これらのデータは UCI Machine Learning Repository を基にしています。SMSは合計5574件で、そのうち747件がスパムとラベル付けされています。

CSV形式の注意点:

  • ヘッダー行はありません
  • フィールドはセミコロンで区切られています(これはデフォルトの区切り文字ではありません)。

データディクショナリ:

  • id — レコード識別子
  • text — SMSメッセージの本文
  • label — spam か ham(整数; 0 = ham、1 = spam)

指示

100 XP
  • 列名("id"、"text"、"label")と列の型を指定して、データスキーマを定義してください。
  • 区切り付きファイル "sms.csv" からデータを読み込みます。
  • 生成されたDataFrameのスキーマを出力してください。