1. Учиться
  2. /
  3. Courses
  4. /
  5. PySpark でデータをクレンジングする

Connected

Exercise

スキーマを定義する

スキーマを明示的に定義すると、データ品質の向上とインポートのパフォーマンス改善につながります。レッスンで説明したとおり、次の列を読み込むためのシンプルなスキーマを作成します。

  • Name
  • Age
  • City

Name と City 列は StringType()、Age 列は IntegerType() です。

Инструкции

100 XP
  • pyspark.sql.types ライブラリから * をインポートします。
  • StructType メソッドを使って新しいスキーマを定義します。
  • name、age、city 用に StructField を定義します。各フィールドは正しいデータ型に対応し、nullable ではないようにします。