さらにパースする

このデータセットは最初の形式から大きく形を変えられましたが、まだやるべきことがいくつか残っています。後続の分析で使えるようにカラムのデータを整え、中間的なカラムをいくつか削除する必要があります。

spark コンテキストは利用可能で、pyspark.sql.functions は F としてエイリアスされています。pyspark.sql.types の型はすでにインポート済みです。split_df DataFrame は前の状態のままです。コンソール領域で DataFrame に対して .printSchema() を使うと、カラム名と型を確認できます。

⚠️ 注意: AttributeError が表示された場合は、演習をリフレッシュして、コードを実行する を押さずに Run Solution をクリックしてください。