1. Learn
  2. /
  3. คอร์ส
  4. /
  5. PySparkで学ぶ特徴量エンジニアリング

Connected

แบบฝึกหัด

危険な結合

この演習では、緯度(Latitude)と経度(Longitude)で結合して、地域の歩きやすさを測る別のデータセットを取り込みます。結合に使う列のデータ型が同じであること、そして同じ精度(小数点以下の桁数)で結合していることを必ず確認しましょう。そうしないと結合はうまくいきません!

以下では、df['latitude'] と df['longitude'] の精度が walk_df['longitude'] と walk_df['latitude'] より高いことがわかります。結合を正しく行うため、同じ精度に丸める必要があります。

คำแนะนำ

100 XP
  • withColumn() で列を置き換えながら、walk_df['latitude'] と walk_df['longitude'] を cast('double') を使って double 型に変換します。
  • withColumn() と round('latitude', 5)、round('longitude', 5) を用いて、これらの列をその場で丸めます。
  • walk_df['latitude'] が df['latitude'] に一致し、walk_df['longitude'] が df['longitude'] に一致するという結合条件を作成します。
  • 上記の条件と left 結合タイプを使って join() で df と walk_df を結合し、結合後のデータフレームを join_df として保存します。