1. Learn
  2. /
  3. Courses
  4. /
  5. PySpark로 데이터 정제하기

Connected

Exercise

개 정보 파싱

초기 데이터셋에 대해 상당한 정리를 마쳤지만, 이제 데이터를 좀 더 깊게 분석해야 해요. 이미지에 등장한 개의 종류와 이미지와 관련된 몇 가지 세부 정보에 대한 질문이 생겼습니다. 이 질문에 답하려면 데이터를 특정 타입으로 처리해야 한다는 것을 깨닫게 되었어요. 사용하기 전에, 개의 세부 정보를 표현할 스키마/타입을 만들어야 합니다.

joined_df DataFrame은 마지막에 정의한 상태 그대로이고, pyspark.sql.types는 모두 임포트되어 있습니다.

Instructions

100 XP
  • DataFrame에서 개의 세부 정보를 나타내는 컬럼을 선택하고, 앞의 10개 행을 잘림 없이 보여 주세요.
  • 이전과 같이 새로운 스키마를 만들되, 이름은 breed, start_x, start_y, end_x, end_y로 사용하세요. 스키마의 각 필드에 올바른 데이터 타입을 지정하세요(숫자 값은 모두 정수).