1. เรียนรู้
  2. /
  3. Courses
  4. /
  5. R로 데이터 정리하기

Connected

Exercises

문자열 다듬기

이전 연습 문제에서는 올바른 데이터 형식을 파악하고 user_birth_year를 적절한 형식으로 변환해, 데이터셋에 대해 조금 더 통찰을 줄 수 있는 집계를 추출했어요.

또 다른 흔한 더러운 데이터 문제는 숫자에 퍼센트 기호나 마침표 같은 불필요한 문자가 섞여 들어가 character로 읽히는 경우예요. 이런 숫자를 제대로 계산하려면, 불필요한 문자를 제거하고 character에서 numeric으로 변환해야 해요. 이번 연습에서는 duration 열을 character에서 numeric으로 변환해야 하는데, 그전에 각 값에서 "minutes"라는 단어를 먼저 제거해야 해요.

dplyr, assertive, stringr가 로드되어 있고 bike_share_rides를 사용할 수 있어요.

คำแนะนำ

100 XP
  • str_remove()를 사용해 bike_share_rides의 duration 열에서 "minutes"를 제거하세요. 결과는 duration_trimmed라는 새 열로 추가하세요.
  • duration_trimmed 열을 numeric 형식으로 변환해 duration_mins라는 새 열로 추가하세요.
  • bike_share_rides를 훑어 보고(glimpse) duration_mins 열이 numeric인지 확인(assert)하세요.
  • duration_mins의 평균을 계산하세요.