Corte de cordas
No exercício anterior, você conseguiu identificar o tipo de dados correto e converter user_birth_year
para o tipo correto, o que lhe permitiu extrair contagens que lhe deram um pouco mais de percepção do conjunto de dados.
Outro problema comum de dados sujos é ter bits extras, como sinais de porcentagem ou pontos nos números, fazendo com que eles sejam lidos como character
s. Para que você possa processar esses números, os bits extras precisam ser removidos e os números precisam ser convertidos de character
para numeric
. Neste exercício, você precisará converter a coluna duration
de character
para numeric
, mas, antes disso, a palavra "minutes"
precisa ser removida de cada valor.
dplyr
Você pode ver que assertive
e stringr
estão carregados e que bike_share_rides
está disponível.
Este exercício faz parte do curso
Limpeza de dados no R
Instruções de exercício
- Use
str_remove()
para remover"minutes"
da colunaduration
debike_share_rides
. Adicione isso como uma nova coluna chamadaduration_trimmed
. - Converta a coluna
duration_trimmed
em um tipo numérico e adicione-a como uma nova coluna chamadaduration_mins
. - Dê uma olhada em
bike_share_rides
e afirme que a colunaduration_mins
énumeric
. - Calcule a média de
duration_mins
.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
bike_share_rides <- bike_share_rides %>%
# Remove 'minutes' from duration: duration_trimmed
mutate(duration_trimmed = ___,
# Convert duration_trimmed to numeric: duration_mins
duration_mins = ___)
# Glimpse at bike_share_rides
___
# Assert duration_mins is numeric
___
# Calculate mean duration
___