Corte de cordas
No exercício anterior, você conseguiu identificar o tipo de dados correto e converter user_birth_year para o tipo correto, o que lhe permitiu extrair contagens que lhe deram um pouco mais de percepção do conjunto de dados.
Outro problema comum de dados sujos é ter bits extras, como sinais de porcentagem ou pontos nos números, fazendo com que eles sejam lidos como characters. Para que você possa processar esses números, os bits extras precisam ser removidos e os números precisam ser convertidos de character para numeric. Neste exercício, você precisará converter a coluna duration de character para numeric, mas, antes disso, a palavra "minutes" precisa ser removida de cada valor.
dplyrVocê pode ver que assertive e stringr estão carregados e que bike_share_rides está disponível.
Este exercício faz parte do curso
Limpeza de dados no R
Instruções do exercício
- Use
str_remove()para remover"minutes"da colunadurationdebike_share_rides. Adicione isso como uma nova coluna chamadaduration_trimmed. - Converta a coluna
duration_trimmedem um tipo numérico e adicione-a como uma nova coluna chamadaduration_mins. - Dê uma olhada em
bike_share_ridese afirme que a colunaduration_minsénumeric. - Calcule a média de
duration_mins.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
bike_share_rides <- bike_share_rides %>%
# Remove 'minutes' from duration: duration_trimmed
mutate(duration_trimmed = ___,
# Convert duration_trimmed to numeric: duration_mins
duration_mins = ___)
# Glimpse at bike_share_rides
___
# Assert duration_mins is numeric
___
# Calculate mean duration
___