Extraindo padrões de strings
A coluna Length no conjunto de dados hiking é uma coluna de strings, mas ela contém a quilometragem da trilha. Vamos extrair essa quilometragem usando expressões regulares e, em seguida, usar uma lambda no pandas para aplicar a extração ao DataFrame.
Este exercício faz parte do curso
Pré-processamento para Machine Learning em Python
Instruções do exercício
- Procure no texto do argumento
lengthpor números e decimais usando um padrão apropriado. - Extraia o padrão correspondente e converta-o em float.
- Aplique a função
return_mileage()a cada linha da colunahiking["Length"].
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Write a pattern to extract numbers and decimals
def return_mileage(length):
# Search the text for matches
mile = re.____(____, ____)
# If a value is returned, use group(0) to return the found value
if mile is not None:
return float(____)
# Apply the function to the Length column and take a look at both columns
hiking["Length_num"] = ____.apply(____)
print(hiking[["Length", "Length_num"]].head())