Extração de padrões de string
A coluna Length
no conjunto de dados hiking
é uma coluna de cadeias de caracteres, mas nela está contida a quilometragem da caminhada. Vamos extrair essa milhagem usando expressões regulares e, em seguida, usar um lambda no pandas para aplicar a extração ao DataFrame.
Este exercício faz parte do curso
Pré-processamento para aprendizado de máquina em Python
Instruções de exercício
- Procure números e decimais no texto do argumento
length
usando um padrão apropriado. - Extraia o padrão correspondente e converta-o em um float.
- Aplique a função
return_mileage()
a cada linha da colunahiking["Length"]
.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Write a pattern to extract numbers and decimals
def return_mileage(length):
# Search the text for matches
mile = re.____(____, ____)
# If a value is returned, use group(0) to return the found value
if mile is not None:
return float(____)
# Apply the function to the Length column and take a look at both columns
hiking["Length_num"] = ____.apply(____)
print(hiking[["Length", "Length_num"]].head())