ComeçarComece de graça

Extraindo padrões de strings

A coluna Length no conjunto de dados hiking é uma coluna de strings, mas ela contém a quilometragem da trilha. Vamos extrair essa quilometragem usando expressões regulares e, em seguida, usar uma lambda no pandas para aplicar a extração ao DataFrame.

Este exercício faz parte do curso

Pré-processamento para Machine Learning em Python

Ver curso

Instruções do exercício

  • Procure no texto do argumento length por números e decimais usando um padrão apropriado.
  • Extraia o padrão correspondente e converta-o em float.
  • Aplique a função return_mileage() a cada linha da coluna hiking["Length"].

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Write a pattern to extract numbers and decimals
def return_mileage(length):
    
    # Search the text for matches
    mile = re.____(____, ____)
    
    # If a value is returned, use group(0) to return the found value
    if mile is not None:
        return float(____)
        
# Apply the function to the Length column and take a look at both columns
hiking["Length_num"] = ____.apply(____)
print(hiking[["Length", "Length_num"]].head())
Editar e executar o código