ComeçarComece gratuitamente

Extração de padrões de string

A coluna Length no conjunto de dados hiking é uma coluna de cadeias de caracteres, mas nela está contida a quilometragem da caminhada. Vamos extrair essa milhagem usando expressões regulares e, em seguida, usar um lambda no pandas para aplicar a extração ao DataFrame.

Este exercício faz parte do curso

Pré-processamento para aprendizado de máquina em Python

Ver Curso

Instruções de exercício

  • Procure números e decimais no texto do argumento length usando um padrão apropriado.
  • Extraia o padrão correspondente e converta-o em um float.
  • Aplique a função return_mileage() a cada linha da coluna hiking["Length"].

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Write a pattern to extract numbers and decimals
def return_mileage(length):
    
    # Search the text for matches
    mile = re.____(____, ____)
    
    # If a value is returned, use group(0) to return the found value
    if mile is not None:
        return float(____)
        
# Apply the function to the Length column and take a look at both columns
hiking["Length_num"] = ____.apply(____)
print(hiking[["Length", "Length_num"]].head())
Editar e executar código