Extração de números de cadeias de caracteres
O campo length_of_time
no conjunto de dados UFO é um campo de texto que tem o número de minutos dentro da cadeia. Aqui, você extrairá esse número do campo de texto usando expressões regulares.
Este exercício faz parte do curso
Pré-processamento para aprendizado de máquina em Python
Instruções de exercício
- Pesquise números no site
time_string
usando um padrão RegEx apropriado. - Use o método
.apply()
para chamar oreturn_minutes()
em cada linha da colunalength_of_time
. - Imprima o endereço
.head()
das colunaslength_of_time
eminutes
para que você possa comparar.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
def return_minutes(time_string):
# Search for numbers in time_string
num = re.____(____, ____)
if num is not None:
return int(num.group(0))
# Apply the extraction to the length_of_time column
ufo["minutes"] = ufo["length_of_time"].____
# Take a look at the head of both of the columns
print(ufo[[____]].head())