Limpando TED Talks em um dataframe
Neste exercício, vamos revisitar as TED Talks do primeiro capítulo. Você recebeu um dataframe ted composto por 5 TED Talks. Sua tarefa é limpar essas talks usando as técnicas discutidas anteriormente, escrevendo uma função preprocess e aplicando-a ao atributo transcript do dataframe.
A lista de stopwords está disponível como stopwords.
Este exercício faz parte do curso
Feature Engineering para NLP em Python
Instruções do exercício
- Gere o objeto Doc para
text. Ignore o argumentodisablepor enquanto. - Gere os lemas usando list comprehension com o atributo
lemma_. - Remova caracteres não alfabéticos usando
isalpha()na condição do if.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Function to preprocess text
def preprocess(text):
# Create Doc object
doc = nlp(____, disable=['ner', 'parser'])
# Generate lemmas
lemmas = [token.____ for token in doc]
# Remove stopwords and non-alphabetic characters
a_lemmas = [lemma for lemma in lemmas
if lemma.____ and lemma not in stopwords]
return ' '.join(a_lemmas)
# Apply preprocess to ted['transcript']
ted['transcript'] = ted['transcript'].apply(____)
print(ted['transcript'])