ComeçarComece de graça

Limpando TED Talks em um dataframe

Neste exercício, vamos revisitar as TED Talks do primeiro capítulo. Você recebeu um dataframe ted composto por 5 TED Talks. Sua tarefa é limpar essas talks usando as técnicas discutidas anteriormente, escrevendo uma função preprocess e aplicando-a ao atributo transcript do dataframe.

A lista de stopwords está disponível como stopwords.

Este exercício faz parte do curso

Feature Engineering para NLP em Python

Ver curso

Instruções do exercício

  • Gere o objeto Doc para text. Ignore o argumento disable por enquanto.
  • Gere os lemas usando list comprehension com o atributo lemma_.
  • Remova caracteres não alfabéticos usando isalpha() na condição do if.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Function to preprocess text
def preprocess(text):
  	# Create Doc object
    doc = nlp(____, disable=['ner', 'parser'])
    # Generate lemmas
    lemmas = [token.____ for token in doc]
    # Remove stopwords and non-alphabetic characters
    a_lemmas = [lemma for lemma in lemmas 
            if lemma.____ and lemma not in stopwords]
    
    return ' '.join(a_lemmas)
  
# Apply preprocess to ted['transcript']
ted['transcript'] = ted['transcript'].apply(____)
print(ted['transcript'])
Editar e executar o código