Tf-idf
Embora contagens de ocorrências de palavras sejam úteis para construir modelos, palavras que aparecem muitas vezes podem distorcer os resultados de forma indesejada. Para evitar que essas palavras comuns dominem seu modelo, pode-se usar uma forma de normalização. Nesta lição, você usará a medida Term frequency-inverse document frequency (Tf-idf), como discutido no vídeo. O Tf-idf reduz o valor de palavras muito comuns e aumenta o peso de palavras que aparecem em poucos documentos.
Este exercício faz parte do curso
Feature Engineering for Machine Learning in Python
Instruções do exercício
- Importe
TfidfVectorizerdesklearn.feature_extraction.text. - Instancie
TfidfVectorizerlimitando o número de features a 100 e removendo as stop words em inglês. - Ajuste e aplique o vetorizador na coluna
text_cleanem uma única etapa. - Crie um DataFrame
tv_dfcontendo os pesos das palavras e use os nomes das features como nomes das colunas.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import TfidfVectorizer
____
# Instantiate TfidfVectorizer
tv = ____
# Fit the vectroizer and transform the data
tv_transformed = ____(speech_df['text_clean'])
# Create a DataFrame with these features
tv_df = pd.DataFrame(tv_transformed.____,
columns=tv.____).add_prefix('TFIDF_')
print(tv_df.head())