ComeçarComece gratuitamente

Explorando vetores de texto, parte 2

Usando a função return_weights() que você escreveu no exercício anterior, você agora extrairá as principais palavras de cada documento no vetor de texto, retornará uma lista dos índices de palavras e usará essa lista para filtrar o vetor de texto até essas palavras principais.

Este exercício faz parte do curso

Pré-processamento para aprendizado de máquina em Python

Ver Curso

Instruções de exercício

  • Chame return_weights() para retornar as palavras com maior peso para esse documento.
  • Ligue para set() no filter_list retornado para remover números duplicados.
  • Chame words_to_filter, passando os seguintes parâmetros: vocab para o parâmetro vocab, tfidf_vec.vocabulary_ para o parâmetro original_vocab, text_tfidf para o parâmetro vector e 3 para obter as top_n 3 palavras ponderadas de cada documento.
  • Por fim, passe esse conjunto filtered_words para uma lista a ser usada como um filtro para o vetor de texto.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

def words_to_filter(vocab, original_vocab, vector, top_n):
    filter_list = []
    for i in range(0, vector.shape[0]):
    
        # Call the return_weights function and extend filter_list
        filtered = ____(vocab, original_vocab, vector, i, top_n)
        filter_list.extend(filtered)
        
    # Return the list in a set, so we don't get duplicate word indices
    return ____(filter_list)

# Call the function to get the list of word indices
filtered_words = ____(____, ____, ____, ____)

# Filter the columns in text_tfidf to only those in filtered_words
filtered_text = text_tfidf[:, list(____)]
Editar e executar código