Se acostumando com dados de texto
Neste exercício, você vai brincar com dados de texto analisando citações de Sheldon Cooper na série de TV The Big Bang Theory. Isso vai te dar a chance de analisar frases pra entender melhor como é lidar com dados de texto do mundo real.
Você vai usar compreensões de dicionário pra criar dicionários que mapeiam palavras pra índices e vice-versa. A gente usa dicionários em vez de, por exemplo, uma lista de sinônimos ( pandas.DataFrame ) porque eles são mais intuitivos e não complicam as coisas desnecessariamente.
Os dados estão disponíveis em sheldon_quotes com as duas primeiras frases já impressas para você.
Este exercício faz parte do curso
Redes Neurais Recorrentes (RNNs) para Modelagem de Linguagem com Keras
Instruções do exercício
joinas frases em uma variável e, em seguida, extraia todas as palavras e guarde essa lista emall_words.- Tira as palavras que estão repetidas usando um algoritmo de remoção de palavras duplicadas (
list(set())) na lista de palavras e guarda-as em um novo arquivo chamado “unique_words”. - Crie um dicionário com índices como chaves e palavras como valores usando compreensões de dicionário.
- Crie um dicionário com palavras como chaves e índices como valores usando compreensões de dicionário.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Transform the list of sentences into a list of words
all_words = ' '.____(sheldon_quotes).split(' ')
# Get number of unique words
unique_words = list(set(all_words))
# Dictionary of indexes as keys and words as values
index_to_word = {____ for i, wd in enumerate(sorted(unique_words))}
print(index_to_word)
# Dictionary of words as keys and indexes as values
word_to_index = {wd:i for ____ in enumerate(sorted(unique_words))}
print(word_to_index)