Acostumbrarse a los datos de texto
En este ejercicio, jugarás con datos de texto analizando citas de Sheldon Cooper en la serie de televisión The Big Bang Theory. Esto te dará la oportunidad de analizar frases para obtener información sobre cómo es trabajar con datos de texto del mundo real.
Utilizarás comprensiones de diccionario para crear diccionarios que asignan palabras a índices y viceversa. El uso de diccionarios en lugar de, por ejemplo, un « pandas.DataFrame » se debe a que son más intuitivos y no añaden complejidad innecesaria.
Los datos están disponibles en sheldon_quotes con las dos primeras frases ya impresas.
Este ejercicio forma parte del curso
Redes neuronales recurrentes (RNN) para el modelado del lenguaje con Keras
Instrucciones del ejercicio
joinlas oraciones en una variable y, a continuación, extrae todas las palabras y almacena esta lista enall_words.- Elimina las palabras duplicadas aplicando un algoritmo de eliminación de palabras duplicadas (
list(set())) a la lista de palabras y guárdalas enunique_words. - Crea un diccionario con índices como claves y palabras como valores utilizando comprensiones de diccionario.
- Crea un diccionario con palabras como claves e índices como valores utilizando comprensiones de diccionario.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Transform the list of sentences into a list of words
all_words = ' '.____(sheldon_quotes).split(' ')
# Get number of unique words
unique_words = list(set(all_words))
# Dictionary of indexes as keys and words as values
index_to_word = {____ for i, wd in enumerate(sorted(unique_words))}
print(index_to_word)
# Dictionary of words as keys and indexes as values
word_to_index = {wd:i for ____ in enumerate(sorted(unique_words))}
print(word_to_index)