Acostumbrarse a los datos de texto

En este ejercicio, jugarás con datos de texto analizando citas de Sheldon Cooper en la serie de televisión The Big Bang Theory. Esto te dará la oportunidad de analizar frases para obtener información sobre cómo es trabajar con datos de texto del mundo real.

Utilizarás comprensiones de diccionario para crear diccionarios que asignan palabras a índices y viceversa. El uso de diccionarios en lugar de, por ejemplo, un « pandas.DataFrame » se debe a que son más intuitivos y no añaden complejidad innecesaria.

Los datos están disponibles en sheldon_quotes con las dos primeras frases ya impresas.

Este ejercicio forma parte del curso

Redes neuronales recurrentes (RNN) para el modelado del lenguaje con Keras

Ver curso

Instrucciones del ejercicio

join las oraciones en una variable y, a continuación, extrae todas las palabras y almacena esta lista en all_words.
Elimina las palabras duplicadas aplicando un algoritmo de eliminación de palabras duplicadas ( list(set()) ) a la lista de palabras y guárdalas en unique_words.
Crea un diccionario con índices como claves y palabras como valores utilizando comprensiones de diccionario.
Crea un diccionario con palabras como claves e índices como valores utilizando comprensiones de diccionario.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Transform the list of sentences into a list of words
all_words = ' '.____(sheldon_quotes).split(' ')

# Get number of unique words
unique_words = list(set(all_words))

# Dictionary of indexes as keys and words as values
index_to_word = {____ for i, wd in enumerate(sorted(unique_words))}

print(index_to_word)

# Dictionary of words as keys and indexes as values
word_to_index = {wd:i for ____ in enumerate(sorted(unique_words))}

print(word_to_index)

Editar y ejecutar código