Seznámení s textovými daty

V tomto cvičení si pohraješ s textovými daty – konkrétně s citáty Sheldona Coopera ze seriálu Teorie velkého třesku. Získáš tak příležitost analyzovat věty a zjistit, jak to vypadá při práci s reálnými textovými daty.

Pomocí slovníkových comprehensions vytvoříš slovníky, které mapují slova na indexy a naopak. Slovníky místo například pandas.DataFrame volíme proto, že jsou intuitivnější a nepřidávají zbytečnou složitost.

Data jsou dostupná v proměnné sheldon_quotes – první dvě věty jsou už za tebe vypsané.

Toto cvičení je součástí kurzu

Rekurentní neuronové sítě (RNN) pro jazykové modelování s Keras

Pokyny k cvičení

Spoj věty do jedné proměnné pomocí join, extrahuj všechna slova a výsledný seznam ulož do all_words.
Odstraň duplicitní slova pomocí list(set()) na seznamu slov a výsledek ulož do unique_words.
Pomocí slovníkového comprehension vytvoř slovník, kde klíče jsou indexy a hodnoty jsou slova.
Pomocí slovníkového comprehension vytvoř slovník, kde klíče jsou slova a hodnoty jsou indexy.

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

# Transform the list of sentences into a list of words
all_words = ' '.____(sheldon_quotes).split(' ')

# Get number of unique words
unique_words = list(set(all_words))

# Dictionary of indexes as keys and words as values
index_to_word = {____ for i, wd in enumerate(sorted(unique_words))}

print(index_to_word)

# Dictionary of words as keys and indexes as values
word_to_index = {wd:i for ____ in enumerate(sorted(unique_words))}

print(word_to_index)

Upravit a spustit kód

Toto cvičení je součástí kurzu

Rekurentní neuronové sítě (RNN) pro jazykové modelování s Keras

SkillTag.level.advancedSkillTag.label

4.8+

Začněte kurz zdarma

V této kapitole se seznámíš se základy rekurentních neuronových sítí (RNN). Začneme potřebnými předpoklady, pokračujeme pochopením toho, jak informace protékají sítí, a nakonec si ukážeme, jak takovéto modely implementovat v Keras na úloze klasifikace sentimentu.

Exercise 1: Úvod do kurzu Exercise 2: Porovnání počtu parametrů RNN a ANN Exercise 3: Analýza sentimentu Exercise 4: Modely sekvence na sekvenci Exercise 5: Úvod do jazykových modelů Exercise 6: Seznámení s textovými daty

Aktuální cvičení

Exercise 7: Příprava textových dat pro vstup modelu Exercise 8: Transformace nového textu Exercise 9: Úvod do RNN v Kerasu Exercise 10: Modely v Keras Exercise 11: Předzpracování dat v Kerasu Exercise 12: Tvůj první model RNN

Dozvíš se o problémech mizejícího a explodujícího gradientu, které se v RNN běžně vyskytují, a o tom, jak je řešit pomocí buněk GRU a LSTM. Navíc vytvoříš embedding vrstvy pro jazykové modely a vrátíš se k úloze klasifikace sentimentu.

Exercise 1: Mizející a explodující gradienty Exercise 2: Problém explodujícího gradientu Exercise 3: Problém mizejících gradientů Exercise 4: Buňky GRU a LSTM Exercise 5: GRU buňky jsou lepší než SimpleRNN Exercise 6: Skládání vrstev RNN Exercise 7: Embedding vrstva Exercise 8: Porovnání počtu parametrů Exercise 9: Transfer learning Exercise 10: Embedding vrstva zlepšuje výkon Exercise 11: Klasifikace sentimentu znovu Exercise 12: Lepší klasifikace sentimentu Exercise 13: Použití vrstvy CNN

V této kapitole se naučíš, jak připravit data pro úlohu víceřídní klasifikace, a také jaké jsou rozdíly mezi víceřídní klasifikací a binární klasifikací (analýzou sentimentu). Nakonec si ukážeme, jak v Keras vytvářet modely a měřit jejich výkon.

Exercise 1: Příprava dat Exercise 2: Příprava vektorů štítků Exercise 3: Předzpracování dat Exercise 4: Transfer learning pro jazykové modely Exercise 5: Výchozí bod pro transfer learning Exercise 6: Word2Vec Exercise 7: Modely pro klasifikaci do více tříd Exercise 8: Průzkum datasetu 20 News Groups Exercise 9: Klasifikace zpravodajských článků Exercise 10: Hodnocení výkonu modelu Exercise 11: Kompromis mezi přesností a úplností Exercise 12: Precision nebo recall – to je oč tu běží Exercise 13: Výkon při multi-class klasifikaci

Tato kapitola tě seznámí se dvěma aplikacemi modelů RNN: generováním textu a neuronovým strojovým překladem. Naučíš se, jak připravit textová data ve formátu, který modely potřebují. Model pro generování textu slouží k napodobení způsobu vyjadřování postavy a my si trochu zahrajeme na Sheldona z Teorie velkého třesku. Neurální strojový překlad využívá například Google Translate v mnohem složitějším modelu. V této kapitole vytvoříš model, který překládá krátké portugalské fráze do angličtiny.

Exercise 1: Modely sekvence na sekvenci Exercise 2: Příklady generování textu Exercise 3: Příklad NMT Exercise 4: Funkce pro generování textu Exercise 5: Předpověz další znak Exercise 6: Generování věty s kontextem Exercise 7: Změna teplotní škály pravděpodobnosti Exercise 8: Modely pro generování textu Exercise 9: Vytvoření vektorů vět a následujících znaků Exercise 10: Příprava dat pro trénování Exercise 11: Vytvoření modelu pro generování textu Exercise 12: Neuronový strojový překlad Exercise 13: Příprava vstupního textu Exercise 14: Příprava výstupního textu Exercise 15: Překlad z portugalštiny do angličtiny Exercise 16: Gratulujeme!