Bag-of-words voor boektitels

PyBooks heeft nu een lijst met boektitels die gecodeerd moeten worden voor verdere analyse. Het datateam denkt dat het Bag of Words (BoW)-model hiervoor het beste werkt.

De volgende pakketten zijn alvast voor je geïmporteerd: torch, torchtext.

Deze oefening maakt deel uit van de cursus

Deep Learning voor tekst met PyTorch

Oefeninstructies

Importeer de klasse CountVectorizer om bag-of-words te implementeren.
Initialiseer een object van de klasse die je hebt geïmporteerd en gebruik dit object om de titles om te zetten naar een matrixrepresentatie.
Extraheer en toon de eerste vijf featurenamen en gecodeerde titels met de methode get_feature_names_out().

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import from sklearn
from sklearn.feature_extraction.text import ____

titles = ['The Great Gatsby','To Kill a Mockingbird','1984','The Catcher in the Rye','The Hobbit', 'Great Expectations']

# Initialize Bag-of-words with the list of book titles
vectorizer = ____()
bow_encoded_titles = ____.fit_transform(____)

# Extract and print the first five features
print(vectorizer.____[:5])
print(bow_encoded_titles.toarray()[0, :5])

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Deep Learning voor tekst met PyTorch

SkillTag.level.advancedSkillTag.label

4.8+

Begin gratis met de cursus

Dit hoofdstuk introduceert je in deep learning voor tekst en de toepassingen ervan. Leer hoe je PyTorch gebruikt voor tekstverwerking en oefen met technieken zoals tokenization, stemming, het verwijderen van stopwoorden, en meer. Begrijp het belang van het encoden van tekstdata en implementeer encoding-technieken met PyTorch. Sluit af door een tekstverwerkingspipeline te bouwen waarin je deze technieken combineert.

Exercise 1: Introductie tot pre-processing voor tekst Exercise 2: Woordanalyse op frequentie Exercise 3: Tekst pre-processen Exercise 4: Tekstgegevens encoderen Exercise 5: One-hot gecodeerde boektitels Exercise 6: Bag-of-words voor boektitels

Huidige oefening

Exercise 7: TF-IDF toepassen op boekbeschrijvingen Exercise 8: Introductie in het bouwen van een tekstverwerkingspipeline Exercise 9: Voorbewerking van Shakespeare-tekst: pipeline Exercise 10: Shakespeareaans taal-encoder

Verken tekstclassificatie en de rol ervan binnen Natural Language Processing (NLP). Pas je vaardigheden toe om word embeddings te implementeren en ontwikkel zowel Convolutional Neural Networks (CNN’s) als Recurrent Neural Networks (RNN’s) voor tekstclassificatie met PyTorch. Begrijp daarnaast hoe je je modellen evalueert met geschikte metrieken.

Exercise 1: Overzicht van tekstclassificatie Exercise 2: Embedding in PyTorch Exercise 3: Tekstclassificatietaken categoriseren Exercise 4: Convolutionele neurale netwerken voor tekstclassificatie Exercise 5: Bouw een CNN-model voor tekst Exercise 6: Train een CNN-model voor tekst Exercise 7: Het Sentimentanalyse-CNN-model testen Exercise 8: Recurrent neural networks voor tekstclassificatie Exercise 9: Een RNN-model voor tekst bouwen Exercise 10: Een LSTM-model voor tekst bouwen Exercise 11: Een GRU-model bouwen voor tekst Exercise 12: Evaluatiemetrics voor tekstclassificatie Exercise 13: RNN-classificatiemodellen evalueren Exercise 14: De prestaties van het model evalueren Exercise 15: Modellen vergelijken

Waag je aan de spannende wereld van tekstgeneratie en de toepassingen ervan in NLP. Begrijp hoe je Recurrent Neural Networks (RNN’s), Generative Adversarial Networks (GAN’s) en voorgetrainde modellen inzet voor tekstgeneratietaken met PyTorch. Tegelijk leer je de prestaties van je modellen te beoordelen met relevante metrieken.

Exercise 1: Introductie tot tekstgeneratie Exercise 2: Een RNN-model maken voor tekstgeneratie Exercise 3: Tekstgeneratie met RNN - Trainen en genereren Exercise 4: Generative adversarial networks voor tekstgeneratie Exercise 5: Een generator en discriminator bouwen Exercise 6: Een GAN-model trainen Exercise 7: Voorgetrainde modellen voor tekstgeneratie Exercise 8: Tekstaanvulling met voorgetrainde GPT-2-modellen Exercise 9: Taalvertaling met een voorgetraind PyTorch-model Exercise 10: Evaluatiemaatstaven voor tekstgeneratie Exercise 11: Een voorgetraind model voor tekstgeneratie evalueren Exercise 12: Inzicht in evaluatiemetrics voor tekstopwekking

Begrijp het concept van transfer learning en de toepassing ervan in tekstclassificatie. Verken Transformers, hun architectuur en hoe je ze gebruikt voor taken rond tekstclassificatie en -generatie. Je gaat ook dieper in op attention-mechanismen en hun rol in tekstverwerking. Begrijp ten slotte de mogelijke impact van adversarial attacks op tekstclassificatiemodellen en leer hoe je je modellen beschermt.

Exercise 1: Transfer learning voor tekstclassificatie Exercise 2: Transfer learning met BERT Exercise 3: Het BERT-model evalueren Exercise 4: Transformers voor tekstverwerking Exercise 5: Een transformermodel maken Exercise 6: Het Transformer-model trainen en testen Exercise 7: Attention-mechanismen voor tekstverwerking Exercise 8: Een RNN-model met attention maken Exercise 9: RNN-model met attention trainen en testen Exercise 10: Adversariële aanvallen op tekstclassificatiemodellen Exercise 11: Classificatie van adversarial attacks Exercise 12: AI beveiligen bij PyBooks Exercise 13: Afronding