TF-IDF toepassen op boekbeschrijvingen

PyBooks heeft meerdere boekbeschrijvingen verzameld en wil met de TF-IDF-encodetechniek belangrijke woorden daarin identificeren. Zo hopen ze meer inzicht te krijgen in de unieke kenmerken van elk boek om hun aanbevelingssysteem te verbeteren.

De volgende pakketten zijn alvast voor je geïmporteerd: torch, torchtext.

Deze oefening maakt deel uit van de cursus

Deep Learning voor tekst met PyTorch

Oefeninstructies

Importeer de klasse TfidfVectorizer uit sklearn.feature_extraction.text, die een verzameling ruwe documenten omzet naar een matrix met TF-IDF-features.
Maak een object van deze klasse aan en gebruik dit object vervolgens om de descriptions te encoderen naar een TF-IDF-matrix van vectoren.
Haal de eerste vijf featurenamen op uit de vectorizer en toon die, en laat ook de gecodeerde vectoren uit tfidf_encoded_descriptions zien.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Importing TF-IDF from sklearn
from sklearn.feature_extraction.text import ____

# Initialize TF-IDF encoding vectorizer
vectorizer = ____()
tfidf_encoded_descriptions = vectorizer.____(descriptions)

# Extract and print the first five features
print(____.get_feature_names_out()[:5])
print(____.toarray()[0, :5])

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Deep Learning voor tekst met PyTorch

SkillTag.level.advancedSkillTag.label

4.8+

Begin gratis met de cursus

Dit hoofdstuk introduceert je in deep learning voor tekst en de toepassingen ervan. Leer hoe je PyTorch gebruikt voor tekstverwerking en oefen met technieken zoals tokenization, stemming, het verwijderen van stopwoorden, en meer. Begrijp het belang van het encoden van tekstdata en implementeer encoding-technieken met PyTorch. Sluit af door een tekstverwerkingspipeline te bouwen waarin je deze technieken combineert.

Exercise 1: Introductie tot pre-processing voor tekst Exercise 2: Woordanalyse op frequentie Exercise 3: Tekst pre-processen Exercise 4: Tekstgegevens encoderen Exercise 5: One-hot gecodeerde boektitels Exercise 6: Bag-of-words voor boektitels Exercise 7: TF-IDF toepassen op boekbeschrijvingen

Huidige oefening

Exercise 8: Introductie in het bouwen van een tekstverwerkingspipeline Exercise 9: Voorbewerking van Shakespeare-tekst: pipeline Exercise 10: Shakespeareaans taal-encoder

Verken tekstclassificatie en de rol ervan binnen Natural Language Processing (NLP). Pas je vaardigheden toe om word embeddings te implementeren en ontwikkel zowel Convolutional Neural Networks (CNN’s) als Recurrent Neural Networks (RNN’s) voor tekstclassificatie met PyTorch. Begrijp daarnaast hoe je je modellen evalueert met geschikte metrieken.

Exercise 1: Overzicht van tekstclassificatie Exercise 2: Embedding in PyTorch Exercise 3: Tekstclassificatietaken categoriseren Exercise 4: Convolutionele neurale netwerken voor tekstclassificatie Exercise 5: Bouw een CNN-model voor tekst Exercise 6: Train een CNN-model voor tekst Exercise 7: Het Sentimentanalyse-CNN-model testen Exercise 8: Recurrent neural networks voor tekstclassificatie Exercise 9: Een RNN-model voor tekst bouwen Exercise 10: Een LSTM-model voor tekst bouwen Exercise 11: Een GRU-model bouwen voor tekst Exercise 12: Evaluatiemetrics voor tekstclassificatie Exercise 13: RNN-classificatiemodellen evalueren Exercise 14: De prestaties van het model evalueren Exercise 15: Modellen vergelijken

Waag je aan de spannende wereld van tekstgeneratie en de toepassingen ervan in NLP. Begrijp hoe je Recurrent Neural Networks (RNN’s), Generative Adversarial Networks (GAN’s) en voorgetrainde modellen inzet voor tekstgeneratietaken met PyTorch. Tegelijk leer je de prestaties van je modellen te beoordelen met relevante metrieken.

Exercise 1: Introductie tot tekstgeneratie Exercise 2: Een RNN-model maken voor tekstgeneratie Exercise 3: Tekstgeneratie met RNN - Trainen en genereren Exercise 4: Generative adversarial networks voor tekstgeneratie Exercise 5: Een generator en discriminator bouwen Exercise 6: Een GAN-model trainen Exercise 7: Voorgetrainde modellen voor tekstgeneratie Exercise 8: Tekstaanvulling met voorgetrainde GPT-2-modellen Exercise 9: Taalvertaling met een voorgetraind PyTorch-model Exercise 10: Evaluatiemaatstaven voor tekstgeneratie Exercise 11: Een voorgetraind model voor tekstgeneratie evalueren Exercise 12: Inzicht in evaluatiemetrics voor tekstopwekking

Begrijp het concept van transfer learning en de toepassing ervan in tekstclassificatie. Verken Transformers, hun architectuur en hoe je ze gebruikt voor taken rond tekstclassificatie en -generatie. Je gaat ook dieper in op attention-mechanismen en hun rol in tekstverwerking. Begrijp ten slotte de mogelijke impact van adversarial attacks op tekstclassificatiemodellen en leer hoe je je modellen beschermt.

Exercise 1: Transfer learning voor tekstclassificatie Exercise 2: Transfer learning met BERT Exercise 3: Het BERT-model evalueren Exercise 4: Transformers voor tekstverwerking Exercise 5: Een transformermodel maken Exercise 6: Het Transformer-model trainen en testen Exercise 7: Attention-mechanismen voor tekstverwerking Exercise 8: Een RNN-model met attention maken Exercise 9: RNN-model met attention trainen en testen Exercise 10: Adversariële aanvallen op tekstclassificatiemodellen Exercise 11: Classificatie van adversarial attacks Exercise 12: AI beveiligen bij PyBooks Exercise 13: Afronding