Prétraiter du texte

Pour construire un système de recommandation, ou tout autre modèle, vous devez d’abord prétraiter le texte.

Un extrait de Sherlock Holmes est chargé ici. Prétraitez ce texte à l’aide des différentes techniques présentées dans la vidéo afin de le préparer pour une analyse ultérieure.

La variable text est un passage du Chien des Baskerville d’Arthur Conan Doyle.

Les packages et fonctions suivants ont été chargés pour vous : nltk, torch, get_tokenizer, PorterStemmer, stopwords.

Cet exercice fait partie du cours

<cours>Deep Learning pour le texte avec PyTorch</cours>

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Initialize and tokenize the text
tokenizer = ____("basic_english")
tokens = ____(____)
print(tokens)

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Deep Learning pour le texte avec PyTorch</cours>

AvancéNiveau de compétence

4.8+

Commencer le cours gratuitement

Ce chapitre vous présente le deep learning pour le texte et ses applications. Apprenez à utiliser PyTorch pour le traitement de texte et entraînez-vous avec des techniques comme la tokenisation, le stemming, la suppression des stopwords, et bien plus. Comprenez l’importance de l’encodage des données textuelles et mettez en œuvre des techniques d’encodage avec PyTorch. Enfin, consolidez vos acquis en construisant un pipeline de traitement de texte combinant ces techniques.

Exercise 1: Introduction au prétraitement de texte Exercise 2: Analyse de la fréquence des mots Exercise 3: Prétraiter du texte

Exercice actuel

Exercise 4: Encoder des données textuelles Exercise 5: Titres de livres encodés en one-hot Exercise 6: Sac de mots pour des titres de livres Exercise 7: Appliquer TF-IDF aux descriptions de livres Exercise 8: Introduction à la construction d’un pipeline de traitement de texte Exercise 9: Pipeline de prétraitement du langage shakespearien Exercise 10: Encodeur de langue shakespearienne

Explorez la classification de texte et son rôle en traitement du langage naturel (NLP). Mettez en pratique vos compétences pour implémenter des word embeddings et développer des réseaux de neurones convolutifs (CNN) ainsi que des réseaux de neurones récurrents (RNN) pour la classification de texte avec PyTorch, et comprenez comment évaluer vos modèles à l’aide de métriques adaptées.

Exercise 1: Aperçu de la classification de texte Exercise 2: Embedding avec PyTorch Exercise 3: Catégoriser les tâches de classification de texte Exercise 4: Réseaux de neurones convolutionnels pour la classification de texte Exercise 5: Construire un modèle CNN pour le texte Exercise 6: Entraîner un modèle CNN pour le texte Exercise 7: Tester le modèle CNN d’analyse de sentiments Exercise 8: Réseaux de neurones récurrents pour la classification de texte Exercise 9: Construire un modèle RNN pour le texte Exercise 10: Construire un modèle LSTM pour le texte Exercise 11: Créer un modèle GRU pour le texte Exercise 12: Métriques d’évaluation pour la classification de texte Exercise 13: Évaluer des modèles de classification RNN Exercise 14: Évaluer les performances du modèle Exercise 15: Comparer des modèles

Plongez dans le monde passionnant de la génération de texte et ses applications en NLP. Comprenez comment exploiter des réseaux de neurones récurrents (RNN), des réseaux antagonistes génératifs (GAN) et des modèles préentraînés pour des tâches de génération de texte avec PyTorch. Vous apprendrez également à évaluer les performances de vos modèles à l’aide de métriques pertinentes.

Exercise 1: Introduction à la génération de texte Exercise 2: Création d’un modèle RNN pour la génération de texte Exercise 3: Génération de texte avec RNN - Entraînement et génération Exercise 4: Réseaux antagonistes génératifs pour la génération de texte Exercise 5: Créer un générateur et un discriminateur Exercise 6: Entraîner un modèle GAN Exercise 7: Modèles pré-entraînés pour la génération de texte Exercise 8: Complétion de texte avec des modèles GPT-2 préentraînés Exercise 9: Traduction automatique avec un modèle PyTorch préentraîné Exercise 10: Mesures d’évaluation pour la génération de texte Exercise 11: Évaluer un modèle de génération de texte pré-entraîné Exercise 12: Comprendre les métriques de génération de texte

Comprenez le concept de transfer learning et son application à la classification de texte. Explorez les Transformers, leur architecture et leur utilisation pour des tâches de classification et de génération de texte. Vous étudierez aussi les mécanismes d’attention et leur rôle dans le traitement de texte. Enfin, analysez les impacts potentiels des attaques adversariales sur les modèles de classification de texte et apprenez à protéger vos modèles.

Exercise 1: Transfert d’apprentissage pour la classification de texte Exercise 2: Apprentissage par transfert avec BERT Exercise 3: Évaluer le modèle BERT Exercise 4: Transformers pour le traitement du texte Exercise 5: Créer un modèle Transformer Exercise 6: Entraîner et tester le modèle Transformer Exercise 7: Mécanismes d’attention pour le traitement du texte Exercise 8: Créer un modèle RNN avec mécanisme d’attention Exercise 9: Entraîner et tester le modèle RNN avec attention Exercise 10: Attaques adversariales sur les modèles de classification de texte Exercise 11: Classification des attaques adverses Exercise 12: Protéger l’IA chez PyBooks Exercise 13: Récapitulatif