Préparation des données

Vous développez un modèle de machine learning qui utilise le traitement du langage naturel (NLP) pour un projet d'analyse des sentiments visant à classer les avis sur les restaurants comme positifs, négatifs ou neutres. Afin de préparer les données pour l'entraînement, il est nécessaire de prétraiter et de représenter les données textuelles sous forme numérique.

Votre ensemble de données contient des milliers d'avis, dont l'un indique :

« Les plats étaient délicieux, mais le service était extrêmement lent. »

Quelles étapes de prétraitement du texte sont les plus susceptibles de supprimer les mots « mais » et « était » de cette critique ?

Cet exercice fait partie du cours

<cours>Concepts des grands modèles de langage (LLM)</cours>

Voir le cours

Exercice interactif pratique

Transformez la théorie en action avec l’un de nos exercices interactifs

Commencer l’exercice

Cet exercice fait partie du cours

<cours>Concepts des grands modèles de langage (LLM)</cours>

DébutantNiveau de compétence

4.8+

8415 reviews

Commencer le cours gratuitement

Le paysage de l'IA évolue rapidement, et les grands modèles de langage (LLM) sont à l'avant-garde de cette évolution. Dans ce chapitre, nous allons voir comment les LLM contribuent au développement de l'intelligence artificielle de type humain et transforment les secteurs grâce à leurs nombreuses applications. Vous explorerez les défis et la complexité associés à la modélisation linguistique.

Exercise 1: L'essor des LLM dans le paysage de l'IA Exercise 2: Définition d'un LLM Exercise 3: Les LLM dans le paysage de l'IA Exercise 4: IA et applications LLM Exercise 5: Applications dans le monde réel Exercise 6: Applications métier Exercise 7: Applications multimodales Exercise 8: Automatiser les tâches pilotées par les données Exercise 9: Les défis de la modélisation linguistique Exercise 10: Que peut faire un modèle de langage ?Exercise 11: Apprentissage monotâche ou multitâche

Ce chapitre explore les LLM sous l’angle de leurs avancées récentes et de leurs capacités émergentes, tout en passant en revue plusieurs techniques de traitement automatique du langage pour préparer efficacement les données. Vous découvrirez les défis liés à l’entraînement des LLM et comment la technique de l’affinage peut les relever efficacement. Vous comprendrez également comment les techniques d'apprentissage N-shot permettent une adaptation efficace des modèles pré-entraînés lorsque les données étiquetées sont limitées.

Exercise 1: Nouveauté des LLM Exercise 2: Résolution de problèmes avec les LLM Exercise 3: Modèles traditionnels par opposition aux LLM Exercise 4: Présentation du traitement du langage naturel Exercise 5: Préparation des données

Exercice actuel

Exercise 6: Prétraitement et représentation du texte Exercise 7: Plongements lexicaux et sac de mots Exercise 8: Affinage Exercise 9: Défis de la construction des LLM Exercise 10: Adapter un modèle pré-entraîné Exercise 11: Pré-entraîné ou affiné ?Exercise 12: Techniques d'apprentissage Exercise 13: Affiner un modèle Exercise 14: Apprentissage N-shot

Dans ce chapitre, vous découvrirez les éléments fondamentaux de l'entraînement d'un LLM, tels que les techniques de pré-entraînement. Vous acquerrez également une compréhension intuitive de concepts complexes tels que l'architecture des Transformers, y compris le mécanisme d'attention. Ce chapitre traite d'une technique avancée d’affinage et résume le processus d’entraînement nécessaire pour obtenir un LLM.

Exercise 1: Éléments constitutifs pour entraîner des LLM Exercise 2: Langage masqué Exercise 3: Prédire le mot suivant Exercise 4: Construire à partir de zéro Exercise 5: Présentation du Transformer Exercise 6: Relations entre des mots éloignés Exercise 7: Composants du Transformer Exercise 8: Mécanismes d'attention Exercise 9: Le point sur le Multi Head Attention Exercise 10: Auto-attention vs. attention multi-tête Exercise 11: Affinage avancé Exercise 12: Entraînement de bout en bout Exercise 13: Entraînement, affinage et rétroaction Exercise 14: Créer un LLM

Dans ce chapitre, nous examinons les considérations essentielles à prendre en compte lors de l’entraînement des LLM, telles que la disponibilité de données volumineuses, la qualité des données, l'étiquetage précis et les implications des données biaisées. Vous examinerez également divers risques liés au LLM, tels que la confidentialité des données, les questions éthiques et l'impact environnemental. Enfin, le chapitre se terminera par une discussion sur les nouveaux domaines de recherche et l'évolution du paysage des LLM.

Exercise 1: Préoccupations et considérations relatives aux données Exercise 2: Votre modèle est-il équitable ?Exercise 3: Impartial et pertinent Exercise 4: Service client d'une banque Exercise 5: Préoccupations éthiques et environnementales Exercise 6: Utilisation responsable Exercise 7: Éthique et environnement Exercise 8: Quelle est la direction prise par les LLM ?Exercise 9: Créativité et efficacité Exercise 10: Analyser des œuvres littéraires Exercise 11: Il est temps de conclure.