Tokenisation des phrases et des mots

La tokenisation est une première étape importante dans le traitement du langage naturel. Il s'agit de diviser le texte en unités plus petites appelées « tokens », ce qui est essentiel pour travailler avec des données linguistiques. Votre tâche consiste à tokeniser un extrait d'un article d'actualité en phrases et en mots.

Cet exercice fait partie du cours

Traitement du langage naturel (NLP) en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import nltk
____
# Download the punkt_tab package 
____

text = """
The stock market saw a significant dip today. Experts believe the downturn may continue.
However, many investors are optimistic about future growth.
"""

# Tokenize the text into sentences
sentences = ____
print(sentences)

Modifier et exécuter le code

Cet exercice fait partie du cours

Traitement du langage naturel (NLP) en Python

IntermédiaireNiveau de compétence

4.8+

162 reviews

Commencer le cours gratuitement

Découvrez les principes fondamentaux du traitement de texte dans le domaine du traitement du langage naturel (NLP). Maîtrisez des techniques telles que la tokenisation, la suppression des mots vides et de la ponctuation, ainsi que la normalisation du texte avec la conversion en minuscules, le lemmatisation et la stemming afin de préparer les données textuelles pour une analyse plus approfondie et l'extraction d'informations.

Exercise 1: Introduction au traitement du langage naturel Exercise 2: Tokenisation des phrases et des mots

Exercice en cours

Exercise 3: Flux de travail NLP Exercise 4: Gestion des mots vides et de la ponctuation Exercise 5: Suppression des mots vides Exercise 6: Suppression de la ponctuation Exercise 7: Techniques de normalisation de texte Exercise 8: Mise en minuscules Exercise 9: Étymologie Exercise 10: Lemmatisation

Transformez du texte brut en fonctionnalités numériques puissantes. Créez des représentations Bag-of-Words et TF-IDF pour saisir l'importance des mots dans les documents, puis explorez les plongements lexicaux tels que Word2Vec et GloVe afin de découvrir des modèles sémantiques profonds. Visualisez la fréquence, la pertinence et la similitude pour donner vie à vos données textuelles.

Exercise 1: Représentation par sac de mots Exercise 2: Enrichir son vocabulaire à partir des avis clients Exercise 3: Convertir du texte en chiffres avec BoW Exercise 4: Analyse de la fréquence des avis sur les produits Exercise 5: Visualisation de la fréquence des mots Exercise 6: Vectorisation TF-IDF Exercise 7: Représentation TF-IDF des commentaires sur les produits Exercise 8: Comparaison des représentations BoW et TF-IDF Exercise 9: Encastrements Exercise 10: Exploration des relations entre les mots à l'aide d'embeddings Exercise 11: Visualisation et comparaison d'enchevêtrements de mots

Exploitez la puissance des modèles pré-entraînés pour effectuer des tâches avancées de classification de texte. Veuillez utiliser les pipelines Hugging Face pour l'analyse des sentiments, la classification des sujets et l'inférence en langage naturel. Évaluez la similarité sémantique et la correction grammaticale à l'aide de modèles de pointe, sans avoir à partir de zéro.

Exercise 1: Pipelines Hugging Face pour l'analyse des sentiments Exercise 2: Analyse du sentiment d'un avis Exercise 3: Classification par lots de plusieurs avis Exercise 4: Comparaison de modèles sur des données d'évaluation étiquetées Exercise 5: Classification sans apprentissage et QNLI Exercise 6: Classification sans apprenti de tickets d'assistance Exercise 7: Le texte répond-il à la question ?Exercise 8: Similitude des questions et exactitude grammaticale Exercise 9: Détection des questions en double Exercise 10: Vérification de l'exactitude grammaticale

Explorez le cœur des applications modernes du TALN grâce aux techniques de classification des tokens et de génération de texte. Apprenez à extraire des entités significatives et des structures grammaticales à l'aide du NER et du balisage PoS. Maîtrisez la réponse aux questions extractives et abstraites, et explorez des tâches de génération avancées, notamment la synthèse, la traduction et la modélisation linguistique à l'aide des pipelines Hugging Face.

Exercise 1: Classification des jetons Exercise 2: Identification d'entités nommées dans les titres d'actualités Exercise 3: Étiquetage des parties du discours pour l'analyse de texte Exercise 4: Réponse aux questions Exercise 5: Répondre aux questions issues des descriptions de produits Exercise 6: Génération de réponses naturelles avec le QA abstractif Exercise 7: Tâches de génération de séquences Exercise 8: Résumer des articles d'actualité pour une compréhension rapide Exercise 9: Traduire les avis clients en français Exercise 10: Développement d'un système de complétion de recherche Exercise 11: Félicitations