CommencerCommencer gratuitement

Balisage non ascii

Dans cet exercice, vous pratiquerez la tokenisation avancée en tokenisant un texte basé sur des caractères non ASCII. Vous utiliserez l'allemand avec des emoji !

Ici, vous avez accès à une chaîne de caractères appelée german_text, qui a été imprimée pour vous dans le shell. Remarquez l'emoji et les caractères allemands !

Les modules suivants ont été préimportés de nltk.tokenize: regexp_tokenize et word_tokenize.

Les plages Unicode pour les emoji sont les suivantes :

('\U0001F300'-'\U0001F5FF'), ('\U0001F600-\U0001F64F'), ('\U0001F680-\U0001F6FF'), et ('\u2600'-\u26FF-\u2700-\u27BF').

Cet exercice fait partie du cours

Introduction au traitement du langage naturel en Python

Afficher le cours

Instructions

  • Tokenisez tous les mots de german_text en utilisant word_tokenize(), et imprimez le résultat.

  • Ne tokenisez que les mots en majuscules dans german_text.

    • Tout d'abord, écrivez un modèle appelé capital_words pour ne faire correspondre que les mots en majuscules. Ne manquez pas de vérifier la présence de l'allemand Ü! Pour utiliser ce personnage dans l'exercice, copiez et collez-le à partir de ces instructions.

    • Ensuite, vous pouvez le symboliser à l'aide de regexp_tokenize().

  • Ne tokenisez que l'emoji dans german_text. Le modèle utilisant les plages unicode pour les emoji données dans le texte du devoir a été écrit pour vous. Votre tâche consiste à utiliser regexp_tokenize() pour symboliser l'emoji.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Tokenize and print all words in german_text
all_words = ____(____)
print(all_words)

# Tokenize and print only capital words
capital_words = r"[____]\w+"
print(____(____, ____))

# Tokenize and print only emoji
emoji = "['\U0001F300-\U0001F5FF'|'\U0001F600-\U0001F64F'|'\U0001F680-\U0001F6FF'|'\u2600-\u26FF\u2700-\u27BF']"
print(____(____, ____))
Modifier et exécuter le code