Balisage non ascii
Dans cet exercice, vous pratiquerez la tokenisation avancée en tokenisant un texte basé sur des caractères non ASCII. Vous utiliserez l'allemand avec des emoji !
Ici, vous avez accès à une chaîne de caractères appelée german_text
, qui a été imprimée pour vous dans le shell. Remarquez l'emoji et les caractères allemands !
Les modules suivants ont été préimportés de nltk.tokenize
: regexp_tokenize
et word_tokenize
.
Les plages Unicode pour les emoji sont les suivantes :
('\U0001F300'-'\U0001F5FF')
, ('\U0001F600-\U0001F64F')
, ('\U0001F680-\U0001F6FF')
, et ('\u2600'-\u26FF-\u2700-\u27BF')
.
Cet exercice fait partie du cours
Introduction au traitement du langage naturel en Python
Instructions
Tokenisez tous les mots de
german_text
en utilisantword_tokenize()
, et imprimez le résultat.Ne tokenisez que les mots en majuscules dans
german_text
.Tout d'abord, écrivez un modèle appelé
capital_words
pour ne faire correspondre que les mots en majuscules. Ne manquez pas de vérifier la présence de l'allemandÜ
! Pour utiliser ce personnage dans l'exercice, copiez et collez-le à partir de ces instructions.Ensuite, vous pouvez le symboliser à l'aide de
regexp_tokenize()
.
Ne tokenisez que l'emoji dans
german_text
. Le modèle utilisant les plages unicode pour les emoji données dans le texte du devoir a été écrit pour vous. Votre tâche consiste à utiliserregexp_tokenize()
pour symboliser l'emoji.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Tokenize and print all words in german_text
all_words = ____(____)
print(all_words)
# Tokenize and print only capital words
capital_words = r"[____]\w+"
print(____(____, ____))
# Tokenize and print only emoji
emoji = "['\U0001F300-\U0001F5FF'|'\U0001F600-\U0001F64F'|'\U0001F680-\U0001F6FF'|'\u2600-\u26FF\u2700-\u27BF']"
print(____(____, ____))