Balisage non ascii
Dans cet exercice, vous pratiquerez la tokenisation avancée en tokenisant un texte basé sur des caractères non ASCII. Vous utiliserez l'allemand avec des emoji !
Ici, vous avez accès à une chaîne de caractères appelée german_text, qui a été imprimée pour vous dans le shell. Remarquez l'emoji et les caractères allemands !
Les modules suivants ont été préimportés de nltk.tokenize: regexp_tokenize et word_tokenize.
Les plages Unicode pour les emoji sont les suivantes :
('\U0001F300'-'\U0001F5FF'), ('\U0001F600-\U0001F64F'), ('\U0001F680-\U0001F6FF'), et ('\u2600'-\u26FF-\u2700-\u27BF').
Cet exercice fait partie du cours
Introduction au traitement du langage naturel en Python
Instructions
Tokenisez tous les mots de
german_texten utilisantword_tokenize(), et imprimez le résultat.Ne tokenisez que les mots en majuscules dans
german_text.Tout d'abord, écrivez un modèle appelé
capital_wordspour ne faire correspondre que les mots en majuscules. Ne manquez pas de vérifier la présence de l'allemandÜ! Pour utiliser ce personnage dans l'exercice, copiez et collez-le à partir de ces instructions.Ensuite, vous pouvez le symboliser à l'aide de
regexp_tokenize().
Ne tokenisez que l'emoji dans
german_text. Le modèle utilisant les plages unicode pour les emoji données dans le texte du devoir a été écrit pour vous. Votre tâche consiste à utiliserregexp_tokenize()pour symboliser l'emoji.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Tokenize and print all words in german_text
all_words = ____(____)
print(all_words)
# Tokenize and print only capital words
capital_words = r"[____]\w+"
print(____(____, ____))
# Tokenize and print only emoji
emoji = "['\U0001F300-\U0001F5FF'|'\U0001F600-\U0001F64F'|'\U0001F680-\U0001F6FF'|'\u2600-\u26FF\u2700-\u27BF']"
print(____(____, ____))