Tokenización no ASCII
En este ejercicio, practicarás una tokenización avanzada trabajando con texto que no es ASCII. ¡Usarás alemán con emoji!
Aquí tienes acceso a una cadena llamada german_text, que ya se ha impreso por ti en la consola. ¡Fíjate en los emoji y en los caracteres alemanes!
Se han preimportado desde nltk.tokenize los siguientes módulos: regexp_tokenize y word_tokenize.
Los rangos Unicode para emoji son:
('\U0001F300'-'\U0001F5FF'), ('\U0001F600-\U0001F64F'), ('\U0001F680-\U0001F6FF'), y ('\u2600'-\u26FF-\u2700-\u27BF').
Este ejercicio forma parte del curso
Introducción al Natural Language Processing en Python
Instrucciones del ejercicio
- Tokeniza todas las palabras de
german_textusandoword_tokenize()e imprime el resultado. - Tokeniza solo las palabras en mayúscula de
german_text.- Primero, escribe un patrón llamado
capital_wordspara capturar solo palabras en mayúscula. ¡Asegúrate de contemplar laÜalemana! Para usar este carácter en el ejercicio, cópialo y pégalo desde estas instrucciones. - Después, tokenízalas usando
regexp_tokenize().
- Primero, escribe un patrón llamado
- Tokeniza solo los emoji en
german_text. El patrón que usa los rangos Unicode para emoji indicados en el enunciado ya está escrito por ti. Tu tarea es usarregexp_tokenize()para tokenizar los emoji.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Tokenize and print all words in german_text
all_words = ____(____)
print(all_words)
# Tokenize and print only capital words
capital_words = r"[____]\w+"
print(____(____, ____))
# Tokenize and print only emoji
emoji = "['\U0001F300-\U0001F5FF'|'\U0001F600-\U0001F64F'|'\U0001F680-\U0001F6FF'|'\u2600-\u26FF\u2700-\u27BF']"
print(____(____, ____))