ComenzarEmpieza gratis

Tokenización no ASCII

En este ejercicio, practicarás una tokenización avanzada trabajando con texto que no es ASCII. ¡Usarás alemán con emoji!

Aquí tienes acceso a una cadena llamada german_text, que ya se ha impreso por ti en la consola. ¡Fíjate en los emoji y en los caracteres alemanes!

Se han preimportado desde nltk.tokenize los siguientes módulos: regexp_tokenize y word_tokenize.

Los rangos Unicode para emoji son:

('\U0001F300'-'\U0001F5FF'), ('\U0001F600-\U0001F64F'), ('\U0001F680-\U0001F6FF'), y ('\u2600'-\u26FF-\u2700-\u27BF').

Este ejercicio forma parte del curso

Introducción al Natural Language Processing en Python

Ver curso

Instrucciones del ejercicio

  • Tokeniza todas las palabras de german_text usando word_tokenize() e imprime el resultado.
  • Tokeniza solo las palabras en mayúscula de german_text.
    • Primero, escribe un patrón llamado capital_words para capturar solo palabras en mayúscula. ¡Asegúrate de contemplar la Ü alemana! Para usar este carácter en el ejercicio, cópialo y pégalo desde estas instrucciones.
    • Después, tokenízalas usando regexp_tokenize().
  • Tokeniza solo los emoji en german_text. El patrón que usa los rangos Unicode para emoji indicados en el enunciado ya está escrito por ti. Tu tarea es usar regexp_tokenize() para tokenizar los emoji.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Tokenize and print all words in german_text
all_words = ____(____)
print(all_words)

# Tokenize and print only capital words
capital_words = r"[____]\w+"
print(____(____, ____))

# Tokenize and print only emoji
emoji = "['\U0001F300-\U0001F5FF'|'\U0001F600-\U0001F64F'|'\U0001F680-\U0001F6FF'|'\u2600-\u26FF\u2700-\u27BF']"
print(____(____, ____))
Editar y ejecutar código