Tokenização não-ascii

Neste exercício, você praticará a tokenização avançada ao tokenizar um texto não baseado em ascii. Você usará o alemão com emoji!

Aqui, você tem acesso a uma string chamada german_text, que foi impressa para você no Shell. Observe o emoji e os caracteres alemães!

Os módulos a seguir foram pré-importados de nltk.tokenize: regexp_tokenize e word_tokenize.

Os intervalos Unicode para emojis são:

('\U0001F300'-'\U0001F5FF'), ('\U0001F600-\U0001F64F'), ('\U0001F680-\U0001F6FF'), e ('\u2600'-\u26FF-\u2700-\u27BF').

Este exercício faz parte do curso

Introdução ao processamento de linguagem natural em Python

Ver Curso

Instruções de exercício

  • Tokenize todas as palavras em german_text usando word_tokenize() e imprima o resultado.

  • Tokenize apenas as palavras maiúsculas em german_text.

    • Primeiro, escreva um padrão chamado capital_words para corresponder somente a palavras maiúsculas. Não deixe de conferir o site alemão Ü! Para usar esse caractere no exercício, copie e cole-o destas instruções.

    • Em seguida, tokenize-o usando regexp_tokenize().

  • Tokenize apenas o emoji em german_text. O padrão que usa os intervalos unicode para emoji fornecidos no texto do exercício foi escrito para você. Seu trabalho é usar regexp_tokenize() para tokenizar o emoji.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Tokenize and print all words in german_text
all_words = ____(____)
print(all_words)

# Tokenize and print only capital words
capital_words = r"[____]\w+"
print(____(____, ____))

# Tokenize and print only emoji
emoji = "['\U0001F300-\U0001F5FF'|'\U0001F600-\U0001F64F'|'\U0001F680-\U0001F6FF'|'\u2600-\u26FF\u2700-\u27BF']"
print(____(____, ____))