Tokenização não-ascii
Neste exercício, você praticará a tokenização avançada ao tokenizar um texto não baseado em ascii. Você usará o alemão com emoji!
Aqui, você tem acesso a uma string chamada german_text, que foi impressa para você no Shell. Observe o emoji e os caracteres alemães!
Os módulos a seguir foram pré-importados de nltk.tokenize: regexp_tokenize e word_tokenize.
Os intervalos Unicode para emojis são:
('\U0001F300'-'\U0001F5FF'), ('\U0001F600-\U0001F64F'), ('\U0001F680-\U0001F6FF'), e ('\u2600'-\u26FF-\u2700-\u27BF').
Este exercício faz parte do curso
Introdução ao processamento de linguagem natural em Python
Instruções do exercício
Tokenize todas as palavras em
german_textusandoword_tokenize()e imprima o resultado.Tokenize apenas as palavras maiúsculas em
german_text.Primeiro, escreva um padrão chamado
capital_wordspara corresponder somente a palavras maiúsculas. Não deixe de conferir o site alemãoÜ! Para usar esse caractere no exercício, copie e cole-o destas instruções.Em seguida, tokenize-o usando
regexp_tokenize().
Tokenize apenas o emoji em
german_text. O padrão que usa os intervalos unicode para emoji fornecidos no texto do exercício foi escrito para você. Seu trabalho é usarregexp_tokenize()para tokenizar o emoji.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Tokenize and print all words in german_text
all_words = ____(____)
print(all_words)
# Tokenize and print only capital words
capital_words = r"[____]\w+"
print(____(____, ____))
# Tokenize and print only emoji
emoji = "['\U0001F300-\U0001F5FF'|'\U0001F600-\U0001F64F'|'\U0001F680-\U0001F6FF'|'\u2600-\u26FF\u2700-\u27BF']"
print(____(____, ____))