Tokenização não-ascii
Neste exercício, você praticará a tokenização avançada ao tokenizar um texto não baseado em ascii. Você usará o alemão com emoji!
Aqui, você tem acesso a uma string chamada german_text
, que foi impressa para você no Shell. Observe o emoji e os caracteres alemães!
Os módulos a seguir foram pré-importados de nltk.tokenize
: regexp_tokenize
e word_tokenize
.
Os intervalos Unicode para emojis são:
('\U0001F300'-'\U0001F5FF')
, ('\U0001F600-\U0001F64F')
, ('\U0001F680-\U0001F6FF')
, e ('\u2600'-\u26FF-\u2700-\u27BF')
.
Este exercício faz parte do curso
Introdução ao processamento de linguagem natural em Python
Instruções de exercício
Tokenize todas as palavras em
german_text
usandoword_tokenize()
e imprima o resultado.Tokenize apenas as palavras maiúsculas em
german_text
.Primeiro, escreva um padrão chamado
capital_words
para corresponder somente a palavras maiúsculas. Não deixe de conferir o site alemãoÜ
! Para usar esse caractere no exercício, copie e cole-o destas instruções.Em seguida, tokenize-o usando
regexp_tokenize()
.
Tokenize apenas o emoji em
german_text
. O padrão que usa os intervalos unicode para emoji fornecidos no texto do exercício foi escrito para você. Seu trabalho é usarregexp_tokenize()
para tokenizar o emoji.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Tokenize and print all words in german_text
all_words = ____(____)
print(all_words)
# Tokenize and print only capital words
capital_words = r"[____]\w+"
print(____(____, ____))
# Tokenize and print only emoji
emoji = "['\U0001F300-\U0001F5FF'|'\U0001F600-\U0001F64F'|'\U0001F680-\U0001F6FF'|'\u2600-\u26FF\u2700-\u27BF']"
print(____(____, ____))