Tokenizzazione non ASCII
In questo esercizio metterai in pratica una tokenizzazione avanzata lavorando con testo non ASCII. Userai il tedesco con delle emoji!
Qui hai a disposizione una stringa chiamata german_text, già stampata per te nella Shell. Nota le emoji e i caratteri tedeschi!
I seguenti moduli sono già stati importati da nltk.tokenize: regexp_tokenize e word_tokenize.
Gli intervalli Unicode per le emoji sono:
('\U0001F300'-'\U0001F5FF'), ('\U0001F600-\U0001F64F'), ('\U0001F680-\U0001F6FF'), e ('\u2600'-\u26FF-\u2700-\u27BF').
Questo esercizio fa parte del corso
Introduzione al Natural Language Processing in Python
Istruzioni dell'esercizio
- Tokenizza tutte le parole in
german_textusandoword_tokenize()e stampa il risultato. - Tokenizza solo le parole con iniziale maiuscola in
german_text.- Per prima cosa, scrivi un pattern chiamato
capital_wordsper intercettare solo parole con iniziale maiuscola. Assicurati di includere laÜtedesca! Per usare questo carattere nell’esercizio, copialo e incollalo da queste istruzioni. - Poi, tokenizzale usando
regexp_tokenize().
- Per prima cosa, scrivi un pattern chiamato
- Tokenizza solo le emoji in
german_text. Il pattern che usa gli intervalli Unicode per le emoji forniti nel testo dell’esercizio è già stato scritto per te. Il tuo compito è usareregexp_tokenize()per tokenizzare le emoji.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Tokenize and print all words in german_text
all_words = ____(____)
print(all_words)
# Tokenize and print only capital words
capital_words = r"[____]\w+"
print(____(____, ____))
# Tokenize and print only emoji
emoji = "['\U0001F300-\U0001F5FF'|'\U0001F600-\U0001F64F'|'\U0001F680-\U0001F6FF'|'\u2600-\u26FF\u2700-\u27BF']"
print(____(____, ____))