IniziaInizia gratis

Tokenizzazione non ASCII

In questo esercizio metterai in pratica una tokenizzazione avanzata lavorando con testo non ASCII. Userai il tedesco con delle emoji!

Qui hai a disposizione una stringa chiamata german_text, già stampata per te nella Shell. Nota le emoji e i caratteri tedeschi!

I seguenti moduli sono già stati importati da nltk.tokenize: regexp_tokenize e word_tokenize.

Gli intervalli Unicode per le emoji sono:

('\U0001F300'-'\U0001F5FF'), ('\U0001F600-\U0001F64F'), ('\U0001F680-\U0001F6FF'), e ('\u2600'-\u26FF-\u2700-\u27BF').

Questo esercizio fa parte del corso

Introduzione al Natural Language Processing in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Tokenizza tutte le parole in german_text usando word_tokenize() e stampa il risultato.
  • Tokenizza solo le parole con iniziale maiuscola in german_text.
    • Per prima cosa, scrivi un pattern chiamato capital_words per intercettare solo parole con iniziale maiuscola. Assicurati di includere la Ü tedesca! Per usare questo carattere nell’esercizio, copialo e incollalo da queste istruzioni.
    • Poi, tokenizzale usando regexp_tokenize().
  • Tokenizza solo le emoji in german_text. Il pattern che usa gli intervalli Unicode per le emoji forniti nel testo dell’esercizio è già stato scritto per te. Il tuo compito è usare regexp_tokenize() per tokenizzare le emoji.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Tokenize and print all words in german_text
all_words = ____(____)
print(all_words)

# Tokenize and print only capital words
capital_words = r"[____]\w+"
print(____(____, ____))

# Tokenize and print only emoji
emoji = "['\U0001F300-\U0001F5FF'|'\U0001F600-\U0001F64F'|'\U0001F680-\U0001F6FF'|'\u2600-\u26FF\u2700-\u27BF']"
print(____(____, ____))
Modifica ed esegui il codice