Aggiungere componenti (pipes) in spaCy

Spesso usi un modello spaCy esistente per diversi task di NLP. Tuttavia, in alcuni casi, un componente della pipeline pronto all’uso, come la segmentazione in frasi, può impiegare molto tempo per produrre i risultati attesi. In questo esercizio, farai pratica nell’aggiungere un componente di pipeline a un modello spaCy (pipeline di elaborazione del testo).

Userai le prime cinque recensioni del dataset Amazon Fine Food Reviews per questo esercizio. Puoi accedere a queste recensioni tramite la stringa texts.

Il pacchetto spaCy è già importato e pronto all’uso.

Questo esercizio fa parte del corso

Natural Language Processing con spaCy

Visualizza corso

Istruzioni dell'esercizio

Carica un modello spaCy inglese vuoto e aggiungi il componente sentencizer al modello.
Crea un contenitore Doc per texts, crea una lista per memorizzare le sentences del documento fornito e stampa il numero di frasi.
Stampa l’elenco dei token nella seconda frase dalla lista sentences.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Load a blank spaCy English model and add a sentencizer component
nlp = spacy.____("en")
nlp.____("sentencizer")

# Create Doc containers, store sentences and print its number of sentences
doc = ____
sentences = [____ for s in ____]
print("Number of sentences: ", len(____), "\n")

# Print the list of tokens in the second sentence
print("Second sentence tokens: ", [____ for ____ in sentences[1]])

Modifica ed esegui il codice