Pijplijnen toevoegen in spaCy
Je gebruikt vaak een bestaand spaCy-model voor verschillende NLP-taken. Maar in sommige gevallen kost een standaard pipelinecomponent, zoals zinssegmentatie, veel tijd voordat je het gewenste resultaat krijgt. In deze oefening ga je oefenen met het toevoegen van een pipelinecomponent aan een spaCy-model (tekstverwerkingspipeline).
Voor deze oefening gebruik je de eerste vijf reviews uit de Amazon Fine Food Reviews-gegevensset. Je kunt deze reviews benaderen via de string texts.
Het spaCy-pakket is al voor je geïmporteerd.
Deze oefening maakt deel uit van de cursus
Natural Language Processing met spaCy
Oefeninstructies
- Laad een leeg Engelstalig
spaCy-model en voeg eensentencizer-component toe aan het model. - Maak een
Doc-container voor detexts, maak een lijst om desentencesvan het gegeven document op te slaan en print het aantal zinnen. - Print de lijst met tokens in de tweede zin uit de
sentences-lijst.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Load a blank spaCy English model and add a sentencizer component
nlp = spacy.____("en")
nlp.____("sentencizer")
# Create Doc containers, store sentences and print its number of sentences
doc = ____
sentences = [____ for s in ____]
print("Number of sentences: ", len(____), "\n")
# Print the list of tokens in the second sentence
print("Second sentence tokens: ", [____ for ____ in sentences[1]])