Aan de slagGa gratis aan de slag

Pijplijnen toevoegen in spaCy

Je gebruikt vaak een bestaand spaCy-model voor verschillende NLP-taken. Maar in sommige gevallen kost een standaard pipelinecomponent, zoals zinssegmentatie, veel tijd voordat je het gewenste resultaat krijgt. In deze oefening ga je oefenen met het toevoegen van een pipelinecomponent aan een spaCy-model (tekstverwerkingspipeline).

Voor deze oefening gebruik je de eerste vijf reviews uit de Amazon Fine Food Reviews-gegevensset. Je kunt deze reviews benaderen via de string texts.

Het spaCy-pakket is al voor je geïmporteerd.

Deze oefening maakt deel uit van de cursus

Natural Language Processing met spaCy

Cursus bekijken

Oefeninstructies

  • Laad een leeg Engelstalig spaCy-model en voeg een sentencizer-component toe aan het model.
  • Maak een Doc-container voor de texts, maak een lijst om de sentences van het gegeven document op te slaan en print het aantal zinnen.
  • Print de lijst met tokens in de tweede zin uit de sentences-lijst.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Load a blank spaCy English model and add a sentencizer component
nlp = spacy.____("en")
nlp.____("sentencizer")

# Create Doc containers, store sentences and print its number of sentences
doc = ____
sentences = [____ for s in ____]
print("Number of sentences: ", len(____), "\n")

# Print the list of tokens in the second sentence
print("Second sentence tokens: ", [____ for ____ in sentences[1]])
Code bewerken en uitvoeren