Een spaCy-pijplijn uitvoeren
Je hebt al een spaCy NLP-pijplijn uitgevoerd op één stuk tekst en ook tokens geëxtraheerd uit een lijst met Doc-containers. In deze oefening oefen je de eerste stappen van het draaien van een spaCy-pijplijn op texts, een lijst met tekststrings.
Je gebruikt hiervoor het en_core_web_sm-model. Het spaCy-pakket is al voor je geïmporteerd.
Deze oefening maakt deel uit van de cursus
Natural Language Processing met spaCy
Oefeninstructies
- Laad het
en_core_web_sm-model alsnlp. - Voer een
nlp()-model uit op elk item vantextsen voeg elke overeenkomstigeDoc-container toe aan eendocuments-lijst. - Print de token-teksten voor elke
Doc-container in dedocuments-lijst.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Load en_core_web_sm model as nlp
nlp = spacy.____(____)
# Run an nlp model on each item of texts and append the Doc container to documents
documents = []
for text in ____:
documents.append(____)
# Print the token texts for each Doc container
for doc in documents:
print([____ for ____ in ____])