Lexicale attributen
In dit voorbeeld gebruik je spaCy's Doc- en Token-objecten en lexicale attributen om percentages in een tekst te vinden. Je zoekt naar twee opeenvolgende tokens: een getal en een procentteken. Het Engelse nlp-object is al aangemaakt.
Deze oefening maakt deel uit van de cursus
Geavanceerde NLP met spaCy
Oefeninstructies
- Gebruik het
like_num-tokenattribuut om te controleren of een token indocop een getal lijkt. - Haal het token op dat na het huidige token in het document komt. De index van het volgende token in
docistoken.i + 1. - Controleer of het
text-attribuut van het volgende token een procentteken "%" is.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Process the text
doc = nlp("In 1990, more than 60% of people in East Asia were in extreme poverty. Now less than 4% are.")
# Iterate over the tokens in the doc
for token in doc:
# Check if the token resembles a number
if ____.____:
# Get the next token in the document
next_token = ____[____]
# Check if the next token's text equals '%'
if next_token.____ == '%':
print('Percentage found:', token.text)