Lexicale attributen

In dit voorbeeld gebruik je spaCy's Doc- en Token-objecten en lexicale attributen om percentages in een tekst te vinden. Je zoekt naar twee opeenvolgende tokens: een getal en een procentteken. Het Engelse nlp-object is al aangemaakt.

Deze oefening maakt deel uit van de cursus

Geavanceerde NLP met spaCy

Bekijk cursus

Oefeninstructies

Gebruik het like_num-tokenattribuut om te controleren of een token in doc op een getal lijkt.
Haal het token op dat na het huidige token in het document komt. De index van het volgende token in doc is token.i + 1.
Controleer of het text-attribuut van het volgende token een procentteken "%" is.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Process the text
doc = nlp("In 1990, more than 60% of people in East Asia were in extreme poverty. Now less than 4% are.")

# Iterate over the tokens in the doc
for token in doc:
    # Check if the token resembles a number
    if ____.____:
        # Get the next token in the document
        next_token = ____[____]
        # Check if the next token's text equals '%'
        if next_token.____ == '%':
            print('Percentage found:', token.text)

Code bewerken en uitvoeren