Matchen met uitgebreide syntax in spaCy

Regelgebaseerde informatie-extractie is essentieel voor elke NLP-pijplijn. Met de Matcher-klasse kun je expressievere patronen maken door operatoren toe te staan binnen de accolades. Deze operatoren bieden uitgebreide vergelijkingen en lijken op Python's in, not in en vergelijkingsoperatoren. In deze oefening ga je oefenen met de matchingfunctionaliteit van spaCy, Matcher, om matches te vinden voor opgegeven termen in een voorbeeldtekst.

De klasse Matcher is al geïmporteerd uit de bibliotheek spacy.matcher. Je gebruikt een Doc-container van een voorbeeldtekst in deze oefening via doc. Een vooringeladen spaCy-model is ook beschikbaar als nlp.

Deze oefening maakt deel uit van de cursus

Natural Language Processing met spaCy

Oefeninstructies

Definieer een matcher-object met Matcher en nlp.
Gebruik de operator IN om een patroon te definiëren dat matcht op tiny squares en tiny mouthful.
Gebruik dit patroon om matches te vinden in doc.
Print de start- en eind-tokenindexen en de tekstspanne van de matches.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

nlp = spacy.load("en_core_web_sm")
doc = nlp(example_text)

# Define a matcher object
matcher = Matcher(nlp.____)
# Define a pattern to match tiny squares and tiny mouthful
pattern = [{"lower": ____}, {"lower": {____: ["squares", "mouthful"]}}]

# Add the pattern to matcher object and find matches
matcher.____("CustomMatcher", [____])
matches = ____(____)

# Print out start and end token indices and the matched text span per match
for match_id, start, end in matches:
    print("Start token: ", ____, " | End token: ", ____, "| Matched text: ", doc[____:____].text)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Natural Language Processing met spaCy

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

In dit hoofdstuk maak je kennis met NLP, enkele toepassingsgebieden zoals named entity recognition en AI-aangedreven chatbots. Je leert de krachtige spaCy-bibliotheek gebruiken voor diverse Natural Language Processing-taken zoals tokenization, zinssegmentatie, POS-tagging en named entity recognition.

Exercise 1: Basis van Natural Language Processing (NLP)Exercise 2: Doc-container in spaCy Exercise 3: Gebruiksscenario van NER Exercise 4: Tokenization met spaCy Exercise 5: spaCy-basics Exercise 6: Een spaCy-pijplijn uitvoeren Exercise 7: Lemmatization met spaCy Exercise 8: Zinssegmentatie met spaCy Exercise 9: Taalkenmerken in spaCy Exercise 10: POS-tagging met spaCy Exercise 11: NER met spaCy Exercise 12: Tekstverwerking met spaCy

Leer over taalkundige kenmerken, woordvectoren, semantische gelijkenis, analogieën en bewerkingen met woordvectoren. In dit hoofdstuk ontdek je hoe je met spaCy woordvectoren extraheert, teksten categoriseert die relevant zijn voor een bepaald onderwerp en semantisch vergelijkbare termen vindt voor opgegeven woorden uit een corpus of uit de woordenschat van een spaCy-model.

Exercise 1: Linguïstische kenmerken Exercise 2: Linguïstische annotaties in spaCy Exercise 3: Woordbetekenis-ontleding met spaCy Exercise 4: Dependency parsing met spaCy Exercise 5: Introductie tot woordvectoren Exercise 6: spaCy-woordenschat Exercise 7: Woordvectoren in de spaCy-woordenschat Exercise 8: Woordvectoren en spaCy Exercise 9: Analogieën en vectorbewerkingen Exercise 10: Projectie van woordvectoren Exercise 11: Soortgelijke woorden in een vocabulaire Exercise 12: Semantische overeenkomsten meten met spaCy Exercise 13: Doc-overeenkomst met spaCy Exercise 14: Span-overeenkomst met spaCy Exercise 15: Semantische gelijkenis voor het categoriseren van tekst

Maak kennis met spaCy-pipelinecomponenten, hoe je een pipelinecomponent toevoegt en analyseer de NLP-pipeline. Je leert ook meerdere aanpakken voor regelgebaseerde informatie-extractie met de EntityRuler-, Matcher- en PhraseMatcher-klassen in spaCy en het Python-pakket RegEx.

Exercise 1: spaCy-pijplijnen Exercise 2: Pijplijnen toevoegen in spaCy Exercise 3: Pipelines in spaCy analyseren Exercise 4: spaCy EntityRuler Exercise 5: EntityRuler met een lege spaCy‑model Exercise 6: EntityRuler voor NER Exercise 7: EntityRuler met meerdere patronen in spaCy Exercise 8: RegEx met spaCy Exercise 9: RegEx in Python Exercise 10: RegEx met EntityRuler in spaCy Exercise 11: spaCy Matcher en PhraseMatcher Exercise 12: Eén term matchen in spaCy Exercise 13: PhraseMatcher in spaCy Exercise 14: Matchen met uitgebreide syntax in spaCy

Huidige oefening

Verken meerdere praktijkgevallen waarin spaCy-modellen kunnen falen en leer hoe je ze verder traint om de modelprestaties te verbeteren. Je maakt kennis met de trainingsstappen van spaCy en begrijpt hoe je een bestaand spaCy-model of een model vanaf nul traint en het model tijdens inference evalueert.

Exercise 1: spaCy-modellen aanpassen Exercise 2: spaCy-modellen trainen Exercise 3: Modelprestaties op je eigen data Exercise 4: spaCy-trainingsdataformaat Exercise 5: Trainingsstappen Exercise 6: Annoteren en trainingsdata voorbereiden Exercise 7: Compatibele trainingsdata Exercise 8: Trainen met spaCy Exercise 9: Stappen ter voorbereiding van training Exercise 10: Train een bestaand NER-model Exercise 11: Een spaCy-model vanaf nul trainen Exercise 12: Afronding