Lange tekst samenvatten
Samenvatten zet grote stukken tekst om in behapbare inhoud, zodat lezers snel de kern uit lange artikelen of documenten kunnen halen.
Er zijn grofweg twee typen: extractief, waarbij kernzinnen uit de oorspronkelijke tekst worden gekozen, en abstracterend, waarbij nieuwe zinnen worden gegenereerd die de hoofdlijnen samenvatten.
In deze oefening maak je een abstracterende summarization-pipeline met de pipeline()-functie van Hugging Face en het cnicu/t5-small-booksum-model. Je vat tekst samen van een Wikipedia-pagina over Griekenland en vergelijkt de geherformuleerde output van het abstracterende model met het origineel.
De pipeline-functie uit de transformers-bibliotheek en de original_text zijn al voor je geladen.
Deze oefening maakt deel uit van de cursus
Werken met Hugging Face
Oefeninstructies
- Maak de summarization-
pipelinemet de taak "summarization" en sla deze op alssummarizer. - Gebruik de nieuwe pipeline om een samenvatting van de tekst te maken en sla deze op als
summary_text. - Vergelijk de lengte van de oorspronkelijke tekst met die van de samenvatting.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create the summarization pipeline
summarizer = ____(____="____", model="cnicu/t5-small-booksum")
# Summarize the text
summary_text = ____(original_text)
# Compare the length
print(f"Original text length: {len(original_text)}")
print(f"Summary length: {len(____[0]['____'])}")