Aan de slagGa gratis aan de slag

Lange tekst samenvatten

Samenvatten zet grote stukken tekst om in behapbare inhoud, zodat lezers snel de kern uit lange artikelen of documenten kunnen halen.

Er zijn grofweg twee typen: extractief, waarbij kernzinnen uit de oorspronkelijke tekst worden gekozen, en abstracterend, waarbij nieuwe zinnen worden gegenereerd die de hoofdlijnen samenvatten.

In deze oefening maak je een abstracterende summarization-pipeline met de pipeline()-functie van Hugging Face en het cnicu/t5-small-booksum-model. Je vat tekst samen van een Wikipedia-pagina over Griekenland en vergelijkt de geherformuleerde output van het abstracterende model met het origineel.

De pipeline-functie uit de transformers-bibliotheek en de original_text zijn al voor je geladen.

Deze oefening maakt deel uit van de cursus

Werken met Hugging Face

Cursus bekijken

Oefeninstructies

  • Maak de summarization-pipeline met de taak "summarization" en sla deze op als summarizer.
  • Gebruik de nieuwe pipeline om een samenvatting van de tekst te maken en sla deze op als summary_text.
  • Vergelijk de lengte van de oorspronkelijke tekst met die van de samenvatting.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create the summarization pipeline
summarizer = ____(____="____", model="cnicu/t5-small-booksum")

# Summarize the text
summary_text = ____(original_text)

# Compare the length
print(f"Original text length: {len(original_text)}")
print(f"Summary length: {len(____[0]['____'])}")
Code bewerken en uitvoeren