1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Working with Hugging Face

Connected

cvičení

Extrakce textu pomocí PyPDF

PyPDF umožňuje extrahovat text z PDF souborů, takže práce s vícestránkovými dokumenty, jako jsou například firemní směrnice, je snadná.

V tomto cvičení načteš soubor US_Employee_Policy.pdf, extrahuješ jeho obsah stránku po stránce a spojíš ho do jednoho řetězce – tím připravíš text pro pipeline pro zodpovídání otázek.

Pokyny

100 XP
  • Importuj potřebnou třídu z pypdf a použij ji k načtení PDF souboru.
  • Přistup k jednotlivým stránkám a extrahuj jejich obsah pomocí správné metody.