1. Nauka
  2. /
  3. Kursy
  4. /
  5. Praca z Hugging Face

Connected

ćwiczenie

Manipulowanie zbiorami danych

Bardzo często przed użyciem zbioru danych w zadaniu uczenia maszynowego trzeba go najpierw odpowiednio przetworzyć. Dwie najczęstsze operacje to filtrowanie i wybieranie (czyli wycinanie fragmentów). Ze względu na rozmiar zbiorów danych Hugging Face korzysta z formatu plików Arrow.

Oznacza to, że sposób wykonywania tych operacji nieco różni się od tego, do czego możesz być przyzwyczajony/przyzwyczajona. Na szczęście dostępne są już gotowe metody, które w tym pomagają!

Zbiór danych jest już wczytany jako wikipedia.

Instrukcje 1/2

undefined XP
    1
    2
  • Przefiltruj zbiór danych, wybierając wiersze zawierające frazę "football" w kolumnie text, i zapisz wynik jako filtered.
  • Wybierz jeden przykład z przefiltrowanego zbioru danych i zapisz go jako example.