LoslegenKostenlos loslegen

Datensätze bearbeiten

Es wird wahrscheinlich viele Situationen geben, in denen du einen Datensatz bearbeiten musst, bevor du ihn in einer ML-Aufgabe verwenden kannst. Zwei typische Operationen sind Filtern und Auswählen (oder Slicen). Aufgrund der Größe dieser Datensätze nutzt Hugging Face Arrow-Dateitypen.

Das bedeutet, dass Bearbeitungen etwas anders ablaufen können, als du es gewohnt bist. Zum Glück gibt es dafür bereits passende Methoden!

Der Datensatz ist bereits unter wikipedia für dich geladen.

Diese Übung ist Teil des Kurses

Arbeiten mit Hugging Face

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Filter the documents
____ = wikipedia.____(lambda row: "football" in row["____"])

# Create a sample dataset
example = ____.____(range(1))

print(example[0]["text"])
Code bearbeiten und ausführen