Datensätze bearbeiten
Es wird wahrscheinlich oft vorkommen, dass du einen Datensatz bearbeiten musst, bevor du ihn für eine ML-Aufgabe verwenden kannst. Zwei gängige Bearbeitungen sind das Filtern und das Auswählen (oder Schneiden). Wegen der Größe dieser Datensätze nutzt Hugging Face die Dateiformate von Arrow.
Das heißt, die Bedienung ist ein bisschen anders, als du es vielleicht gewohnt bist. Zum Glück gibt's schon Methoden, die dabei helfen!
Der Datensatz ist schon für dich unter „ wikipedia “ geladen.
Diese Übung ist Teil des Kurses
Arbeiten mit Hugging Face
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Filter the documents
____ = wikipedia.____(lambda row: "football" in row["____"])
# Create a sample dataset
example = ____.____(range(1))
print(example[0]["text"])