Manipulación de conjuntos de datos
Probablemente habrá muchas ocasiones en las que necesites manipular un conjunto de datos antes de utilizarlo en una tarea de ML. Dos manipulaciones comunes son el filtrado y la selección (o corte). Dado el tamaño de estos conjuntos de datos, Hugging Face aprovecha los tipos de archivo arrow.
Esto significa que las manipulaciones son ligeramente diferentes a las que estás acostumbrado. Afortunadamente, ¡ya existen métodos para ayudar con esto!
El conjunto de datos ya está cargado en wikipedia
.
Este ejercicio forma parte del curso
Trabajar con Hugging Face
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Filter the documents
____ = wikipedia.____(lambda row: "football" in row["____"])
# Create a sample dataset
example = ____.____(range(1))
print(example[0]["text"])