1. 학습
  2. /
  3. 강의
  4. /
  5. Hugging Face 활용하기

Connected

연습 문제

데이터셋 조작하기

ML 작업에 사용하기 전에 데이터셋을 조작해야 하는 경우가 자주 있습니다. 흔히 사용하는 두 가지 조작은 필터링과 선택(또는 슬라이싱)입니다. 이러한 데이터셋의 크기가 크기 때문에 Hugging Face는 Arrow 파일 형식을 사용합니다.

이는 조작 방법이 평소에 하던 방식과 조금 다를 수 있다는 뜻입니다. 다행히 이를 도와주는 메서드가 이미 준비되어 있어요!

데이터셋은 이미 wikipedia로 로드되어 있습니다.

지침 1/2

undefined XP
    1
    2
  • text 열에 "football"이라는 용어가 있는 행만 남기도록 데이터셋을 필터링하고 filtered에 저장하세요.
  • 필터링된 데이터셋에서 단일 예시를 선택해 example에 저장하세요.