주석 처리된 행 제거하기

상사는 새 데이터셋에 대해 복잡한 파싱을 수행해 달라고 요청했어요. 이 데이터는 ImageNet 데이터셋의 주석 데이터이며, 특히 개 품종과 이미지에서의 식별에 초점을 맞춥니다. 실제 분석을 하기 전에, 잘못되었거나 유효하지 않은 데이터를 여러 부분에서 정리해야 해요. 문서의 전체 스키마는 알려져 있지 않으므로, 빠른 분석을 위해 우선 모든 행을 단일 열로 가져오려고 합니다.

먼저, 데이터셋에서 모든 주석 처리된 행을 제거해야 해요.

spark 컨텍스트와 기본 CSV 파일(annotations.csv.gz)은 이미 준비되어 있어요. col 함수도 사용할 수 있어요.