1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 배우는 빅데이터 기초

Connected

연습 문제

필터링과 개수 세기

RDD 변환인 filter()는 특정 함수를 만족하는 요소만 포함하는 새로운 RDD를 반환해요. 이는 키워드를 기준으로 대규모 데이터셋을 거를 때 유용합니다. 이번 연습에서는 README.md 파일의 텍스트 줄로 구성된 fileRDD RDD에서 키워드 Spark를 포함하는 줄만 걸러낼 거예요. 그다음 키워드 Spark를 포함하는 전체 줄 수를 세고, 마지막으로 필터링된 RDD의 처음 4줄을 출력하세요.

작업 공간에는 이미 SparkContext sc, file_path, 그리고 fileRDD가 준비되어 있어요.

지침

100 XP
  • 키워드 Spark를 포함하는 줄만 선택하도록 filter() 변환을 만드세요.
  • fileRDD_filter에는 키워드 Spark가 몇 줄 포함되어 있나요?
  • 결과 RDD의 처음 네 줄을 출력하세요.