SMS 스팸 파이프라인

SMS 데이터를 다룬 지 꽤 되었네요. 지난번에는 다음을 수행했어요:

텍스트를 토큰으로 분할함
불용어를 제거함
해싱 트릭을 적용함
카운트 기반 데이터를 IDF로 변환함
로지스틱 회귀 모델을 학습함

이 단계들은 각각 독립적으로 수행되었습니다. 파이프라인을 적용하면 아주 잘 맞겠지요!

Pipeline과 LogisticRegression 클래스는 이미 세션에 임포트되어 있으니, 따로 신경 쓰지 않으셔도 됩니다!

텍스트를 토큰으로 분할하는 객체를 만드세요.
불용어를 제거하는 객체를 만드세요. 입력 컬럼 이름을 직접 지정하는 대신, 이전 객체의 getOutputCol() 메서드를 사용하세요.
해싱 트릭을 적용하고 데이터를 TF-IDF로 변환하는 객체들을 만드세요. 이때도 getOutputCol() 메서드를 사용하세요.
위의 모든 단계를 감싸고, 로지스틱 회귀 모델 객체를 포함하는 파이프라인을 만드세요.