1. Lära sig
  2. /
  3. Courses
  4. /
  5. Python으로 배우는 NLP 피처 엔지니어링

Connected

exercise

가짜 뉴스에서의 명사 사용

이 연습 문제에서는 가짜 또는 진짜로 분류된 뉴스 헤드라인이 담긴 데이터프레임 headlines가 제공됩니다. 여러분의 과제는 headlines의 title 피처에 포함된 고유 명사와 일반 명사의 개수를 나타내는 두 개의 새 피처 num_propn과 num_noun을 생성하는 것입니다.

다음으로, 가짜 뉴스와 진짜 뉴스 헤드라인에서 사용된 고유 명사와 일반 명사의 평균 개수를 계산하고 값을 비교하겠습니다. 큰 차이가 있다면, 가짜 뉴스 탐지기에 num_propn과 num_noun 피처를 사용했을 때 성능이 향상될 가능성이 높습니다.

이 작업을 수행하기 위해, 이전 연습 문제에서 여러분이 작성했던 함수 proper_nouns와 nouns가 이미 제공되어 있습니다.

Instruktioner 1 / 2

undefined XP
  • 1
    • headlines['title']에 proper_nouns를 적용해 새 피처 num_propn을 만드세요.
    • mean 메서드를 사용해 가짜 뉴스에서 고유 명사의 평균 개수를 계산하도록 headlines를 필터링하세요.
  • 2
    • 일반 명사에 대해서도 같은 과정을 반복하세요: nouns를 사용해 'num_noun' 피처를 만들고 일반 명사의 평균을 계산하세요