1. 학습
  2. /
  3. 강의
  4. /
  5. Python에서 데이터 가져오기 입문

Connected

연습 문제

pandas 가져오기 설정 맞춤화

pandas 패키지는 데이터 과학자가 데이터 가져오기에서 자주 마주치는 문제, 예를 들어 평면 파일(flat file)의 주석, 빈 줄, 누락값(NA 또는 NaN)을 다루는 데 매우 뛰어나요. 이 장을 마무리하며, '#' 문자 뒤에 주석이 있고 탭으로 구분된 타이타닉 데이터셋의 손상된 사본 titanic_corrupt.txt를 가져와 보겠습니다.

pd.read_csv()의 주요 인수는 다음과 같아요:

  • sep는 예상되는 구분 기호를 설정해요.
    • 쉼표로 구분된 경우는 ','를 사용할 수 있어요.
    • 탭으로 구분된 경우는 '\t'를 사용할 수 있어요.
  • comment는 파일에서 주석이 시작되는 문자를 지정하며, 이 문자로 시작하는 텍스트는 무시돼요.
  • na_values는 NA/NaN으로 인식할 문자열의 리스트를 받아요. 기본적으로 일부 값은 이미 NA/NaN으로 인식되며, 이 인수를 제공하면 추가로 인식할 값을 지정할 수 있어요.

지침

100 XP
  • pd.read_csv()의 인수를 완성해 pandas로 titanic_corrupt.txt를 올바르게 가져오세요:
    • sep는 사용할 구분 기호를 설정하며, np.loadtxt()의 delimiter 인수와 동일하게 동작해요. 이번에 가져올 파일은 탭으로 구분되어 있다는 점에 유의하세요.
    • comment는 파일에서 주석이 시작되는 문자를 지정하며, 여기서는 '#'예요.
    • na_values는 NA/NaN으로 처리할 문자열 리스트를 받으며, 여기서는 'Nothing' 문자열이에요.
  • 나머지 코드를 실행해 생성된 DataFrame의 앞부분을 출력하고, 타이타닉 승객의 'Age'에 대한 히스토그램을 그려 보세요.