대용량 Twitter 데이터 처리하기

처리해야 하는 데이터가 컴퓨터 메모리로 감당하기 어려울 만큼 커지는 경우가 있습니다. 데이터 과학자들이 자주 겪는 문제죠. 이에 대한 한 가지 해결책은 전체 데이터 소스를 한 번에 모두 처리하는 대신, 여러 청크로 나누어 순차적으로 처리하는 것입니다.

이번 연습 문제에서는 바로 그 방법을 적용해 보겠습니다. 프리퀄 코스의 Bringing it all together 연습 문제에서처럼 Twitter 데이터의 큰 csv 파일을 처리하되, 이번에는 한 번에 10개 항목씩 청크 단위로 작업할 거예요.

자신의 시스템에서 작업할 수 있도록 Twitter 데이터에 접근하는 방법이 궁금하다면, DataCamp의 Importing Data in Python Part 2 과정을 참고하세요.

pandas 패키지는 pd로 임포트되어 있으며, 현재 디렉터리에 'tweets.csv' 파일이 준비되어 있습니다.

이 데이터는 실제 Twitter 데이터이므로, 비속어나 불쾌감을 줄 수 있는 내용이 포함될 위험이 항상 있습니다(이번 연습 문제 및 이후 실제 Twitter 데이터를 사용하는 연습 문제 전반에 해당).

Twitter 데이터를 처리한 결과를 저장할 빈 사전 counts_dict를 초기화하세요.
for 루프를 사용해 'tweets.csv' 파일을 순회하세요. 루프 변수는 chunk로 하고, pd.read_csv() 호출에 chunksize를 10으로 지정해 순회하세요.
안쪽 루프에서는 for 루프를 사용해 chunk의 'lang' 열을 순회하세요. 루프 변수는 entry를 사용하세요.