Zpracování velkého množství twitterových dat

Někdy jsou data, která potřebujeme zpracovat, tak velká, že přesáhnou kapacitu operační paměti počítače. To je problém, se kterým se datová vědci setkávají poměrně běžně. Řešením je zpracovávat celý datový zdroj postupně po částech místo toho, aby se načetl celý najednou.

V tomto cvičení uděláš přesně to. Budeš zpracovávat velký csv soubor s twitterovými daty stejným způsobem, jakým jsi zpracoval/a soubor 'tweets.csv' v cvičeních Bringing it all together v předchozím kurzu – tentokrát ale vždy po 10 záznamech najednou.

Pokud tě zajímá, jak získat přístup k twitterovým datům a pracovat s nimi na vlastním počítači, podívej se na Part 2 kurzu DataCamp věnovaného importu dat v Pythonu.

Balíček pandas je naimportován jako pd a soubor 'tweets.csv' je k dispozici v tvém aktuálním pracovním adresáři.

Měj na paměti, že jde o skutečná data z Twitteru, a proto vždy existuje riziko, že mohou obsahovat vulgární nebo jinak nevhodný obsah (v tomto i v dalších cvičeních pracujících se skutečnými twitterovými daty).

Inicializuj prázdný slovník counts_dict, do kterého budeš ukládat výsledky zpracování twitterových dat.
Iteruj přes soubor 'tweets.csv' pomocí cyklu for. Jako proměnnou cyklu použij chunk a iteruj přes volání pd.read_csv() s hodnotou chunksize nastavenou na 10.
Ve vnitřním cyklu iteruj přes sloupec 'lang' v proměnné chunk pomocí cyklu for. Jako proměnnou cyklu použij entry.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení