Extrakce informací z velkého množství dat z Twitteru

Skvělá práce s rozdělením souboru na chunky v předchozím cvičení! Teď už víš, jak si poradit se situacemi, kdy potřebuješ zpracovat velmi velký soubor – a to je opravdu užitečná dovednost!

Je skvělé umět zpracovat soubor po menších, lépe zvládnutelných částech, ale znovu a znovu psát stejný kód pro stejnou úlohu může být dost únavné. V tomto cvičení svůj kód zefektivníš tak, aby byl znovupoužitelný – zapouzdříš ho z předchozího cvičení do definice funkce.

Balíček pandas je importován jako pd a soubor 'tweets.csv' je k dispozici v tvém aktuálním pracovním adresáři.

Definuj funkci count_entries() se 3 parametry. První parametr je csv_file pro název souboru, druhý je c_size pro velikost chunku a třetí je colname pro název sloupce.
Iteruj přes soubor csv_file pomocí cyklu for. Jako proměnnou cyklu použij chunk a iteruj přes volání funkce pd.read_csv(), přičemž předej c_size jako hodnotu chunksize.
Ve vnitřním cyklu iteruj pomocí cyklu for přes sloupec daný proměnnou colname v objektu chunk. Jako proměnnou cyklu použij entry.
Zavolej funkci count_entries() a předej jí název souboru 'tweets.csv', velikost chunku 10 a název sloupce 'lang'. Výsledek volání přiřaď do proměnné result_counts.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení