1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Python Toolbox

Connected

cvičení

Extrakce informací z velkého množství dat z Twitteru

Skvělá práce s rozdělením souboru na chunky v předchozím cvičení! Teď už víš, jak si poradit se situacemi, kdy potřebuješ zpracovat velmi velký soubor – a to je opravdu užitečná dovednost!

Je skvělé umět zpracovat soubor po menších, lépe zvládnutelných částech, ale znovu a znovu psát stejný kód pro stejnou úlohu může být dost únavné. V tomto cvičení svůj kód zefektivníš tak, aby byl znovupoužitelný – zapouzdříš ho z předchozího cvičení do definice funkce.

Balíček pandas je importován jako pd a soubor 'tweets.csv' je k dispozici v tvém aktuálním pracovním adresáři.

Pokyny

100 XP
  • Definuj funkci count_entries() se 3 parametry. První parametr je csv_file pro název souboru, druhý je c_size pro velikost chunku a třetí je colname pro název sloupce.
  • Iteruj přes soubor csv_file pomocí cyklu for. Jako proměnnou cyklu použij chunk a iteruj přes volání funkce pd.read_csv(), přičemž předej c_size jako hodnotu chunksize.
  • Ve vnitřním cyklu iteruj pomocí cyklu for přes sloupec daný proměnnou colname v objektu chunk. Jako proměnnou cyklu použij entry.
  • Zavolej funkci count_entries() a předej jí název souboru 'tweets.csv', velikost chunku 10 a název sloupce 'lang'. Výsledek volání přiřaď do proměnné result_counts.