On mélange tout (1)
Vous avez eu un premier aperçu de l’écriture de vos propres fonctions dans les exercices précédents. Vous avez appris à ajouter des paramètres à vos propres définitions de fonctions, à renvoyer une valeur ou plusieurs valeurs avec des tuples et à appeler les fonctions que vous avez définies.
Dans cet exercice et le suivant, vous réunirez tous ces concepts et les appliquerez à un problème simple de science des données. Vous chargerez un ensemble de données et développerez des fonctionnalités pour extraire des informations simples à partir des données.
Pour cet exercice, votre objectif est de vous rappeler comment charger un ensemble de données dans un DataFrame. L’ensemble de données contient des données Twitter et vous allez itérer sur les entrées d’une colonne pour construire un dictionnaire dans lequel les clés sont les noms des langues et les valeurs sont le nombre de tweets dans la langue donnée. Le fichier tweets.csv
est disponible dans votre répertoire actuel.
Sachez qu’il s’agit de données réelles provenant de Twitter et qu’il y a donc toujours un risque qu’elles contiennent des jurons ou d’autres contenus offensants (dans cet exercice et dans tous les exercices suivants qui utilisent également des données réelles de Twitter).
Cet exercice fait partie du cours
Introduction aux fonctions en Python
Instructions
- Importez le paquet pandas avec l’alias
pd
. - Importez le fichier
'tweets.csv'
à l’aide de la fonction pandasread_csv()
. Affectez le DataFrame résultant àdf
. - Complétez la boucle
for
en itérant surcol
, la colonne'lang'
dans le DataFramedf
. - Complétez les corps des instructions
if-else
dans la boucle for : si (if) la clé se trouve dans le dictionnairelangs_count
, ajoutez1
à la valeur correspondant à cette clé dans le dictionnaire, sinon (else) ajoutez la clé àlangs_count
et définissez la valeur correspondante à1
. Utilisez la variable de boucleentry
dans votre code.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import pandas
# Import Twitter data as DataFrame: df
df = ____
# Initialize an empty dictionary: langs_count
langs_count = {}
# Extract column from DataFrame: col
col = df['lang']
# Iterate over lang column in DataFrame
for entry in ____:
# If the language is in langs_count, add 1
if entry in langs_count.keys():
____
# Else add the language to langs_count, set the value to 1
else:
____
# Print the populated dictionary
print(langs_count)