CommencerCommencer gratuitement

On mélange tout (1)

Vous avez eu un premier aperçu de l’écriture de vos propres fonctions dans les exercices précédents. Vous avez appris à ajouter des paramètres à vos propres définitions de fonctions, à renvoyer une valeur ou plusieurs valeurs avec des tuples et à appeler les fonctions que vous avez définies.

Dans cet exercice et le suivant, vous réunirez tous ces concepts et les appliquerez à un problème simple de science des données. Vous chargerez un ensemble de données et développerez des fonctionnalités pour extraire des informations simples à partir des données.

Pour cet exercice, votre objectif est de vous rappeler comment charger un ensemble de données dans un DataFrame. L’ensemble de données contient des données Twitter et vous allez itérer sur les entrées d’une colonne pour construire un dictionnaire dans lequel les clés sont les noms des langues et les valeurs sont le nombre de tweets dans la langue donnée. Le fichier tweets.csv est disponible dans votre répertoire actuel.

Sachez qu’il s’agit de données réelles provenant de Twitter et qu’il y a donc toujours un risque qu’elles contiennent des jurons ou d’autres contenus offensants (dans cet exercice et dans tous les exercices suivants qui utilisent également des données réelles de Twitter).

Cet exercice fait partie du cours

Introduction aux fonctions en Python

Afficher le cours

Instructions

  • Importez le paquet pandas avec l’alias pd.
  • Importez le fichier 'tweets.csv' à l’aide de la fonction pandas read_csv(). Affectez le DataFrame résultant à df.
  • Complétez la boucle for en itérant sur col, la colonne 'lang' dans le DataFrame df.
  • Complétez les corps des instructions if-else dans la boucle for : si (if) la clé se trouve dans le dictionnaire langs_count, ajoutez 1 à la valeur correspondant à cette clé dans le dictionnaire, sinon (else) ajoutez la clé à langs_count et définissez la valeur correspondante à 1. Utilisez la variable de boucle entry dans votre code.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import pandas


# Import Twitter data as DataFrame: df
df = ____

# Initialize an empty dictionary: langs_count
langs_count = {}

# Extract column from DataFrame: col
col = df['lang']

# Iterate over lang column in DataFrame
for entry in ____:

    # If the language is in langs_count, add 1 
    if entry in langs_count.keys():
        ____
    # Else add the language to langs_count, set the value to 1
    else:
        ____

# Print the populated dictionary
print(langs_count)
Modifier et exécuter le code