Praktische Anwendung (1)
In den vorherigen Übungen hast du erste Erfahrungen mit dem Schreiben eigener Funktionen gemacht. Du hast gelernt, wie du Parameter zu deinen eigenen Funktionsdefinitionen hinzufügst, einen Wert oder mehrere Werte mit Tupeln zurückgibst und wie du die von dir definierten Funktionen aufrufst.
In dieser und der folgenden Übung bringst du all diese Konzepte zusammen und wendest sie auf ein einfaches Data-Science-Problem an. Du lädst einen Datensatz und entwickelst Funktionalitäten, um einfache Erkenntnisse aus den Daten zu gewinnen.
In dieser Übung sollst du dich daran erinnern, wie man einen Datensatz in einen DataFrame lädt. Der Datensatz enthält Twitter-Daten und du wirst über die Einträge in einer Spalte iterieren, um ein Wörterbuch zu erstellen, in dem die Schlüssel die Namen der Sprachen und die Werte die Anzahl der Tweets in der jeweiligen Sprache sind. Die Datei tweets.csv
ist in deinem aktuellen Verzeichnis verfügbar.
Sei dir bewusst, dass es sich um echte Daten von Twitter handelt und daher immer das Risiko besteht, dass sie Schimpfwörter oder andere anstößige Inhalte enthalten (in dieser Aufgabe und allen folgenden Aufgaben, die ebenfalls echte Twitter-Daten verwenden).
Diese Übung ist Teil des Kurses
Einführung in Funktionen in Python
Anleitung zur Übung
- Importiere das Paket pandas mit dem Alias
pd
. - Importiere die Datei
'tweets.csv'
mit der Pandas-Funktionread_csv()
. Weise den resultierenden DataFramedf
zu. - Schließe die
for
-Schleife ab, indem du übercol
iterierst, die Spalte'lang'
im DataFramedf
iterierst. - Vervollständige die Rümpfe der
if-else
-Anweisungen in der for-Schleife: Wenn der Schlüssel im Dictionarylangs_count
steht, füge1
zu dem Wert hinzu, der diesem Schlüssel im Dictionary entspricht, sonst füge den Schlüssel zulangs_count
hinzu und setze den entsprechenden Wert auf1
. Verwende die Schleifenvariableentry
in deinem Code.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Import pandas
# Import Twitter data as DataFrame: df
df = ____
# Initialize an empty dictionary: langs_count
langs_count = {}
# Extract column from DataFrame: col
col = df['lang']
# Iterate over lang column in DataFrame
for entry in ____:
# If the language is in langs_count, add 1
if entry in langs_count.keys():
____
# Else add the language to langs_count, set the value to 1
else:
____
# Print the populated dictionary
print(langs_count)