Schiefe Daten mit einem Permutationstest analysieren

Permutationstests sind hilfreich, wenn die Voraussetzungen der dir bekannten Hypothesentests nicht erfüllt sind. In dieser Übung programmierst du einen Permutationstest mit dem Paket statsmodels.

Du möchtest die durchschnittliche Anzahl an Finanzierungsrunden zwischen Unternehmen im Analytics-Bereich und allen anderen, durch Wagniskapital finanzierten Unternehmen vergleichen. Auch wenn ein t-Test naheliegt, weißt du, dass die Anzahl der Finanzierungsrunden nicht normalverteilt ist. Stattdessen haben die meisten Unternehmen nur eine Runde, und die Zahl der Unternehmen mit zwei oder mehr Runden nimmt schnell ab.

Folgendes wurde für dich geladen:

analytics_df – Daten zu allen Analytics-Unternehmen
non_analytics_df – Daten zu allen anderen Nicht-Analytics-Unternehmen

Diese Übung ist Teil des Kurses

<Kurs>Grundlagen der Inferenz in Python</Kurs>

Übungsanweisungen

Definiere eine Statistikfunktion, die für zwei Stichproben fundings_group_1 und fundings_group_2 die Differenz der mittleren Anzahl an funding_rounds zurückgibt.
Führe einen Permutationstest mit der Spalte funding_rounds aus jedem Datensatz, der von dir definierten Statistikfunktion und 100 Resamples durch.
Gib den daraus resultierenden p-Wert deines Permutationstests aus.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Write a "statistic" function which calculates the difference in means
def statistic(funding_group_1, funding_group_2):
  return ____(fundings_group_1) - ____(funding_group_2)

# Conduct a permutation test using 100 resamples
perm_result = stats.permutation_test((____['funding_rounds'], ____['funding_rounds']),
                                    statistic=____,
                                    n_resamples=____,
                                    vectorized=____)

# Print the p-value
____(____.pvalue)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Grundlagen der Inferenz in Python</Kurs>

Hohe SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

In diesem Kapitel untersuchen wir die Beziehung zwischen Stichproben und statistisch begründbaren Schlussfolgerungen. Die Wahl der Stichprobe ist die Grundlage für solide statistische Entscheidungen, und wir zeigen, wie sich die Auswahl einer Stichprobe auf das Ergebnis deiner Inferenz auswirkt.

Exercise 1: Statistische Inferenz und Zufallsstichprobe Exercise 2: Stichproben und Punktschätzer Exercise 3: Wiederholtes Sampling, Punktschätzungen und Inferenz Exercise 4: Stichproben und Bias Exercise 5: Stichproben visualisieren Exercise 6: Inferenz und Verzerrung Exercise 7: Konfidenzintervalle und Stichproben Exercise 8: Normale Stichprobenverteilungen Exercise 9: Konfidenzintervalle berechnen Exercise 10: Schlussfolgerungen aus Stichproben ziehen

Lerne, wie du Tests auf Normalverteilung, Korrelation sowie parametrische und nichtparametrische Tests für belastbare Inferenz anwendest. Hypothesentests sind Werkzeuge, und das richtige Werkzeug für die Aufgabe zu wählen, ist entscheidend für statistische Entscheidungen. Auch wenn dir einige dieser Tests aus Einsteigerkursen bekannt sind, gehst du hier tiefer, um deinen Inferenz-Werkzeugkasten zu erweitern.

Exercise 1: Normalitätstests Exercise 2: Auf Normalverteilung testen Exercise 3: Verteilung der Fehler Exercise 4: Anpassen einer Normalverteilung Exercise 5: Korrelationstests Exercise 6: Auf Korrelation testen Exercise 7: Autokorrelation Exercise 8: Erklärte Varianz Exercise 9: Parametrische Tests Exercise 10: Gleiche Varianz Exercise 11: Normalität von Gruppen Exercise 12: ANOVA Exercise 13: Nichtparametrische Tests Exercise 14: Ranglisten vergleichen Exercise 15: Medianwerte vergleichen

In diesem Kapitel misst und interpretierst du Effektstärken in verschiedenen Situationen, begegnest dem Problem der multiplen Vergleiche und untersuchst die Teststärke (Power) im Detail. Während p-Werte dir sagen, ob ein signifikanter Effekt vorliegt, verraten sie nicht, wie stark dieser ist. Die Effektstärke misst, wie stark die Wirkung einer Behandlung ausfällt. Meistere in diesem Kapitel die Faktoren, die der Effektstärke zugrunde liegen.

Exercise 1: Effektstärke Exercise 2: Effektstärke für Mittelwerte Exercise 3: Effektstärke für Korrelationen Exercise 4: Effektstärke für kategoriale Variablen Exercise 5: Mehrfachvergleiche und Korrekturen Exercise 6: Problem der multiplen Vergleiche Exercise 7: Bonferroni-Holm-Korrektur Exercise 8: Teststärke Exercise 9: Was ist eigentlich Power?Exercise 10: Power für Versuchsplanung Exercise 11: Power und Stichprobengrößen berechnen

Du erweiterst deinen Werkzeugkasten der Inferenzstatistik weiter mit einem Blick auf Bootstrapping, Permutationstests und Methoden zum Kombinieren von Evidenz aus p-Werten. Bootstrapping bietet dir einen ersten Einblick in statistische Simulation. In der Lektion zur Metaanalyse lernst du, wie du Ergebnisse aus mehreren Studien zusammenführst. Zum Abschluss schaust du dir Permutationstests an – ein leistungsfähiges und flexibles nichtparametrisches statistisches Werkzeug.

Exercise 1: Bootstrapping Exercise 2: Bootstrap-Konfidenzintervalle Exercise 3: Bootstrapping vs. Normalverteilung Exercise 4: Evidenz aus p-Werten kombinieren Exercise 5: Fishers Methode in SciPy Exercise 6: Schlussfolgern mit Fishers Methode Exercise 7: Fishers Methode zusammenfassen Exercise 8: Permutationstests Exercise 9: Permutationstests für Korrelationen Exercise 10: Permutationstests und Bootstrapping Exercise 11: Schiefe Daten mit einem Permutationstest analysieren

Aktuelle Übung

Exercise 12: Abschließendes Kursvideo