Hoe voer je de permutatietoets uit

Op basis van onze EDA en parameterinschattingen is het lastig om verbetering van halve finale naar finale te zien. In de volgende oefening ga je de hypothese testen dat er geen verschil is in prestaties tussen halve finales en finales. Een permutatietoets past hier goed bij. We gebruiken de gemiddelde waarde van f als toetsingsgrootheid. Welke van de volgende opties simuleert het verkrijgen van de toetsingsgrootheid onder de nulhypothese?

Strategie 1
Neem voor elke zwemmer en elke slag/afstand een array met tijden van de halve finale en een array met tijden van de finale.
Doorloop elke array en wissel voor elke index met 50% kans de waarden in de respectieve finale- en halvefinale-array om.
Gebruik de resulterende finale- en halvefinale-arrays om f te berekenen en vervolgens het gemiddelde van f.
Strategie 2
Neem voor elke zwemmer en elke slag/afstand een array met tijden van de halve finale en een array met tijden van de finale en concateneer die, zodat je in totaal 96 waarden hebt.
Hussel de geconcateneerde array met de functie np.permutation(). Wijs de eerste 48 waarden in de gehusselde array toe aan "semifinal" en de laatste 48 aan "final".
Bereken f op basis van deze nieuwe halvefinale- en finale-arrays en bereken daarna het gemiddelde van f.
Strategie 3
Neem de array f die we in de vorige oefening gebruikten.
Vermenigvuldig elk element van f met 1 of -1 met gelijke kans.
Bereken het gemiddelde van deze nieuwe array om de toetsingsgrootheid te krijgen.
Strategie 4
Definieer een functie met signatuur compute_f(semi_times, final_times) om f te berekenen op basis van ingevoerde zwemtijd-arrays.
Trek een permutatiereplicaat met dcst.draw_perm_reps(semi_times, final_times, compute_f).

Deze oefening maakt deel uit van de cursus

Casestudies in statistisch denken

Interactieve oefening met praktijkervaring

Zet theorie om in actie met een van onze interactieve oefeningen

Deze oefening maakt deel uit van de cursus

Casestudies in statistisch denken

SkillTag.level.intermediateSkillTag.label

4.9+

Begin gratis met de cursus

Om te beginnen gebruik je twee gegevenssets van Caltech-onderzoekers om de kernpunten van Statistical Thinking I en II op te frissen en je klaar te stomen voor de volgende casestudies!

Exercise 1: Activiteit van zebravissen en melatonine Exercise 2: EDA: Plot ECDF's van actieve bout-lengte Exercise 3: ECDF's en het verhaal interpreteren Exercise 4: Bootstrap-betrouwbaarheidsintervallen Exercise 5: Parameterinschatting: lengte van actieve bout Exercise 6: Permutatie- en bootstrap-hypothesetoetsen Exercise 7: Permutatietoets: wildtype versus heterozygoot Exercise 8: Bootstrap-hypothesetoets Exercise 9: Lineaire regressies en pairs-bootstrap Exercise 10: De groeisnelheid bepalen Exercise 11: De groeicurve plotten

In dit hoofdstuk oefen je je EDA-, parameterinschatting- en hypothesetoetsingsvaardigheden op de resultaten van de FINA Wereldkampioenschappen Zwemmen 2015.

Exercise 1: Introductie tot zwemdata Exercise 2: Grafische EDA van de series 200 m vrije slag mannen Exercise 3: 200 m vrije slag met betrouwbaarheidsinterval Exercise 4: Zwemmen sporters sneller in de finale?Exercise 5: EDA: finales versus halve finales Exercise 6: Parameterinschattingen van het verschil tussen finales en halve finales Exercise 7: Hoe voer je de permutatietoets uit

Huidige oefening

Exercise 8: Permutatiesteekproeven genereren Exercise 9: Hypothesetoets: Zwemmen vrouwen hetzelfde in halve finales en finales?Exercise 10: Hoe neemt de prestatie van zwemmers af bij lange nummers?Exercise 11: EDA: Plot al je data Exercise 12: Lineaire regressie van gemiddelde splittijd Exercise 13: Hypothesetoets: gaan ze langzamer?

Sommige zwemmers zeiden dat het in de Wereldkampioenschappen 2013 makkelijker voelde om in de ene richting te zwemmen dan in de andere. Sommige analisten stelden dat er een wervelende stroming in het bad was. In dit hoofdstuk onderzoek je die claim! Referenties - <a href="https://qz.com/761280/researchers-believe-certain-lanes-in-the-olympic-pool-may-have-given-some-swimmers-an-advantage/" target="_blank">Quartz Media</a>, <a href="https://www.washingtonpost.com/news/wonk/wp/2016/09/01/these-charts-clearly-show-how-some-olympic-swimmers-may-have-gotten-an-unfair-advantage/?utm_term=.dba907006ba1" target="_blank">Washington Post</a>, <a href="https://swimswam.com/rio-olympic-test-event-showed-same-pool-bias-2-0/" target="_blank">SwimSwam</a> (en ook <a href="https://swimswam.com/problem-rio-pool/" target="_blank">hier)</a>, en <a href="https://www.ncbi.nlm.nih.gov/pubmed/25003776" target="_blank">Cornett, et al</a>.

Exercise 1: Introductie van de stromingscontroverse Exercise 2: Een maatstaf voor verbetering Exercise 3: ECDF van verbetering van lage naar hoge banen Exercise 4: Schatting van gemiddelde verbetering Exercise 5: Hoe testen we de hypothese?Exercise 6: Hypothesetoets: Heeft baantoewijzing invloed op de prestatie?Exercise 7: Had het evenement van 2015 dit probleem ook?Exercise 8: Het zigzageffect Exercise 9: Welke splits moeten we meenemen?Exercise 10: EDA: gemiddelde verschillen tussen oneven en even splits Exercise 11: Hoe hangt het stroomeffect samen met de baanpositie?Exercise 12: Hypothesetoets: kan dit toeval zijn?Exercise 13: Samenvatting van de zwemanalyses

Hier gebruik je je statistische denkkracht om de frequentie en magnitudes van aardbevingen te bestuderen. Onderweg leer je wat basisprincipes van statistische seismologie, waaronder de Gutenberg-Richterwet. Deze oefening belicht twee kernideeën over data science: 1) Als data scientist duik je in allerlei domeinspecifieke analyses, wat erg leuk is. Je blijft voortdurend leren. 2) Je hebt soms te maken met beperkte data, zoals bij veel van deze aardbevingstudies. Je kunt dan nog steeds goede vooruitgang boeken!

Exercise 1: Introductie tot statistische seismologie en het Parkfield-experiment Exercise 2: Parkfield-aardbevingsmagnitudes Exercise 3: De b-waarde berekenen Exercise 4: De b-waarde voor Parkfield Exercise 5: Timing van grote aardbevingen en de Parkfield-sequentie Exercise 6: Schattingen van tussenliggende aardbevingstijden voor Parkfield Exercise 7: Wanneer is de volgende grote beving in Parkfield?Exercise 8: Hoe zijn de tussenliggende tijden tussen Parkfield-aardbevingen verdeeld?Exercise 9: De waarde van een formele ECDF berekenen Exercise 10: De K-S-statistiek berekenen Exercise 11: K-S-replicaten trekken Exercise 12: De K-S-toets op Exponentialiteit

Aardbevingen hebben natuurlijk een grote maatschappelijke impact en hangen recent samen met menselijke activiteit. In dit laatste hoofdstuk onderzoek je het effect dat de toegenomen injectie van zout afvalwater door oliewinning in Oklahoma heeft gehad op de seismiciteit van de regio.

Exercise 1: Variaties in aardbevingsfrequentie en seismiciteit Exercise 2: EDA: Aardbevingen over de tijd plotten Exercise 3: Schattingen van de gemiddelde tijd tussen aardbevingen Exercise 4: Hypothesetoets: veranderde de aardbevingsfrequentie?Exercise 5: Hoe presenteer je je analyse Exercise 6: Aardbevingssterktes in Oklahoma Exercise 7: EDA: Magnitudes vergelijken voor en na 2010 Exercise 8: Kwantisering van de b-waarden Exercise 9: Hoe testen we een hypothese over verschillen in de b-waarde?Exercise 10: Hypothesetoets: zijn de b-waarden verschillend?Exercise 11: Wat kun je uit deze analyse concluderen?Exercise 12: Afsluitende opmerkingen