De eerste cijfer extraheren I
Om de vraag naar kiezersfraude te onderzoeken, begin je met het maken van een nieuwe kolom met daarin het eerste cijfer van het totale aantal uitgebrachte stemmen. Hiervoor heb je een aangepaste functie nodig die we voor je hebben gemaakt: get_first(). De kern van deze functie is substr(), die een string neemt en er een stuk uit haalt, een zogenaamde substring.
Zodra je een nieuwe variabele hebt gemaakt met alleen het eerste cijfer, kun je met een staafdiagram inschatten hoe goed dit overeenkomt met de wet van Benford.
Deze oefening maakt deel uit van de cursus
Inferentie voor categorische gegevens in R
Oefeninstructies
- Kijk hoe
get_first()werkt door simpelweg de naam van de functie te typen (zonder haakjes). Het enige wat het doet is het resultaat vansubstr()omzetten zodat het een factor is. - Voeg met mutate een nieuwe kolom toe aan het
iran-data frame,first_digit, met daarin het eerste cijfer van het totale aantal stemmen per stad. - Controleer of
get_first()heeft gewerkt. Selecteer uit deiran-data de kolommentotal_votes_castenfirst_digiten print ze naar het scherm. - Maak een staafdiagram om de verdeling van het eerste cijfer te visualiseren.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Print get_first
get_first
# Create first_digit variable
iran <- iran %>%
___
# Check if get_first worked
___ %>%
___
# Construct bar plot
___ +
# Add bar layer
___