1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Intermediate Regular Expressions in R

Connected

cvičení

Zachycení všech skupin

V tomto cvičení budeš pracovat s textovým souborem top_10, který obsahuje názvy filmů a jejich pořadí. V tomto víceřádkovém textu se \\n používá k odřádkování. Pomocí funkce str_split() rozdělíš textový soubor na jednotlivé řádky.

Nově vytvořená jednořádková matice top_10_lines pak obsahuje deset řádků se stejným vzorem: pořadí filmu následované tečkou a mezerou a samotný název filmu. Funkce str_match() spolu se dvěma zachytávacími skupinami () ti umožní extrahovat tyto dvě informace z prostého textu do přehledné tabulkové podoby.

Pokyny

100 XP
  • Pomocí funkce str_split() rozděl text na jednotlivé řádky a výstup vrať jako znakovou matici – to zajistíš zapnutím parametru simplify.
  • Prohlédni si strukturu jednoho řádku. Obsahuje pořadí a název filmu.
  • Extrahuj pořadí a název filmu pomocí zachytávacích skupin ve funkci str_match().