Read R4DS chapters 3.1-3.6, 5.1-5.3
Complete assignments Data wrangling and Data visualization (first two chapters of Introduction to the Tidyverse) at DataCamp.
Börja med att skapa ett R-projekt “Classroom” genom att klona repot https://github.com/MT5013-VT18/Classroom. Därefter skapar du lämpligtvis ett R Mardown dokument Class1.Rmd som du arbetar i. Vi kommer uppdatera repot under kursens gång, för att föra över uppdateringarna till ditt lokala bibliotek gör du en “pull” (Tools > Version control > Pull branches).
Systembolagets sortiment från 2018-01-12 finns i filen data/Products-2018-jan-12-081155.csv. Den är hämtad från https://www.systembolaget.se/api/ och sparad som .csv-fil från Excel (ej helt reproducerbart!). Läs in och undersök innehållet med
library(tidyverse)
Sortiment_hela <- read_delim("data/Products-2018-jan-12-081155.csv",
delim = ";",
locale = locale(encoding = "latin1", decimal_mark = "."))
arrange, filter, mutate, select, %>%)Variabeln Alkoholhalt har blivit klassad som character av read_delim, eftersom dess värden innehåller ett procenttecken. Gör om den till numerisk med mutate genom att först ta bort procenttecknet (t.ex. med gsub) och sedan transformera med as.numeric.
Ett fåtal produkter har fått varugrupp Röda respektive Vita istället för Rött vin respektive Vitt vin. Korrigera detta, t.ex. genom att använda mutate med ett ifelse-kommando.
Vilken dryck har högst PrisPerLiter? Lägg in svaret (d.v.s. dryckens Namn i form av R-kod) i den löpande texten i ditt .Rmd-dokument.
Skapa ett nytt datamaterial Sortiment_ord med det ordinarie sortimentet (d.v.s. där variabeln SortimentText antar värdet Ordinarie sortiment). Gör sedan en tabell (t.ex. med kable) över de 10 dyraste (i PrisPerLiter) dryckerna ur detta sortiment. Använd select för att välja ut lämpliga variabler som skall ingå i tabellen.
Om du inte redan gjort så, gör föregående uppgift i en sammanhängande sekvens pipes (%>%).
ggplot, geom_point, geom_line, facet_wrap)För ordinarie sortiment:
PrisPerLiter mot Alkoholhalt för ordinarie sortimentet, färglägg punkterna efter varugrupp och överväg log-skala för PrisPerLiter.PrisPerLiter (eventuellt på log-skala) mot Varugrupp. Överväg coord_flip för läsbarhet.c("Vitt vin", "Rött vin", "Rosévin", "Mousserande vin") med årgångar 2010-2017, plotta PrisPerLiter mot Argang. Prova med en facet för varje varugrupp och med färg efter varugrupp i samma facet.Filen data/Winter_medals2018-01-16.csv innehåller antalet medaljer per land och OS-år vid vinter OS sedan 1980 samt landets dåvarande population. Datamaterialet är skapad av R/Winter_medals.R som innehåller mer information, speciellt om hanteringen av länder som delats eller slagits ihop under perioden. Du läser in med
winter_medals <- read_csv("data/Winter_medals2018-01-16.csv")
arrange, filter, mutate, select, %>%)medals_per_mill, antal medaljer per miljoner invånare.medals_per_mill under vinter OS 2014.ggplot, geom_point, geom_line, facet_wrap)%in% för att filtrera) och skilj på länderna med lämplig “aesthetic” (se ?geom_point för en lista på vilka geom_point förstår).facet” för var och en av Sverige, Norge och Finland.Använd ggplot för att återskapa (statiska versioner) av några figurer från Hans Roslings föredrag. Data finns i library(gapminder).