V tejto úlohe budeme pracovať s balíkom SMSdata
, z ktorého si vyberieme dáta carc
obsahujúce 13 premenných a 74 áut (pozorovaní). Po načítaní balíka si diskutované dáta uložíme do premennej data
.
data(carc, package="SMSdata")
data = carc
Ďalej overíme, či dátový súbor skutočne obsahuje 74 pozorovaní a 13 premenných, a či nevyzerajú niektoré pozorovania podozrivo. Nakoniec zobrazíme popisné charakteristiky príkazom summary()
. Všimnime si, že máme k dispozícii 52 amerických a zhodne 11 japonských aj európskych aút.
dim(data)
## [1] 74 13
head(data)
## P M R78 R77 H R Tr W L T D G C
## AMC_Concord 4099 22 3 2 2.5 27.5 11 2930 186 40 121 3.58 US
## AMC_Pacer 4749 17 3 1 3.0 25.5 11 3350 173 40 258 2.53 US
## AMC_Spirit 3799 22 . . 3.0 18.5 12 2640 168 35 121 3.08 US
## Audi_5000 9690 17 5 2 3.0 27.0 15 2830 189 37 131 3.20 Europe
## Audi_Fox 6295 23 3 3 2.5 28.0 11 2070 174 36 97 3.70 Europe
## BMW_320i 9735 25 4 4 2.5 26.0 12 2650 177 34 121 3.64 Europe
tail(data)
## P M R78 R77 H R Tr W L T D G C
## Toyota_Corona 5719 18 5 5 2.0 23.0 11 2670 175 36 134 3.05 Japan
## VW_Rabbit 4697 25 4 3 3.0 25.5 15 1930 155 35 89 3.78 Europe
## VW_Rabbit_Diesel 5397 41 5 4 3.0 25.5 15 2040 155 35 90 3.78 Europe
## VW_Scirocco 6850 25 4 3 2.0 23.5 16 1990 156 36 97 3.78 Europe
## VW_Dasher 7140 23 4 3 2.5 37.5 12 2160 172 36 97 3.74 Europe
## Volvo_260 11995 17 5 3 2.5 29.5 14 3170 193 37 163 2.98 Europe
summary(data)
## P M R78 R77 H R
## Min. : 3291 Min. :12.00 .: 5 .: 8 Min. :1.500 Min. :18.50
## 1st Qu.: 4319 1st Qu.:18.00 1: 2 1: 3 1st Qu.:2.500 1st Qu.:25.00
## Median : 5092 Median :20.00 2: 8 2:11 Median :3.000 Median :27.00
## Mean : 6192 Mean :21.30 3:30 3:27 Mean :2.986 Mean :26.82
## 3rd Qu.: 6332 3rd Qu.:24.75 4:18 4:20 3rd Qu.:3.500 3rd Qu.:29.00
## Max. :15906 Max. :41.00 5:11 5: 5 Max. :5.000 Max. :37.50
## Tr W L T D
## Min. : 5.00 Min. :1760 Min. :142.0 Min. :32.0 Min. : 79.0
## 1st Qu.:10.25 1st Qu.:2250 1st Qu.:170.0 1st Qu.:36.0 1st Qu.:119.0
## Median :14.00 Median :3175 Median :192.5 Median :40.0 Median :196.0
## Mean :13.74 Mean :3011 Mean :188.1 Mean :39.8 Mean :197.3
## 3rd Qu.:16.00 3rd Qu.:3652 3rd Qu.:203.8 3rd Qu.:43.0 3rd Qu.:245.2
## Max. :23.00 Max. :4840 Max. :233.0 Max. :51.0 Max. :425.0
## G C
## Min. :2.190 US :52
## 1st Qu.:2.730 Japan :11
## Median :2.955 Europe:11
## Mean :3.018
## 3rd Qu.:3.353
## Max. :3.890
Na nasledujúcich boxplotoch môžeme vidieť ceny áut v dolároch pre rôzne sídla automobiliek. Samotné boxploty ukazujú, že mediánovo by mohli byť ceny áut najvyššie pre európske automobilky. Ak si ale všimneme šedé bodky na grafe tak vidíme, že US autá obsahujú najviac pozorovaní a aj najviac odľahlých pozorovaní. Vidíme, že odľahlé pozorovania amerických áut prislúchajú práve tým najdrahším. Na druhej strane sa zdá, že autá pôvodom z Japonska budú najlacnejšie. Nevýhodou však je, že dáta sú nevyvážené, čo sa týka počtu áut zastúpených v jednotlivých miestach.
data %>%
ggplot( aes(x=C, y=P, fill=C)) +
geom_boxplot() +
scale_fill_viridis(discrete = TRUE) +
geom_jitter(color="black", size=1, alpha=0.5) +
theme_ipsum() +
theme(
legend.position="none",
plot.title = element_text(size=13)
) +
ggtitle("Boxploty cien áut pre rôzne sídla spoločností") +
xlab("Sídlo automobilky") +ylab("Cena auta [doláre]") + theme(plot.title = element_text(hjust = 0.5),axis.title.x = element_text(hjust=0.5),
axis.title.y = element_text(hjust=0.5))
Na tomto obrázku môžeme vidieť dojazd všetkých áut v míľach na galón. Táto charakteristika vyjadruje akúsi eficientnosť daného automobilu. Teda platí, že čím je hodnota vyššia, tým je auto úspornejšie. Z obrázku sa javia americké autá ako najmenej úsporné, čo je v súlade s očakávaním. Najúspornejšie automobilky by mohli byť na základe našich dát v Japonsku.
x <- data[order(data$M),] # sort by M (Mileage (in miles per gallone), a numeric vector)
x$C <- factor(x$C) # it must be a factor
x$color[x$C=="US"] <- "#330033"
x$color[x$C=="Japan"] <- "turquoise4"
x$color[x$C=="Europe"] <- "gold1"
dotchart(x$M,labels=row.names(x),groups= x$C,
main="Dojazd áut pre rôzne sídla spoločností",
xlab="Dojazd [míľa na galón]", gcolor="black", color=x$color, pch = 19, cex.main=3.5, cex.lab=2.5, cex = 0.3)
c4 <- mean(data$M[data$C == "US"])
c6 <- mean(data$M[data$C == "Japan"])
c8 <- mean(data$M[data$C == "Europe"])
lines(c(c8, c8), c(1, 11), col = "gold1", lwd = 3)
lines(c(c6, c6), c(14, 24), col = "turquoise4", lwd = 3)
lines(c(c4, c4), c(27, 78), col = "330033", lwd = 3)