DÚ 1

V tejto úlohe budeme pracovať s balíkom SMSdata, z ktorého si vyberieme dáta carc obsahujúce 13 premenných a 74 áut (pozorovaní). Po načítaní balíka si diskutované dáta uložíme do premennej data.

data(carc, package="SMSdata")
data = carc

Ďalej overíme, či dátový súbor skutočne obsahuje 74 pozorovaní a 13 premenných, a či nevyzerajú niektoré pozorovania podozrivo. Nakoniec zobrazíme popisné charakteristiky príkazom summary(). Všimnime si, že máme k dispozícii 52 amerických a zhodne 11 japonských aj európskych aút.

dim(data)

## [1] 74 13

head(data)

##                P  M R78 R77   H    R Tr    W   L  T   D    G      C
## AMC_Concord 4099 22   3   2 2.5 27.5 11 2930 186 40 121 3.58     US
## AMC_Pacer   4749 17   3   1 3.0 25.5 11 3350 173 40 258 2.53     US
## AMC_Spirit  3799 22   .   . 3.0 18.5 12 2640 168 35 121 3.08     US
## Audi_5000   9690 17   5   2 3.0 27.0 15 2830 189 37 131 3.20 Europe
## Audi_Fox    6295 23   3   3 2.5 28.0 11 2070 174 36  97 3.70 Europe
## BMW_320i    9735 25   4   4 2.5 26.0 12 2650 177 34 121 3.64 Europe

tail(data)

##                      P  M R78 R77   H    R Tr    W   L  T   D    G      C
## Toyota_Corona     5719 18   5   5 2.0 23.0 11 2670 175 36 134 3.05  Japan
## VW_Rabbit         4697 25   4   3 3.0 25.5 15 1930 155 35  89 3.78 Europe
## VW_Rabbit_Diesel  5397 41   5   4 3.0 25.5 15 2040 155 35  90 3.78 Europe
## VW_Scirocco       6850 25   4   3 2.0 23.5 16 1990 156 36  97 3.78 Europe
## VW_Dasher         7140 23   4   3 2.5 37.5 12 2160 172 36  97 3.74 Europe
## Volvo_260        11995 17   5   3 2.5 29.5 14 3170 193 37 163 2.98 Europe

summary(data)

##        P               M         R78    R77          H               R        
##  Min.   : 3291   Min.   :12.00   .: 5   .: 8   Min.   :1.500   Min.   :18.50  
##  1st Qu.: 4319   1st Qu.:18.00   1: 2   1: 3   1st Qu.:2.500   1st Qu.:25.00  
##  Median : 5092   Median :20.00   2: 8   2:11   Median :3.000   Median :27.00  
##  Mean   : 6192   Mean   :21.30   3:30   3:27   Mean   :2.986   Mean   :26.82  
##  3rd Qu.: 6332   3rd Qu.:24.75   4:18   4:20   3rd Qu.:3.500   3rd Qu.:29.00  
##  Max.   :15906   Max.   :41.00   5:11   5: 5   Max.   :5.000   Max.   :37.50  
##        Tr              W              L               T              D        
##  Min.   : 5.00   Min.   :1760   Min.   :142.0   Min.   :32.0   Min.   : 79.0  
##  1st Qu.:10.25   1st Qu.:2250   1st Qu.:170.0   1st Qu.:36.0   1st Qu.:119.0  
##  Median :14.00   Median :3175   Median :192.5   Median :40.0   Median :196.0  
##  Mean   :13.74   Mean   :3011   Mean   :188.1   Mean   :39.8   Mean   :197.3  
##  3rd Qu.:16.00   3rd Qu.:3652   3rd Qu.:203.8   3rd Qu.:43.0   3rd Qu.:245.2  
##  Max.   :23.00   Max.   :4840   Max.   :233.0   Max.   :51.0   Max.   :425.0  
##        G              C     
##  Min.   :2.190   US    :52  
##  1st Qu.:2.730   Japan :11  
##  Median :2.955   Europe:11  
##  Mean   :3.018              
##  3rd Qu.:3.353              
##  Max.   :3.890

Na nasledujúcich boxplotoch môžeme vidieť ceny áut v dolároch pre rôzne sídla automobiliek. Samotné boxploty ukazujú, že mediánovo by mohli byť ceny áut najvyššie pre európske automobilky. Ak si ale všimneme šedé bodky na grafe tak vidíme, že US autá obsahujú najviac pozorovaní a aj najviac odľahlých pozorovaní. Vidíme, že odľahlé pozorovania amerických áut prislúchajú práve tým najdrahším. Na druhej strane sa zdá, že autá pôvodom z Japonska budú najlacnejšie. Nevýhodou však je, že dáta sú nevyvážené, čo sa týka počtu áut zastúpených v jednotlivých miestach.

data %>%
  ggplot( aes(x=C, y=P, fill=C)) +
  geom_boxplot() +
  scale_fill_viridis(discrete = TRUE) +
  geom_jitter(color="black", size=1, alpha=0.5) +
  theme_ipsum() +
  theme(
    legend.position="none",
    plot.title = element_text(size=13)
  ) +
  ggtitle("Boxploty cien áut pre rôzne sídla spoločností") +
  xlab("Sídlo automobilky") +ylab("Cena auta [doláre]") + theme(plot.title = element_text(hjust = 0.5),axis.title.x = element_text(hjust=0.5),
                                                                axis.title.y = element_text(hjust=0.5))

Na tomto obrázku môžeme vidieť dojazd všetkých áut v míľach na galón. Táto charakteristika vyjadruje akúsi eficientnosť daného automobilu. Teda platí, že čím je hodnota vyššia, tým je auto úspornejšie. Z obrázku sa javia americké autá ako najmenej úsporné, čo je v súlade s očakávaním. Najúspornejšie automobilky by mohli byť na základe našich dát v Japonsku.

x <- data[order(data$M),] # sort by M (Mileage (in miles per gallone), a numeric vector)
x$C <- factor(x$C) # it must be a factor
x$color[x$C=="US"] <- "#330033"
x$color[x$C=="Japan"] <- "turquoise4"
x$color[x$C=="Europe"] <- "gold1"  
dotchart(x$M,labels=row.names(x),groups= x$C,
         main="Dojazd áut pre rôzne sídla spoločností",
         xlab="Dojazd [míľa na galón]", gcolor="black", color=x$color, pch = 19, cex.main=3.5, cex.lab=2.5, cex = 0.3)

c4 <- mean(data$M[data$C == "US"])
c6 <- mean(data$M[data$C == "Japan"])
c8 <- mean(data$M[data$C == "Europe"])

lines(c(c8, c8), c(1, 11), col = "gold1", lwd = 3)
lines(c(c6, c6), c(14, 24), col = "turquoise4", lwd = 3)
lines(c(c4, c4), c(27, 78), col = "330033", lwd = 3)

Mnohorozmerná analýza - cvičenie

Jakub Krett

LS 2021/2022

DÚ 1