Individual assignment I

Pro vizualizaci jsem si vybral data obsahující celkem 13 proměnných. Data obsahují informace o počtech úmrtí (proměnná ) ve všech 50 státech USA. Nejprve nás zajímá, zda není viditelný nějaký vztah mezi vybranými proměnnými. Pro tento účel nám může dobře posloužit tzv. scatterplot matice:

library(SMSdata)
library(psych)
library(RColorBrewer)

data(ushealth)
x = ushealth
summary(x)

##    land area        popu 1985          acc             card      
##  Min.   :  1140   Min.   :   15   Min.   :28.60   Min.   :114.6  
##  1st Qu.: 31651   1st Qu.: 1236   1st Qu.:35.75   1st Qu.:365.6  
##  Median : 52928   Median : 3266   Median :41.90   Median :416.2  
##  Mean   : 58415   Mean   : 4742   Mean   :44.31   Mean   :398.5  
##  3rd Qu.: 77295   3rd Qu.: 5654   3rd Qu.:48.88   3rd Qu.:459.4  
##  Max.   :266807   Max.   :26365   Max.   :85.80   Max.   :508.7  
##                                                                  
##       canc            pul             pneu            diab      
##  Min.   : 76.1   Min.   : 8.30   Min.   :12.40   Min.   : 3.40  
##  1st Qu.:168.4   1st Qu.:22.98   1st Qu.:18.35   1st Qu.:12.72  
##  Median :182.3   Median :27.10   Median :20.65   Median :15.15  
##  Mean   :178.4   Mean   :26.49   Mean   :21.04   Mean   :14.84  
##  3rd Qu.:199.0   3rd Qu.:30.50   3rd Qu.:23.05   3rd Qu.:16.48  
##  Max.   :244.0   Max.   :36.30   Max.   :32.40   Max.   :26.20  
##                                                                 
##       liv             doc             shop               reg    
##  Min.   : 6.20   Min.   :  545   Min.   : 14.00   Northeast: 9  
##  1st Qu.: 8.70   1st Qu.: 2047   1st Qu.: 59.75   Midwest  :12  
##  Median : 9.80   Median : 5147   Median :119.00   South    :16  
##  Mean   :10.55   Mean   : 8712   Mean   :137.42   West     :13  
##  3rd Qu.:12.38   3rd Qu.: 9122   3rd Qu.:164.50                 
##  Max.   :17.70   Max.   :57225   Max.   :581.00                 
##                                                                 
##           div    
##  S Atlantic : 8  
##  Mountain   : 8  
##  W N Central: 7  
##  New England: 6  
##  E N Central: 5  
##  Pacific    : 5  
##  (Other)    :11

pairs.panels(ushealth[, c("land area", "shop", "doc", "popu 1985")], method = "pearson")

Zde porovnáváme 4 proměnné: udává rozlohu daného státu, počet nemocnic v daném státě, počet lékařů. Silnou kladnou korelovanost pozorujeme u dvojic . Na první pohled mě překvapilo, že s rostoucím počtem lékařů narůstá počet úmrtí. To ale bude zřejmě tím, že větší počet lékařů znamená větší počet obyvatel, a tedy i úmrtí. Dle očekávání, čím více nemocnic, tím více lékařů, a tím pádem i více úmrtí. Ještě mě zajímalo, jak se budou tyto tři proměnné vyvíjet v závislosti na rozloze daného státu. Můžeme si všimnout, že se zvyšující se rozlohou počet nemocnic/lékařů/úmrtí nutně nenarůstá. To může být tím, že podstatné části některých států USA nejsou osídlené.

Dobrou představu o závislosti proměnných nám dává scatterplot. Vytvořil jsem scatterplot s dvěma různými y-osami:

par(mar = c(5,4,4,4) + 0.3)
plot(x$diab ~ x$`popu 1985`, pch = 21, bg = "red", xlab = "Number of deaths", ylab = "")
lines(lowess(x$diab ~ x$`popu 1985`), col = "red", lwd = 2)
axis(side = 2, col = "red", col.axis = "red")                      
mtext("Diabetes", side = 2, line = 3, col = "red")

par(new=TRUE)
plot(x$acc ~ x$`popu 1985`, axes = FALSE, xlab = "", ylab = "", pch = 22, bg = "blue")
lines(lowess(x$acc ~ x$`popu 1985`), col = "blue", lwd =2)
axis(side = 4, col = "blue", col.axis = "blue")
mtext("Accidents", side = 4, line = 3, col = "blue")

Chtěl jsem zachytit zároveň závislost počtu úmrtí na počtu diabetiků i nehod. Po prozkoumání dat jsem ale zjistil, že tyto proměnné neudávají počty. Jsou v jiných jednotkách, nikde ale není uvedeno ve kterých. Pro alespoň nějakou interpretaci tedy předpokládám, že rostoucí hodnota znamená rostoucí počet diabetiků/nehod. Co se týče proměnné , tak zprvu pozorujeme, co bychom očekávali, a sice, že s narůstající hodnotou této proměnné se i zvyšuje počet úmrtí. Ale pak máme 3 státy, kde je počet úmrtí velmi vysoký navzdory nízké hodnotě . Důvodem by mohlo být, že jde o státy s velmi vysokým počtem obyvatel, tj. tam bude počet úmrtí velmi vysoký.

Vztah proměnné a počtu úmrtí mi přijde nečekaný. Vidíme, že čím nižší hodnota proměnné , tím více úmrtí.

Konečně přichází řada i na boxploty. Díky nim si můžeme udělat představu o pravděpodobnostním rozdělení dané veličiny. Použil jsem vylepšené boxploty, které ukazují i 95\(\%\) interval spolehlivosti pro teoretický medián.

boxplot(x$`popu 1985` ~ x$reg, notch = T, col = brewer.pal(4, "Blues"), xlab= "", ylab = "Number of deaths")

Zde vidíme, jak se počty úmrtí mění v závislosti na regionu. Nejvyšší počty úmrtí pozorujeme na Středozápadě a na Jihu, v těchto dvou oblastech se mediány velmi přibližují, akorát variabilita počtu úmrtí je na Středozápadě větší. Nižší počty úmrtí připadají na Severovýchod a nejméně mrtvých je na Západě.

boxplot(x$`popu 1985` ~ x$div, notch = T, col = brewer.pal(9, "Reds"), xlab = "", ylab = "Number of deaths")

Tento boxplot je stejného typu jako předchozí a udává počty úmrtí dle oblasti. Můžeme říct, že nejvyšší počty úmrtí jsou v oblastech Mid Atlantic a E. N. Central, nejnižší v Nové Anglii a v Mountain.