Pro vizualizaci jsem si vybral data obsahující celkem 13 proměnných. Data obsahují informace o počtech úmrtí (proměnná ) ve všech 50 státech USA. Nejprve nás zajímá, zda není viditelný nějaký vztah mezi vybranými proměnnými. Pro tento účel nám může dobře posloužit tzv. scatterplot matice:
library(SMSdata)
library(psych)
library(RColorBrewer)
data(ushealth)
x = ushealth
summary(x)
## land area popu 1985 acc card
## Min. : 1140 Min. : 15 Min. :28.60 Min. :114.6
## 1st Qu.: 31651 1st Qu.: 1236 1st Qu.:35.75 1st Qu.:365.6
## Median : 52928 Median : 3266 Median :41.90 Median :416.2
## Mean : 58415 Mean : 4742 Mean :44.31 Mean :398.5
## 3rd Qu.: 77295 3rd Qu.: 5654 3rd Qu.:48.88 3rd Qu.:459.4
## Max. :266807 Max. :26365 Max. :85.80 Max. :508.7
##
## canc pul pneu diab
## Min. : 76.1 Min. : 8.30 Min. :12.40 Min. : 3.40
## 1st Qu.:168.4 1st Qu.:22.98 1st Qu.:18.35 1st Qu.:12.72
## Median :182.3 Median :27.10 Median :20.65 Median :15.15
## Mean :178.4 Mean :26.49 Mean :21.04 Mean :14.84
## 3rd Qu.:199.0 3rd Qu.:30.50 3rd Qu.:23.05 3rd Qu.:16.48
## Max. :244.0 Max. :36.30 Max. :32.40 Max. :26.20
##
## liv doc shop reg
## Min. : 6.20 Min. : 545 Min. : 14.00 Northeast: 9
## 1st Qu.: 8.70 1st Qu.: 2047 1st Qu.: 59.75 Midwest :12
## Median : 9.80 Median : 5147 Median :119.00 South :16
## Mean :10.55 Mean : 8712 Mean :137.42 West :13
## 3rd Qu.:12.38 3rd Qu.: 9122 3rd Qu.:164.50
## Max. :17.70 Max. :57225 Max. :581.00
##
## div
## S Atlantic : 8
## Mountain : 8
## W N Central: 7
## New England: 6
## E N Central: 5
## Pacific : 5
## (Other) :11
pairs.panels(ushealth[, c("land area", "shop", "doc", "popu 1985")], method = "pearson")
Zde porovnáváme 4 proměnné: udává rozlohu daného státu, počet nemocnic v daném státě, počet lékařů. Silnou kladnou korelovanost pozorujeme u dvojic . Na první pohled mě překvapilo, že s rostoucím počtem lékařů narůstá počet úmrtí. To ale bude zřejmě tím, že větší počet lékařů znamená větší počet obyvatel, a tedy i úmrtí. Dle očekávání, čím více nemocnic, tím více lékařů, a tím pádem i více úmrtí. Ještě mě zajímalo, jak se budou tyto tři proměnné vyvíjet v závislosti na rozloze daného státu. Můžeme si všimnout, že se zvyšující se rozlohou počet nemocnic/lékařů/úmrtí nutně nenarůstá. To může být tím, že podstatné části některých států USA nejsou osídlené.
Dobrou představu o závislosti proměnných nám dává scatterplot. Vytvořil jsem scatterplot s dvěma různými y-osami:
par(mar = c(5,4,4,4) + 0.3)
plot(x$diab ~ x$`popu 1985`, pch = 21, bg = "red", xlab = "Number of deaths", ylab = "")
lines(lowess(x$diab ~ x$`popu 1985`), col = "red", lwd = 2)
axis(side = 2, col = "red", col.axis = "red")
mtext("Diabetes", side = 2, line = 3, col = "red")
par(new=TRUE)
plot(x$acc ~ x$`popu 1985`, axes = FALSE, xlab = "", ylab = "", pch = 22, bg = "blue")
lines(lowess(x$acc ~ x$`popu 1985`), col = "blue", lwd =2)
axis(side = 4, col = "blue", col.axis = "blue")
mtext("Accidents", side = 4, line = 3, col = "blue")
Chtěl jsem zachytit zároveň závislost počtu úmrtí na počtu diabetiků i nehod. Po prozkoumání dat jsem ale zjistil, že tyto proměnné neudávají počty. Jsou v jiných jednotkách, nikde ale není uvedeno ve kterých. Pro alespoň nějakou interpretaci tedy předpokládám, že rostoucí hodnota znamená rostoucí počet diabetiků/nehod. Co se týče proměnné , tak zprvu pozorujeme, co bychom očekávali, a sice, že s narůstající hodnotou této proměnné se i zvyšuje počet úmrtí. Ale pak máme 3 státy, kde je počet úmrtí velmi vysoký navzdory nízké hodnotě . Důvodem by mohlo být, že jde o státy s velmi vysokým počtem obyvatel, tj. tam bude počet úmrtí velmi vysoký.
Vztah proměnné a počtu úmrtí mi přijde nečekaný. Vidíme, že čím nižší hodnota proměnné , tím více úmrtí.
Konečně přichází řada i na boxploty. Díky nim si můžeme udělat představu o pravděpodobnostním rozdělení dané veličiny. Použil jsem vylepšené boxploty, které ukazují i 95\(\%\) interval spolehlivosti pro teoretický medián.
boxplot(x$`popu 1985` ~ x$reg, notch = T, col = brewer.pal(4, "Blues"), xlab= "", ylab = "Number of deaths")
Zde vidíme, jak se počty úmrtí mění v závislosti na regionu. Nejvyšší počty úmrtí pozorujeme na Středozápadě a na Jihu, v těchto dvou oblastech se mediány velmi přibližují, akorát variabilita počtu úmrtí je na Středozápadě větší. Nižší počty úmrtí připadají na Severovýchod a nejméně mrtvých je na Západě.
boxplot(x$`popu 1985` ~ x$div, notch = T, col = brewer.pal(9, "Reds"), xlab = "", ylab = "Number of deaths")
Tento boxplot je stejného typu jako předchozí a udává počty úmrtí dle oblasti. Můžeme říct, že nejvyšší počty úmrtí jsou v oblastech Mid Atlantic a E. N. Central, nejnižší v Nové Anglii a v Mountain.