V tejto úlohe zvolíme k analýze dáta WAIS
(Wechsler Adult Intelligence Scale) z balíka SMSdata
. Dáta obsahujú dve skupiny ľudí - v prvej skupine sa nachádza 37 ľudí, ktorí nedisponujú senilným faktorm a v druhej je 12 ľudí u ktorých je senilný faktor prítomný. Celkovo tak máme 49 pozorovaní, pričom zakaždým testovaním meráme hodnoty information, similarities, arithmetic a picture completion.
Zaujíma nás, či je stredná hodnota uvedených výsledkov testov rovnaká u zdravých a selnilných ľudí, alebo sa štatisticky líši. Matematicky, majme náhodný výber \(X_1, \dots, X_{37} \sim \mathrm{N}_4(\boldsymbol{\mu_x},\Sigma)\) zdravých ľudí a výber \(Y_1, \dots, Y_{12} \sim \mathrm{N}_4(\boldsymbol{\mu_y},\Sigma)\) reprezentujúci senilnú vzorku. Testujeme nulovú hypotézu \(H_0: \boldsymbol{\mu_x} = \boldsymbol{\mu_y}, \, H_1: \boldsymbol{\mu_x} \neq \boldsymbol{\mu_y}\).
a <- data %>%
ggplot( aes(x=group, y=information, fill=group)) +
geom_boxplot() +
# scale_fill_viridis(discrete = TRUE) +
geom_jitter(color="black", size=1, alpha=0.5) +
theme_ipsum() +
theme(
legend.position="none",
plot.title = element_text(size=13)
) +
ggtitle("Hodnota information podľa skupín") +
xlab("") +ylab("information") + theme(plot.title = element_text(hjust = 0.5),axis.title.x = element_text(hjust=0.5),
axis.title.y = element_text(hjust=0.5))
b <- qplot(sample = information, data = data, color=group) + stat_qq() + stat_qq_line()
c <- data %>%
ggplot( aes(x=group, y=similarities, fill=group)) +
geom_boxplot() +
# scale_fill_viridis(discrete = TRUE) +
geom_jitter(color="black", size=1, alpha=0.5) +
theme_ipsum() +
theme(
legend.position="none",
plot.title = element_text(size=13)
) +
ggtitle("Hodnota similarities podľa skupín") +
xlab("") +ylab("similarities") + theme(plot.title = element_text(hjust = 0.5),axis.title.x = element_text(hjust=0.5),
axis.title.y = element_text(hjust=0.5))
d <- qplot(sample = similarities, data = data, color=group) + stat_qq() + stat_qq_line()
grid.arrange(a, b, c, d, ncol=2)
a <- data %>%
ggplot( aes(x=group, y=arithmetic, fill=group)) +
geom_boxplot() +
# scale_fill_viridis(discrete = TRUE) +
geom_jitter(color="black", size=1, alpha=0.5) +
theme_ipsum() +
theme(
legend.position="none",
plot.title = element_text(size=13)
) +
ggtitle("Hodnota arithmetic podľa skupín") +
xlab("") +ylab("arithmetic") + theme(plot.title = element_text(hjust = 0.5),axis.title.x = element_text(hjust=0.5),
axis.title.y = element_text(hjust=0.5))
b <- qplot(sample = arithmetic, data = data, color=group) + stat_qq() + stat_qq_line()
c <- data %>%
ggplot( aes(x=group, y=`picture completion`, fill=group)) +
geom_boxplot() +
# scale_fill_viridis(discrete = TRUE) +
geom_jitter(color="black", size=1, alpha=0.5) +
theme_ipsum() +
theme(
legend.position="none",
plot.title = element_text(size=11)
) +
ggtitle("Hodnota picture completion podľa skupín") +
xlab("") +ylab("picture completion") + theme(plot.title = element_text(hjust = 0.5),axis.title.x = element_text(hjust=0.5),
axis.title.y = element_text(hjust=0.5))
d <- qplot(sample = `picture completion`, data = data, color=group) + stat_qq() + stat_qq_line()
grid.arrange(a, b, c, d, ncol=2)
Boxploty aj Q-Q ploty jednotlivých skupín vyzerajú, že by sa mohli riadiť štandardným normálnym rozdelením. Vykonajme Hotellingov test, ktorý testuje, čí \(\boldsymbol{\mu_x}=\boldsymbol{\mu_y}\).
## Test stat: 22.13
## Numerator df: 4
## Denominator df: 44
## P-value: 0.001655
Vidíme, že na hladine \(\alpha = 0,05\) zamietame nulovú hypotézu v prospech alternatívy a usudzujeme, že sa stredné hodnoty zdravých a senilných ľudí vzájomne líšia. Pre lepšiu predstavu vykonáme intervaly spoľahlivosti podľa jednotlivých druhov testov, pričom skupiny zdravých a senilných ľudí sú spojené.
Lower Boundary | Upper Boundary | Mean Estimate | |
---|---|---|---|
information | 9.853761 | 13.411545 | 11.632653 |
similarities | 6.576370 | 10.484855 | 8.530612 |
arithmetic | 9.025753 | 12.484451 | 10.755102 |
picture completion | 5.857930 | 8.509417 | 7.183674 |