DÚ 4

V tejto úlohe zvolíme k analýze dáta WAIS (Wechsler Adult Intelligence Scale) z balíka SMSdata. Dáta obsahujú dve skupiny ľudí - v prvej skupine sa nachádza 37 ľudí, ktorí nedisponujú senilným faktorm a v druhej je 12 ľudí u ktorých je senilný faktor prítomný. Celkovo tak máme 49 pozorovaní, pričom zakaždým testovaním meráme hodnoty information, similarities, arithmetic a picture completion.

Zaujíma nás, či je stredná hodnota uvedených výsledkov testov rovnaká u zdravých a selnilných ľudí, alebo sa štatisticky líši. Matematicky, majme náhodný výber \(X_1, \dots, X_{37} \sim \mathrm{N}_4(\boldsymbol{\mu_x},\Sigma)\) zdravých ľudí a výber \(Y_1, \dots, Y_{12} \sim \mathrm{N}_4(\boldsymbol{\mu_y},\Sigma)\) reprezentujúci senilnú vzorku. Testujeme nulovú hypotézu \(H_0: \boldsymbol{\mu_x} = \boldsymbol{\mu_y}, \, H_1: \boldsymbol{\mu_x} \neq \boldsymbol{\mu_y}\).

a <- data %>%
  ggplot( aes(x=group, y=information, fill=group)) +
  geom_boxplot() +
 # scale_fill_viridis(discrete = TRUE) +
  geom_jitter(color="black", size=1, alpha=0.5) +
  theme_ipsum() +
  theme(
    legend.position="none",
    plot.title = element_text(size=13)
  ) +
  ggtitle("Hodnota information podľa skupín") +
  xlab("") +ylab("information") + theme(plot.title = element_text(hjust = 0.5),axis.title.x = element_text(hjust=0.5),
                                                                axis.title.y = element_text(hjust=0.5))

b <- qplot(sample = information, data = data, color=group) + stat_qq() + stat_qq_line()


c <- data %>%
  ggplot( aes(x=group, y=similarities, fill=group)) +
  geom_boxplot() +
 # scale_fill_viridis(discrete = TRUE) +
  geom_jitter(color="black", size=1, alpha=0.5) +
  theme_ipsum() +
  theme(
    legend.position="none",
    plot.title = element_text(size=13)
  ) +
  ggtitle("Hodnota similarities podľa skupín") +
  xlab("") +ylab("similarities") + theme(plot.title = element_text(hjust = 0.5),axis.title.x = element_text(hjust=0.5),
                                                                axis.title.y = element_text(hjust=0.5))

d <- qplot(sample = similarities, data = data, color=group) + stat_qq() + stat_qq_line()

grid.arrange(a, b, c, d,  ncol=2)

a <- data %>%
  ggplot( aes(x=group, y=arithmetic, fill=group)) +
  geom_boxplot() +
 # scale_fill_viridis(discrete = TRUE) +
  geom_jitter(color="black", size=1, alpha=0.5) +
  theme_ipsum() +
  theme(
    legend.position="none",
    plot.title = element_text(size=13)
  ) +
  ggtitle("Hodnota arithmetic podľa skupín") +
  xlab("") +ylab("arithmetic") + theme(plot.title = element_text(hjust = 0.5),axis.title.x = element_text(hjust=0.5),
                                                                axis.title.y = element_text(hjust=0.5))

b <- qplot(sample = arithmetic, data = data, color=group) + stat_qq() + stat_qq_line()


c <- data %>%
  ggplot( aes(x=group, y=`picture completion`, fill=group)) +
  geom_boxplot() +
 # scale_fill_viridis(discrete = TRUE) +
  geom_jitter(color="black", size=1, alpha=0.5) +
  theme_ipsum() +
  theme(
    legend.position="none",
    plot.title = element_text(size=11)
  ) +
  ggtitle("Hodnota picture completion podľa skupín") +
  xlab("") +ylab("picture completion") + theme(plot.title = element_text(hjust = 0.5),axis.title.x = element_text(hjust=0.5),
                                                                axis.title.y = element_text(hjust=0.5))

d <- qplot(sample = `picture completion`, data = data, color=group) + stat_qq() + stat_qq_line()

grid.arrange(a, b, c, d,  ncol=2)

Boxploty aj Q-Q ploty jednotlivých skupín vyzerajú, že by sa mohli riadiť štandardným normálnym rozdelením. Vykonajme Hotellingov test, ktorý testuje, čí \(\boldsymbol{\mu_x}=\boldsymbol{\mu_y}\).

## Test stat:  22.13 
## Numerator df:  4 
## Denominator df:  44 
## P-value:  0.001655

Vidíme, že na hladine \(\alpha = 0,05\) zamietame nulovú hypotézu v prospech alternatívy a usudzujeme, že sa stredné hodnoty zdravých a senilných ľudí vzájomne líšia. Pre lepšiu predstavu vykonáme intervaly spoľahlivosti podľa jednotlivých druhov testov, pričom skupiny zdravých a senilných ľudí sú spojené.

	Lower Boundary	Upper Boundary	Mean Estimate
information	9.853761	13.411545	11.632653
similarities	6.576370	10.484855	8.530612
arithmetic	9.025753	12.484451	10.755102
picture completion	5.857930	8.509417	7.183674

Mnohorozmerná analýza - cvičenie

Jakub Krett

LS 2021/2022

DÚ 4