Naďalej budeme pracovať s datasetom uscrime, tentokrát však budeme používať len vybrané veličiny. Konkrétne murder, robbery, assault, burglary a autotheft. Navyše budeme využívať veličinu region, avšak namiesto štyroch regiónov budeme data deliť len na dve oblasti. Na základe predchádzajúcich úloh budeme používať oblasti South a Northeast + Midwest + West.
Na nasledujúcom grafe môžme vidieť, že data sa rozlišujú (až na nejaké odchýlky) niekde v okolí 0.
Na ďalších grafoch môžme vidieť rozdelenie pozorovaní vzhľadom ku každej dvojici uvažovaných veličín. Presnosť rozdelenia je pre niektoré veličiny dosť malá, celkovo sa pohybuje medzi 0,14 a 0,32 - najvyššia chyba je pri robbery a bulglary, resp pri robbery a autotheft.
Teraz budeme uvažovať iný spôsob delenia. Môžeme vidieť, že chyba pri robbery a autotheft sa mierne zvýšila, v niektorých prípadoch (murder a assault) mierne klesla. Vo väčšine prípadov však nepozorujeme zásadné rozdiely.
Budeme pracovať s datasetom uscrime, s ktorým sme už pracovali v predchádzajúcich dvoch úlohách. Najskôr na data použijeme K-means algoritmus. Keďže máme data rozdelené do 4 rôznych regiónov, pokúsime sa ich rozdeliť do 4 clustrov. Môžme vidieť, že dva clustre obsahujú veľmi málo pozorovaní, preto použiť 4 clustre mohlo byť príliš veľa.
Ďalej na data použijeme hierarchický cluster algoritmus, opäť použijeme 4 clustre. Taktiež môžme vidieť, že dva clustre obsahujú málo pozorovaní. Dokonca jeden cluster obsahuje len Aljašku. Jej zaradenie do samostatného clustra by však mohlo dávať zmysel, vzhľadom na jej polohu.
Opäť budeme pracovať s rovnakým datasetom ako v 6. úlohe. Tentokrát sa pozrieme na faktorovú analýzu, pri ktorej budeme pracovať s rovnakými spojitými veličinami ako v predchádzajúcej úlohe: land area, popu 1985, murder, rape, robbery, assault, burglary, larceny, autotheft.
Najskôr sa pozrieme na to, koľko faktorov by bolo najvýhodnejšie použiť. Podľa p-hodnoty (0.001) nestačí použiť 2 faktory. Najvýhodnejšie sa zdá použitie 4 faktorov (p-hodnota 0.292). Ako môžme vidieť nižšie, pomocou 4 faktorov sa darí vysvetliť 79% variability. Taktiež môžme vidieť, že s Faktorom 1 najviac súvisí burglary a larceny, s Faktorom 2 murder a assault, s Faktorom 3 popu 1985 a robbery a s Faktorom 4 veličina land area.
##
## Call:
## factanal(x = Data[, 1:9], factors = 4, rotation = "varimax")
##
## Uniquenesses:
## land area popu 1985 murder rape robbery assault burglary larceny
## 0.00 0.52 0.19 0.27 0.16 0.09 0.10 0.18
## autotheft
## 0.41
##
## Loadings:
## Factor1 Factor2 Factor3 Factor4
## rape
## burglary 0.85
## larceny 0.88
## autotheft
## murder 0.88
## assault 0.87
## popu 1985 0.63
## robbery 0.80
## land area 0.98
##
## Factor1 Factor2 Factor3 Factor4
## SS loadings 2.35 2.01 1.63 1.08
## Proportion Var 0.26 0.22 0.18 0.12
## Cumulative Var 0.26 0.48 0.67 0.79
##
## Test of the hypothesis that 4 factors are sufficient.
## The chi square statistic is 7.32 on 6 degrees of freedom.
## The p-value is 0.292
Podobnú informáciu môžme vidieť aj na nasledujúcich grafoch, kde vidíme, že s Faktorom 1 sú najviac korelované burglary a larceny, ktoré by mohol tento faktor reprezentovať - môžme predpokladať, že majú niečo spoločné. Podobne by Faktor 2 mohol popisovať murder a assault.
Budeme pracovať s datovým súborom uscrime
z knižnice SMSdata
. Nachádza sa tu 9 spojitých veličín, ktoré použijeme na analýzu.
## land area popu 1985 murder rape
## Min. : 1212 Min. : 509 Min. : 0.500 Min. : 3.60
## 1st Qu.: 37241 1st Qu.: 1236 1st Qu.: 3.500 1st Qu.:10.35
## Median : 56214 Median : 3266 Median : 6.200 Median :14.95
## Mean : 72374 Mean : 4762 Mean : 6.858 Mean :15.62
## 3rd Qu.: 83242 3rd Qu.: 5654 3rd Qu.: 9.575 3rd Qu.:19.35
## Max. :591004 Max. :26365 Max. :15.300 Max. :36.00
##
## robbery assault burglary larceny
## Min. : 6.50 Min. : 21.0 Min. : 286.0 Min. : 694
## 1st Qu.: 46.77 1st Qu.: 84.5 1st Qu.: 681.5 1st Qu.:1424
## Median : 76.70 Median :125.0 Median : 871.0 Median :1923
## Mean :101.51 Mean :135.4 Mean : 930.8 Mean :1944
## 3rd Qu.:126.88 3rd Qu.:191.5 3rd Qu.:1140.0 3rd Qu.:2316
## Max. :443.30 Max. :293.0 Max. :1753.0 Max. :3550
##
## autotheft reg div
## Min. : 78.0 Northeast: 9 S Atlantic : 8
## 1st Qu.:219.0 Midwest :12 Mountain : 8
## Median :343.0 South :16 W N Central: 7
## Mean :367.9 West :13 New England: 6
## 3rd Qu.:513.8 E N Central: 5
## Max. :878.0 Pacific : 5
## (Other) :11
Môžme vidieť, že väčšina veličín, ktoré zodpovedajú jednotlivým kriminálnym činom sú medzi sebou korelované.
## Importance of components:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7
## Standard deviation 2.1125 1.2120 1.0745 0.85354 0.67288 0.52669 0.47401
## Proportion of Variance 0.4958 0.1632 0.1283 0.08095 0.05031 0.03082 0.02497
## Cumulative Proportion 0.4958 0.6590 0.7873 0.86827 0.91857 0.94940 0.97436
## PC8 PC9
## Standard deviation 0.36513 0.31212
## Proportion of Variance 0.01481 0.01082
## Cumulative Proportion 0.98918 1.00000
Pri metóde hlavných komponentov môžeme vidieť, že prvé dva komponenty vysvetľujú 66% variability. Ak by sme chceli vysvetliť viac ako 90%, museli by sme použiť prvých 5 komponentov. Zároveň vidíme, že prvá komponenta sama vysvetlí takmer 50% variability.
Z projekcie do priestoru prvých dvoch komponentov vidíme napríklad, že význmané veličiny pre prvú komponentu sú popu 1985,
robbery
a rape
. Zároveň tieto veličiny, predovšetkým popu 1985,
takmer neposôbia na druhú komponentu. Podľa farebného rozlíšenia jednotlivých regiónov sa zdá, že v rôznych regiónoch prevládajú odlišné kriminálne činnosti, z tohto pohľadu sa to však rozlišuje ťažko - znateľne však vraždy prevládajú na juhu USA.
Keď sa pozrieme na projekciu do pristoru druhej a tretej komponenty, môžme vidieť, že na západe sú početnejšie vlámania, a na severovýchode zase krádeže.
Majme náhodný výber z dvojrozmerného normálneho rozdelenia \(N(\mu, \Sigma),\) kde \(\mu = (0,0)^T\) a \(\Sigma\) je náhodná variančná matica.
Budeme uvažovať hypotézu \(H_{0} : \mu = (0,0)^T\) proti alternatíve \(H_{0} : \mu \neq (0,0)^T.\) Na nasledujúcom grafe môžeme vidieť pravdepodobnosť chyby prvého druhu pri rôzne veľkom rozsahu výberu v prípade známej, resp. neznámej matici \(\Sigma.\) Pravdepodobnosť chyby prvého druhu je počítaná z 1000 pokusov.
Naďalej budeme uvažovať náhodný výber ako na začiatku. Chceme zistiť pravdepodobnosť chyby druhého druhu pri rôznych nulových hypotézach - budeme uvažovať 10 rôznych nulových hypotéz, ktoré sa budú od skutočnej strednej hodnoty \((0,0)^T\) postupne vzďalovať o hodnotu 0.1 v oboch zložkách (tj nulová hypotéza bude \((0.1, 0.1)^T, (0.2, 0.2)^T,... (1,1)^T.\)) Taktiež budeme uvažovať rôzne rozsahy výberov - konkrétne 10, 50 a 100. Pravdepodobnost chyby druhého druhu bude v každom prípade počítaná z 1000 pokusov. Nižšie môžme vidieť pravdepodobnosti chýb druhého druhu za situácie známej variančnej matice \(\Sigma,\) pri rozsahu výberov 10, 50 a 100.
Na ďalšom grafe môžme vidieť pravdepodobnosti chýb druhého druhu pri neznámej variančnej matici.
V tejto úlohe budeme pracovať s datami Wais
z balíčku SMSdata
. Data obsahujú údaje o ľuďoch, ktorí podstúpili WAIS test. Medzi ľuďmi bolo 12 ľudí so senilným faktorom a 37 zdravých ľudí. Data obsahujú výsledky z jednotlivých úloh, ktoré WAIS test obsahuje.
Chceme otestovať rovnosť výsledkov úloh zdravých ľudí a ľudí so senilným faktorom. Na to použijeme Hotellingov test, ktorý predpokladá združenú normalitu a zhodné kovariančné matice. Pozrieme sa aspoň na normalitu marginálnych rozdelení.
Väčšina qq-grafov (vpravo) vyzerá normálne, aj keď grafy hustoty predovšetkým v skupine so senilným faktorom (červená) tak presvedčivo nevyzerajú. Bohužiaľ v tejto skupine sa nachádza málo pozorovaní, preto výsledky môžu byť značne skreslené.
Pozrime sa na boxploty jednotlivých úloh. Môžme vidieť, že výsledky pre dve skupiny dopadajú rozdielne. To môžme otestovať pomocou Hotellingovho testu. Ten testuje rovnosť stredných hodnôt výsledkov úloh zdravých ľudí a ľudí so senilným faktorom.
Podľa p-hodnoty testu zamietame hypotézu o rovnosti stredných hodnôt. To znamená, že ľudia so senilným faktorom dosahujú odlišné výsledky, ako zdraví ľudia.
##
## Hotelling's two sample T2-test
##
## data: x and y
## T.2 = 5.1794, df1 = 4, df2 = 44, p-value = 0.001655
## alternative hypothesis: true location difference is not equal to c(0,0,0,0)
Pozrieme sa ešte na odhady stredných hodnôt a intervaly spoľahlivosti pre obe skupiny spolu:
## Lower Boundary Upper Boundary Mean Estimate
## information 9.855459 13.409847 11.632653
## similarities 6.578235 10.482990 8.530612
## arithmetic 9.027403 12.482801 10.755102
## picture completion 5.859195 8.508152 7.183673
Ďalej môžme vidieť aj výsledky pre skupinu ľudí so senilným faktorom:
## Lower Boundary Upper Boundary Mean Estimate
## information 7.193577 10.306423 8.750000
## similarities 3.288449 7.378218 5.333333
## arithmetic 6.761739 10.238261 8.500000
## picture.completion 3.040447 6.459553 4.750000
A taktiež výsledky pre zdravých ľudí:
## Lower Boundary Upper Boundary Mean Estimate
## information 10.945780 14.189355 12.567568
## similarities 7.903154 11.231981 9.567568
## arithmetic 9.892095 13.080878 11.486486
## picture.completion 7.052825 8.893121 7.972973
Uvažujme náhodný vektor \(\mathbb{X} \sim N_2(\mu, \Sigma),\) kde \(\mu = (2, 2)^T\) a \(\Sigma = \mathbb{I_2}.\) Ďalej uvažujme matice \(\mathbb{A} = (1,1)\) a \(\mathbb{B} = (1,-1)\) a chceme ukázať, že matice \(\mathbb{AX}\) a \(\mathbb{BX}\) sú nezávislé.
Pre \(\mathbb{AX}\) platí \(\mathbb{AX} \sim N(\mathbb{A}\mu, \mathbb{A}\Sigma\mathbb{A}^T) = N(4,2)\) a podobne \(\mathbb{BX} \sim N(0,2).\) Vektor \((\mathbb{AX}, \mathbb{BX})^T\) má združené normálne rozdelenie a keďže ide omnohorozmerné normálne rozdelenie, na dokázanie nezávislosti stačí dokázať nekorelovanosť.
Platí \(\mathrm{Cov}(\mathbb{AX}, \mathbb{BX}) = \mathbb{A}\mathrm{Cov}(\mathbb{X,X})\mathbb{B}^T = (1, 1)\mathbb{I_2}(1,-1)^T = 0,\) z čoho plynie daná nezávislosť. Vo výpočte sme použili rovnosť \(\mathrm{Cov}(\mathbb{X,X}) = \mathrm{Var}(\mathbb{X}).\)
Na nasledujúcom grafe môžme vidieť, že \(\mathbb{AX}\) a \(\mathbb{BX}\) sú skutočne nezávislé (nekorelované).
Uvažujme náhodný vektor \((X_1,X_2)^T,\) \(X_1 \sim N(0,1), X_2 = YX_1,\) kde \(\mathbb{P}(Y=1)=\frac{1}{2}\) a \(\mathbb{P}(Y=-1)=\frac{1}{2}.\) Potom \(X_2 \sim N(0,1),\) pretože \(F_{X_2}(x) = \mathbb{P}(X_2 \leq x) = \frac{1}{2}\mathbb{P}(X_1 \leq x) + \frac{1}{2}\mathbb{P}(-X_1 \leq x) = \frac{1}{2}F_{X_1}(x) + \frac{1}{2}(1-F_{X_1}(-x)) = F_{X_1}(x).\) Vektor \((X_1,X_2)^T\) však nemá normálne rozdelenie - ak by mal, potom by aj súčet \(X_1 + X_2\) musel mať normálne rozdelenie. Avšak \(X_1 + X_2 = 2X_1\mathbb{I}_{\{Y=1\}}\) normálne rozdelenie nemá, ako môžeme vidieť na nasledujúcom grafe (červená krivka predstavuje normálne rozdelenie):
Ďalej môžme vidieť úrovňový graf pre \((X_1,X_2)^T\), ktorý tiež ukazuje, že nejde o normálne rozdelenie.
Uvažujme náhodný vektor \((X,Y)^T\) s rovnomerným rozdelením na množine \(M=\{(x,y) \in \mathbb{R}^2; 0<x<y<1\}.\) Potom združená hustota je \(f_{X,Y}(x,y)=2 \mathbb{I}_{(x,y)\in M}\). Vyintegrovaním dostaneme hustoty veličín \(X\) a \(Y\): \(f_X(x)=2(1-x)\mathbb{I}_{\{0<x<1\}}\) a \(f_Y(y)=2y \mathbb{I}_{\{0<y<1\}}\). Z toho môžme vidieť, že \(X\) a \(Y\) nie sú nezávislé, pretože \(f_{X,Y}(x,y) \neq f_X(x)f_Y(y).\)
Ďalej vygenerujeme náhodný výber s počtom pozorovaní 10000. Chceme vidieť, či ide skutočne o náhodný výber z rovnomerného rozdelenia popísaného vyššie.
Úrovňový graf (horný graf) vyzerá podľa očakávania, ide v podstate o trojuholník s najvyššími úrovňami blízko 2. 3D graf (dolný graf) vyzerá taktiež podľa očakávania, pretože stĺpce, ktoré neležia na diagonále sú približne rovnako vysoké. Na dosiahnutie ešte presnejších výsledkov by sme museli vygenerovať viac pozorovaní. Pre overenie ešte môžme spočítať variančnú maticu a porovnať ju s teoretickými hodnotami:
## [,1] [,2]
## [1,] 0.05530149 0.02776745
## [2,] 0.02776745 0.05571747
Opäť ide o hodnoty veľmi blízke teoretickým hodnotám.
athletic
z knižnice SMSdata
. Máme k dispoziícií atletické rekordy 55 krajín v 8 bežeckých disciplínach. Sú to disciplíny: 100m, 200m, 400m, 800m, 1500m, 5000m, 10000m a maratón. Všetky veličiny sú spojité. Ďalej rozdelíme jednotlivé krajiny podľa kontinentov, dostávane tak kategoriálnu veličinu s kontinentami Afrika, Amerika, Ázia, Európa a Oceánia (Austrália a Oceánia). Pre predstavu si môžme pozrieť niekoľko prvých údajov z tabuľky a prehľad všetkých veličín. Vidíme, že v datach sa vyskytuje málo pozorovaní z Afriky a z Oceánie.
head(data)
## 100m 200m 400m 800m 1500m 5000m 10000m Marathon continent
## Argentina 10.39 20.81 46.84 1.81 3.70 14.04 29.36 137.71 Americas
## Australia 10.31 20.06 44.84 1.74 3.57 13.28 27.66 128.30 Oceania
## Austria 10.44 20.81 46.82 1.79 3.60 13.26 27.72 135.90 Europe
## Belgium 10.34 20.68 45.04 1.73 3.60 13.22 27.45 129.95 Europe
## Bermuda 10.28 20.58 45.91 1.80 3.75 14.68 30.55 146.61 Americas
## Brazil 10.22 20.43 45.21 1.73 3.66 13.62 28.62 133.13 Americas
summary(data)
## 100m 200m 400m 800m
## Min. : 9.93 Min. :19.72 Min. :43.86 Min. :1.700
## 1st Qu.:10.27 1st Qu.:20.59 1st Qu.:45.56 1st Qu.:1.755
## Median :10.41 Median :20.81 Median :46.10 Median :1.790
## Mean :10.47 Mean :21.30 Mean :46.44 Mean :1.793
## 3rd Qu.:10.59 3rd Qu.:21.30 3rd Qu.:47.30 3rd Qu.:1.815
## Max. :12.18 Max. :33.45 Max. :52.94 Max. :2.020
## 1500m 5000m 10000m Marathon continent
## Min. :3.510 Min. :13.01 Min. :27.38 Min. :128.2 Africa : 2
## 1st Qu.:3.600 1st Qu.:13.28 1st Qu.:27.71 1st Qu.:130.7 Americas:11
## Median :3.640 Median :13.50 Median :28.19 Median :132.3 Asia :14
## Mean :3.698 Mean :13.85 Mean :29.00 Mean :136.6 Europe :23
## 3rd Qu.:3.770 3rd Qu.:14.14 3rd Qu.:29.87 3rd Qu.:139.3 Oceania : 5
## Max. :4.240 Max. :16.70 Max. :35.38 Max. :164.7
Na grafe môžme vidieť, že najlepšie rekordy vo všetkých disciplínach stabilne dosahujú prevažne krajiny z Európy. Kvalitné výkony sa však vyskytujú aj v krajinách z amerického kontinentu. Naopak zdá sa, že najslabšie rekordy sú medzi krajinami z Oceánie. Tiež si môžme všimnúť, že sa v datach vyskytuje naozaj málo pozorovaní z afrického kontinentu.
Teraz sa bližšie pozrieme na súvislosť najlepších časov v jednotlivých disciplínach.
Môžeme vidieť, že najlepšie výsledky v takmer všetkých kategóriách sú silno korelované. Najväčšia korelácia je podľa očakávania medzi podobnými disciplínami, ako je napríklad beh na 5000m a beh na 10000m - oba behy spadajú do rovnakej kategórie behu na dlhé trate. Prekvapivá je nízka korelácia behu na 200m s ďalšími behmi, a to dokonca aj s behmi na 100m a 400m, ktoré sa rovnako ako 200m radia do behov na krátke trate. Zdá sa, že väčšina krajín dosiahla v behu na 200m veľmi podobné najlepšie časy. Tiež si môžme všimnúť, že sa v datach vyskytuje niekoľko odľahlých pozorovaní, predovšetkým v behu na 100m a 200m.