9. úloha

Naďalej budeme pracovať s datasetom uscrime, tentokrát však budeme používať len vybrané veličiny. Konkrétne murder, robbery, assault, burglary a autotheft. Navyše budeme využívať veličinu region, avšak namiesto štyroch regiónov budeme data deliť len na dve oblasti. Na základe predchádzajúcich úloh budeme používať oblasti South a Northeast + Midwest + West.

Lineas Discriminant Analysis

Na nasledujúcom grafe môžme vidieť, že data sa rozlišujú (až na nejaké odchýlky) niekde v okolí 0.

Na ďalších grafoch môžme vidieť rozdelenie pozorovaní vzhľadom ku každej dvojici uvažovaných veličín. Presnosť rozdelenia je pre niektoré veličiny dosť malá, celkovo sa pohybuje medzi 0,14 a 0,32 - najvyššia chyba je pri robbery a bulglary, resp pri robbery a autotheft.

Quadratic Discriminant Analysis

Teraz budeme uvažovať iný spôsob delenia. Môžeme vidieť, že chyba pri robbery a autotheft sa mierne zvýšila, v niektorých prípadoch (murder a assault) mierne klesla. Vo väčšine prípadov však nepozorujeme zásadné rozdiely.

8. úloha

Budeme pracovať s datasetom uscrime, s ktorým sme už pracovali v predchádzajúcich dvoch úlohách. Najskôr na data použijeme K-means algoritmus. Keďže máme data rozdelené do 4 rôznych regiónov, pokúsime sa ich rozdeliť do 4 clustrov. Môžme vidieť, že dva clustre obsahujú veľmi málo pozorovaní, preto použiť 4 clustre mohlo byť príliš veľa.

Ďalej na data použijeme hierarchický cluster algoritmus, opäť použijeme 4 clustre. Taktiež môžme vidieť, že dva clustre obsahujú málo pozorovaní. Dokonca jeden cluster obsahuje len Aljašku. Jej zaradenie do samostatného clustra by však mohlo dávať zmysel, vzhľadom na jej polohu.

7. úloha

Opäť budeme pracovať s rovnakým datasetom ako v 6. úlohe. Tentokrát sa pozrieme na faktorovú analýzu, pri ktorej budeme pracovať s rovnakými spojitými veličinami ako v predchádzajúcej úlohe: land area, popu 1985, murder, rape, robbery, assault, burglary, larceny, autotheft.

Najskôr sa pozrieme na to, koľko faktorov by bolo najvýhodnejšie použiť. Podľa p-hodnoty (0.001) nestačí použiť 2 faktory. Najvýhodnejšie sa zdá použitie 4 faktorov (p-hodnota 0.292). Ako môžme vidieť nižšie, pomocou 4 faktorov sa darí vysvetliť 79% variability. Taktiež môžme vidieť, že s Faktorom 1 najviac súvisí burglary a larceny, s Faktorom 2 murder a assault, s Faktorom 3 popu 1985 a robbery a s Faktorom 4 veličina land area.

## 
## Call:
## factanal(x = Data[, 1:9], factors = 4, rotation = "varimax")
## 
## Uniquenesses:
## land area popu 1985    murder      rape   robbery   assault  burglary   larceny 
##      0.00      0.52      0.19      0.27      0.16      0.09      0.10      0.18 
## autotheft 
##      0.41 
## 
## Loadings:
##           Factor1 Factor2 Factor3 Factor4
## rape                                     
## burglary   0.85                          
## larceny    0.88                          
## autotheft                                
## murder             0.88                  
## assault            0.87                  
## popu 1985                  0.63          
## robbery                    0.80          
## land area                          0.98  
## 
##                Factor1 Factor2 Factor3 Factor4
## SS loadings       2.35    2.01    1.63    1.08
## Proportion Var    0.26    0.22    0.18    0.12
## Cumulative Var    0.26    0.48    0.67    0.79
## 
## Test of the hypothesis that 4 factors are sufficient.
## The chi square statistic is 7.32 on 6 degrees of freedom.
## The p-value is 0.292

Podobnú informáciu môžme vidieť aj na nasledujúcich grafoch, kde vidíme, že s Faktorom 1 sú najviac korelované burglary a larceny, ktoré by mohol tento faktor reprezentovať - môžme predpokladať, že majú niečo spoločné. Podobne by Faktor 2 mohol popisovať murder a assault.

6. úloha

Budeme pracovať s datovým súborom uscrime z knižnice SMSdata. Nachádza sa tu 9 spojitých veličín, ktoré použijeme na analýzu.

##    land area        popu 1985         murder            rape      
##  Min.   :  1212   Min.   :  509   Min.   : 0.500   Min.   : 3.60  
##  1st Qu.: 37241   1st Qu.: 1236   1st Qu.: 3.500   1st Qu.:10.35  
##  Median : 56214   Median : 3266   Median : 6.200   Median :14.95  
##  Mean   : 72374   Mean   : 4762   Mean   : 6.858   Mean   :15.62  
##  3rd Qu.: 83242   3rd Qu.: 5654   3rd Qu.: 9.575   3rd Qu.:19.35  
##  Max.   :591004   Max.   :26365   Max.   :15.300   Max.   :36.00  
##                                                                   
##     robbery          assault         burglary         larceny    
##  Min.   :  6.50   Min.   : 21.0   Min.   : 286.0   Min.   : 694  
##  1st Qu.: 46.77   1st Qu.: 84.5   1st Qu.: 681.5   1st Qu.:1424  
##  Median : 76.70   Median :125.0   Median : 871.0   Median :1923  
##  Mean   :101.51   Mean   :135.4   Mean   : 930.8   Mean   :1944  
##  3rd Qu.:126.88   3rd Qu.:191.5   3rd Qu.:1140.0   3rd Qu.:2316  
##  Max.   :443.30   Max.   :293.0   Max.   :1753.0   Max.   :3550  
##                                                                  
##    autotheft            reg              div    
##  Min.   : 78.0   Northeast: 9   S Atlantic : 8  
##  1st Qu.:219.0   Midwest  :12   Mountain   : 8  
##  Median :343.0   South    :16   W N Central: 7  
##  Mean   :367.9   West     :13   New England: 6  
##  3rd Qu.:513.8                  E N Central: 5  
##  Max.   :878.0                  Pacific    : 5  
##                                 (Other)    :11

Môžme vidieť, že väčšina veličín, ktoré zodpovedajú jednotlivým kriminálnym činom sú medzi sebou korelované.

## Importance of components:
##                           PC1    PC2    PC3     PC4     PC5     PC6     PC7
## Standard deviation     2.1125 1.2120 1.0745 0.85354 0.67288 0.52669 0.47401
## Proportion of Variance 0.4958 0.1632 0.1283 0.08095 0.05031 0.03082 0.02497
## Cumulative Proportion  0.4958 0.6590 0.7873 0.86827 0.91857 0.94940 0.97436
##                            PC8     PC9
## Standard deviation     0.36513 0.31212
## Proportion of Variance 0.01481 0.01082
## Cumulative Proportion  0.98918 1.00000

Pri metóde hlavných komponentov môžeme vidieť, že prvé dva komponenty vysvetľujú 66% variability. Ak by sme chceli vysvetliť viac ako 90%, museli by sme použiť prvých 5 komponentov. Zároveň vidíme, že prvá komponenta sama vysvetlí takmer 50% variability.

Z projekcie do priestoru prvých dvoch komponentov vidíme napríklad, že význmané veličiny pre prvú komponentu sú popu 1985, robbery a rape. Zároveň tieto veličiny, predovšetkým popu 1985, takmer neposôbia na druhú komponentu. Podľa farebného rozlíšenia jednotlivých regiónov sa zdá, že v rôznych regiónoch prevládajú odlišné kriminálne činnosti, z tohto pohľadu sa to však rozlišuje ťažko - znateľne však vraždy prevládajú na juhu USA.

Keď sa pozrieme na projekciu do pristoru druhej a tretej komponenty, môžme vidieť, že na západe sú početnejšie vlámania, a na severovýchode zase krádeže.

5. úloha

Majme náhodný výber z dvojrozmerného normálneho rozdelenia \(N(\mu, \Sigma),\) kde \(\mu = (0,0)^T\) a \(\Sigma\) je náhodná variančná matica.

Data z nulovej hypotézy

Budeme uvažovať hypotézu \(H_{0} : \mu = (0,0)^T\) proti alternatíve \(H_{0} : \mu \neq (0,0)^T.\) Na nasledujúcom grafe môžeme vidieť pravdepodobnosť chyby prvého druhu pri rôzne veľkom rozsahu výberu v prípade známej, resp. neznámej matici \(\Sigma.\) Pravdepodobnosť chyby prvého druhu je počítaná z 1000 pokusov.

Data za alternatívnej hypotézy

Naďalej budeme uvažovať náhodný výber ako na začiatku. Chceme zistiť pravdepodobnosť chyby druhého druhu pri rôznych nulových hypotézach - budeme uvažovať 10 rôznych nulových hypotéz, ktoré sa budú od skutočnej strednej hodnoty \((0,0)^T\) postupne vzďalovať o hodnotu 0.1 v oboch zložkách (tj nulová hypotéza bude \((0.1, 0.1)^T, (0.2, 0.2)^T,... (1,1)^T.\)) Taktiež budeme uvažovať rôzne rozsahy výberov - konkrétne 10, 50 a 100. Pravdepodobnost chyby druhého druhu bude v každom prípade počítaná z 1000 pokusov. Nižšie môžme vidieť pravdepodobnosti chýb druhého druhu za situácie známej variančnej matice \(\Sigma,\) pri rozsahu výberov 10, 50 a 100.

Na ďalšom grafe môžme vidieť pravdepodobnosti chýb druhého druhu pri neznámej variančnej matici.

4. úloha

V tejto úlohe budeme pracovať s datami Wais z balíčku SMSdata. Data obsahujú údaje o ľuďoch, ktorí podstúpili WAIS test. Medzi ľuďmi bolo 12 ľudí so senilným faktorom a 37 zdravých ľudí. Data obsahujú výsledky z jednotlivých úloh, ktoré WAIS test obsahuje.

Chceme otestovať rovnosť výsledkov úloh zdravých ľudí a ľudí so senilným faktorom. Na to použijeme Hotellingov test, ktorý predpokladá združenú normalitu a zhodné kovariančné matice. Pozrieme sa aspoň na normalitu marginálnych rozdelení.

Väčšina qq-grafov (vpravo) vyzerá normálne, aj keď grafy hustoty predovšetkým v skupine so senilným faktorom (červená) tak presvedčivo nevyzerajú. Bohužiaľ v tejto skupine sa nachádza málo pozorovaní, preto výsledky môžu byť značne skreslené.

Pozrime sa na boxploty jednotlivých úloh. Môžme vidieť, že výsledky pre dve skupiny dopadajú rozdielne. To môžme otestovať pomocou Hotellingovho testu. Ten testuje rovnosť stredných hodnôt výsledkov úloh zdravých ľudí a ľudí so senilným faktorom.

Podľa p-hodnoty testu zamietame hypotézu o rovnosti stredných hodnôt. To znamená, že ľudia so senilným faktorom dosahujú odlišné výsledky, ako zdraví ľudia.

## 
##  Hotelling's two sample T2-test
## 
## data:  x and y
## T.2 = 5.1794, df1 = 4, df2 = 44, p-value = 0.001655
## alternative hypothesis: true location difference is not equal to c(0,0,0,0)

Pozrieme sa ešte na odhady stredných hodnôt a intervaly spoľahlivosti pre obe skupiny spolu:

##                    Lower Boundary Upper Boundary Mean Estimate
## information              9.855459      13.409847     11.632653
## similarities             6.578235      10.482990      8.530612
## arithmetic               9.027403      12.482801     10.755102
## picture completion       5.859195       8.508152      7.183673

Ďalej môžme vidieť aj výsledky pre skupinu ľudí so senilným faktorom:

##                    Lower Boundary Upper Boundary Mean Estimate
## information              7.193577      10.306423      8.750000
## similarities             3.288449       7.378218      5.333333
## arithmetic               6.761739      10.238261      8.500000
## picture.completion       3.040447       6.459553      4.750000

A taktiež výsledky pre zdravých ľudí:

##                    Lower Boundary Upper Boundary Mean Estimate
## information             10.945780      14.189355     12.567568
## similarities             7.903154      11.231981      9.567568
## arithmetic               9.892095      13.080878     11.486486
## picture.completion       7.052825       8.893121      7.972973

3. úloha

1. časť

Uvažujme náhodný vektor \(\mathbb{X} \sim N_2(\mu, \Sigma),\) kde \(\mu = (2, 2)^T\) a \(\Sigma = \mathbb{I_2}.\) Ďalej uvažujme matice \(\mathbb{A} = (1,1)\) a \(\mathbb{B} = (1,-1)\) a chceme ukázať, že matice \(\mathbb{AX}\) a \(\mathbb{BX}\) sú nezávislé.

Pre \(\mathbb{AX}\) platí \(\mathbb{AX} \sim N(\mathbb{A}\mu, \mathbb{A}\Sigma\mathbb{A}^T) = N(4,2)\) a podobne \(\mathbb{BX} \sim N(0,2).\) Vektor \((\mathbb{AX}, \mathbb{BX})^T\) má združené normálne rozdelenie a keďže ide omnohorozmerné normálne rozdelenie, na dokázanie nezávislosti stačí dokázať nekorelovanosť.

Platí \(\mathrm{Cov}(\mathbb{AX}, \mathbb{BX}) = \mathbb{A}\mathrm{Cov}(\mathbb{X,X})\mathbb{B}^T = (1, 1)\mathbb{I_2}(1,-1)^T = 0,\) z čoho plynie daná nezávislosť. Vo výpočte sme použili rovnosť \(\mathrm{Cov}(\mathbb{X,X}) = \mathrm{Var}(\mathbb{X}).\)

Na nasledujúcom grafe môžme vidieť, že \(\mathbb{AX}\) a \(\mathbb{BX}\) sú skutočne nezávislé (nekorelované).

2. časť

Uvažujme náhodný vektor \((X_1,X_2)^T,\) \(X_1 \sim N(0,1), X_2 = YX_1,\) kde \(\mathbb{P}(Y=1)=\frac{1}{2}\) a \(\mathbb{P}(Y=-1)=\frac{1}{2}.\) Potom \(X_2 \sim N(0,1),\) pretože \(F_{X_2}(x) = \mathbb{P}(X_2 \leq x) = \frac{1}{2}\mathbb{P}(X_1 \leq x) + \frac{1}{2}\mathbb{P}(-X_1 \leq x) = \frac{1}{2}F_{X_1}(x) + \frac{1}{2}(1-F_{X_1}(-x)) = F_{X_1}(x).\) Vektor \((X_1,X_2)^T\) však nemá normálne rozdelenie - ak by mal, potom by aj súčet \(X_1 + X_2\) musel mať normálne rozdelenie. Avšak \(X_1 + X_2 = 2X_1\mathbb{I}_{\{Y=1\}}\) normálne rozdelenie nemá, ako môžeme vidieť na nasledujúcom grafe (červená krivka predstavuje normálne rozdelenie):

Ďalej môžme vidieť úrovňový graf pre \((X_1,X_2)^T\), ktorý tiež ukazuje, že nejde o normálne rozdelenie.

2. úloha

Uvažujme náhodný vektor \((X,Y)^T\) s rovnomerným rozdelením na množine \(M=\{(x,y) \in \mathbb{R}^2; 0<x<y<1\}.\) Potom združená hustota je \(f_{X,Y}(x,y)=2 \mathbb{I}_{(x,y)\in M}\). Vyintegrovaním dostaneme hustoty veličín \(X\) a \(Y\): \(f_X(x)=2(1-x)\mathbb{I}_{\{0<x<1\}}\) a \(f_Y(y)=2y \mathbb{I}_{\{0<y<1\}}\). Z toho môžme vidieť, že \(X\) a \(Y\) nie sú nezávislé, pretože \(f_{X,Y}(x,y) \neq f_X(x)f_Y(y).\)

Ďalej vygenerujeme náhodný výber s počtom pozorovaní 10000. Chceme vidieť, či ide skutočne o náhodný výber z rovnomerného rozdelenia popísaného vyššie.

Úrovňový graf (horný graf) vyzerá podľa očakávania, ide v podstate o trojuholník s najvyššími úrovňami blízko 2. 3D graf (dolný graf) vyzerá taktiež podľa očakávania, pretože stĺpce, ktoré neležia na diagonále sú približne rovnako vysoké. Na dosiahnutie ešte presnejších výsledkov by sme museli vygenerovať viac pozorovaní. Pre overenie ešte môžme spočítať variančnú maticu a porovnať ju s teoretickými hodnotami:

##            [,1]       [,2]
## [1,] 0.05530149 0.02776745
## [2,] 0.02776745 0.05571747

Opäť ide o hodnoty veľmi blízke teoretickým hodnotám.

1. úloha

Popis dát

V nasledujúcej úlohe budeme pracovať s datovým súborom athletic z knižnice SMSdata. Máme k dispoziícií atletické rekordy 55 krajín v 8 bežeckých disciplínach. Sú to disciplíny: 100m, 200m, 400m, 800m, 1500m, 5000m, 10000m a maratón. Všetky veličiny sú spojité. Ďalej rozdelíme jednotlivé krajiny podľa kontinentov, dostávane tak kategoriálnu veličinu s kontinentami Afrika, Amerika, Ázia, Európa a Oceánia (Austrália a Oceánia). Pre predstavu si môžme pozrieť niekoľko prvých údajov z tabuľky a prehľad všetkých veličín. Vidíme, že v datach sa vyskytuje málo pozorovaní z Afriky a z Oceánie.

head(data)

##            100m  200m  400m 800m 1500m 5000m 10000m Marathon continent
## Argentina 10.39 20.81 46.84 1.81  3.70 14.04  29.36   137.71  Americas
## Australia 10.31 20.06 44.84 1.74  3.57 13.28  27.66   128.30   Oceania
## Austria   10.44 20.81 46.82 1.79  3.60 13.26  27.72   135.90    Europe
## Belgium   10.34 20.68 45.04 1.73  3.60 13.22  27.45   129.95    Europe
## Bermuda   10.28 20.58 45.91 1.80  3.75 14.68  30.55   146.61  Americas
## Brazil    10.22 20.43 45.21 1.73  3.66 13.62  28.62   133.13  Americas

summary(data)

##       100m            200m            400m            800m      
##  Min.   : 9.93   Min.   :19.72   Min.   :43.86   Min.   :1.700  
##  1st Qu.:10.27   1st Qu.:20.59   1st Qu.:45.56   1st Qu.:1.755  
##  Median :10.41   Median :20.81   Median :46.10   Median :1.790  
##  Mean   :10.47   Mean   :21.30   Mean   :46.44   Mean   :1.793  
##  3rd Qu.:10.59   3rd Qu.:21.30   3rd Qu.:47.30   3rd Qu.:1.815  
##  Max.   :12.18   Max.   :33.45   Max.   :52.94   Max.   :2.020  
##      1500m           5000m           10000m         Marathon        continent 
##  Min.   :3.510   Min.   :13.01   Min.   :27.38   Min.   :128.2   Africa  : 2  
##  1st Qu.:3.600   1st Qu.:13.28   1st Qu.:27.71   1st Qu.:130.7   Americas:11  
##  Median :3.640   Median :13.50   Median :28.19   Median :132.3   Asia    :14  
##  Mean   :3.698   Mean   :13.85   Mean   :29.00   Mean   :136.6   Europe  :23  
##  3rd Qu.:3.770   3rd Qu.:14.14   3rd Qu.:29.87   3rd Qu.:139.3   Oceania : 5  
##  Max.   :4.240   Max.   :16.70   Max.   :35.38   Max.   :164.7

Grafická vizualizácia dát

Na zobrazenie dát najskôr využijeme graf rovnobežných súradníc, kde môžme vidieť (štandardizované) rekordy pre všetky dostupné disciplíny. Krajiny sú farebne rozlíšené podľa kontinentov, na ktorých sa nachádzajú.

Na grafe môžme vidieť, že najlepšie rekordy vo všetkých disciplínach stabilne dosahujú prevažne krajiny z Európy. Kvalitné výkony sa však vyskytujú aj v krajinách z amerického kontinentu. Naopak zdá sa, že najslabšie rekordy sú medzi krajinami z Oceánie. Tiež si môžme všimnúť, že sa v datach vyskytuje naozaj málo pozorovaní z afrického kontinentu.

Teraz sa bližšie pozrieme na súvislosť najlepších časov v jednotlivých disciplínach.

Môžeme vidieť, že najlepšie výsledky v takmer všetkých kategóriách sú silno korelované. Najväčšia korelácia je podľa očakávania medzi podobnými disciplínami, ako je napríklad beh na 5000m a beh na 10000m - oba behy spadajú do rovnakej kategórie behu na dlhé trate. Prekvapivá je nízka korelácia behu na 200m s ďalšími behmi, a to dokonca aj s behmi na 100m a 400m, ktoré sa rovnako ako 200m radia do behov na krátke trate. Zdá sa, že väčšina krajín dosiahla v behu na 200m veľmi podobné najlepšie časy. Tiež si môžme všimnúť, že sa v datach vyskytuje niekoľko odľahlých pozorovaní, predovšetkým v behu na 100m a 200m.

Mnohorozmerná analýza - NMST539

Mária Vronková