Statisztikai minta és mintatér

Valószínűségi mező: \((\Omega, \mathcal{A}, \mathbb{P})\)

\(\Omega\): nemüres halmaz (eseménytér), elemi események (\(\omega\)) halmaza

– Kísérlet lehetséges kimeneteleinek halmaza; érmedobás: \(\Omega=\{F, I\}\)

\(\mathcal{A} \subseteq \Omega\): \(\sigma\)-algebra (események családja), véges \(\Omega\) esetén az eseménytér összes részhalmaza

\(A \in \mathcal{A}\) lehetséges kimenetelek halmaza; érmedobás: \(\mathcal{A}=\{ \emptyset , \{F\}, \{I\}, \Omega \}\), pl. \(A=\{F\}\)

\(\mathbb{P}: \mathcal{A} \rightarrow [0,1]\) valószínűségi mérték

– események valószínűsége; érmedobás: pl. \(\mathbb{P}(A) = \frac{1}{2}\)

Statisztikai mező: \((\Omega, \mathcal{A}, \mathcal{P})\)

ha minden \(\mathbb{P} \in \mathcal{P}\)-re \((\Omega, \mathcal{A}, \mathbb{P})\) valószínűségi mező

– amennyiben \(\mathcal{P} = \{ \mathbb{P}_{\vartheta} | \vartheta \in \Theta \subseteq \mathbb{R}^p \,\, {\rm param\acute etert\acute er\}}\): paraméteres statisztikai mező

Definíció:(Minta:) \(\mathbf{X}=(X_1,...,X_n)\) valószínűségi változó sorozat. A továbbiakban feltesszük, hogy függetlenek és azonos eloszlásúak. Realizációja: \(x_1,...,x_n\)

Definíció:(Mintatér:) Minta lehetséges értékeinek halmaza: \(\chi, \mathbb{R}^n\) egy részhalmaza; érmedobás: pl. érme ötszöri feldobásánál \(\{0,1\}^5\)

Torzítatlan becslések

Definíció:(Becslés:) \(T(\mathbf{X})\) becslése \(g(\vartheta)\)-nak, ahol \(\vartheta \in \Theta \subseteq \mathbb{R}^p\), ha \(T:\chi \rightarrow \Theta\). Másképp: A mintatéren értelmezett függvényt statisztikának hívjuk. Becslést úgy kaphatunk, ha egy statisztikába a mintát behelyettesítjük.

Definíció:(Torzítatlan becslés) \(T(\mathbf{X}\)) statisztika torzítatlan becslése a \(\vartheta\) paraméter \(g(\vartheta)\) függvényének, ha \(E_{\vartheta}T(\mathbf{X})=g(\vartheta)\) \(\forall \vartheta \in \Theta\) esetén.

Definíció:(Statisztika) A minta valamely függvénye,

Példák statisztikára:

(Glivenko-Cantelli tétel) Az \(F_n(x)\) tapasztalati eloszlásfüggvény és az \(F(x)\) elméleti eloszlásfüggvény közötti eltérés maximuma 1 valószínűséggel egyenletesen 0-hoz konvergál, ami azt jelenti, hogy elég nagy minta esetén \(F_n(x)\) értéke minden \(x\)-re közel van \(F(x)\) értékéhez.

Boxplot

Itt a doboz két széle az első ill. harmadik kvartilis, a belső függőleges vonal jelzi a medián értékét. A vízszintes vonalak a doboztól legfeljebb \(1.5\cdot IQR\) távolságra lógnak ki. A \(\max\{ x_1^*,Q_1-1,5 \cdot IQR \}\)-nál kisebb ill. \(\min\{ x_n^*,Q_3+1,5 \cdot IQR \}\)-nál nagyobb értékeket kiugró értéknek tekintjük és pontokkal ábrázoljuk.

Feladatok (papíron):

  1. Határozzuk meg a mintateret a következő esetekben:
  1. Egy dobókocka háromszori feldobása.
  2. Egy diák felkelési időpontjait jegyzik fel 20 napon keresztül.
  3. Három pénzérmét \(n\)-szer dobunk fel.

“A német tank probléma a nevét egy a II. Világháború idején felmerült problémára alkalmazott megoldás után kapta. A szövetséges haderők számára nagyon fontos lett volna ismerni, hogy a németek mennyi Panzer V („Panther” azaz párduc) típusú tankot gyártottak a háború évei alatt. A szövetséges hírszerzés minden erőfeszítés ellenére sem volt képes megbízható számadatokkal szolgálni. Végül rájöttek, hogy a németek nagyon precízen egymás után következő egyedi sorszámokkal látták el a legyártott tankok sebességváltó házait."

Az alábbiakban annyiban fogunk eltérni a fenti példától, hogy folytonos egyenletes eloszlással fogjuk modellezni a problémát.

  1. A \((0, \vartheta)\) intervallumon egyenletes eloszlásból vett \(n\) elemű minta alapján adjunk tapasztalati becslést a \(\vartheta>0\) paraméterre (több megoldás is lehetséges). Torzítatlan-e? Ha nem, tegyük azzá!

  2. Torzítatlan-e a tapasztalati közép reciproka az exponenciális eloszlás paraméterére? Ha nem, hogyan lehet torzítatlanná tenni?

Feladatok (R):

  1. Egy szabályos dobókockával négyszer dobtunk és a következőket kaptuk: 1, 3, 6, 1.
  1. Számolja ki a mintaátlagot, tapasztalati szórást és korrigált tapasztalati szórást, a szórási együtthatót (a korrigált szórást használva), valamint a második tapasztalati momentumot!

  2. Mi a kockadobás elméleti eloszlásfüggvénye? Ábrázolja ezt a függvényt is!

  3. A floor(runif(100, min=1, max=7)) utasítással generáljon \(100\) kockadobást és annak ábrázolja a tapasztalati eloszlásfüggvényét az R program segítségével. (Megjegyzés: generálhat más számú kockadobást is.) Mit tapasztal?

  4. Tekintsük a fenti a 101, 103, 106, 101 adatokat, melyeket az előzőekből \(100\)-zal való eltolással kaptunk. Mennyi lesz most a mintaátlag és a tapasztalati szórás?

  5. Az (a)-pontbeli adatokat szorozzuk meg \(-3\)-mal: \(-3, -9, -18, -3\). Hogyan változik ekkor a mintaátlag és a tapasztalati szórás?

  1. Egy csoportban a hallgatók magassága (cm):
  1. Nézzen rá az adatokra! Reálisak? Javítsa az esetleges adathibákat!

  2. Adja meg a rendezett mintát!

  3. Rajzolja fel a tapasztalati eloszlásfüggvényt! Mennyi a tapasztalati eloszlásfüggvény értéke a 180 helyen? értelmezze szövegesen!

  4. Elemezze a hallgatók testmagasságát alapstatisztikák: átlag, korrigált tapasztalati szórás, szórási együttható, kvartilisek, terjedelem, interkvartilis terjedelem, tapasztalati ferdeség, tapasztalati csúcsosság segítségével!

  5. Készítsen boxplot ábrát!

  6. Készítsen alkalmas osztályközös gyakorisági sort, majd abból hisztogramot! Vesse ezt össze az R

  1. Legyen
adat=c(2,0,1,0,8,3,5,7,8,2,3,5,1,7,8,3,5,3,2,8)

Mit számol az alábbi R program?

sum(adat<3)
t_adat = table(adat)
names(t_adat)[t_adat==max(t_adat)] 

A table függvény először az adat vektorból készít kontigencia táblát. Azaz az előforduló értékek mindegyikére megadja az előfordulások számát. Ezután kiírja a leggyakrabban előforduló értékeket (string-ként):

## [1] "3" "8"
  1. Az alábbi érték TRUE vagy FALSE?
sd(adat)== sqrt(sum((adat-mean(adat))^2)/(length(adat)))

Amennyiben hamis az állítás, hogyan lehet igazzá tenni?

rep=rep(c("A","B"),c(10,10))
df = data.frame(adat=adat,rep=rep)
library(ggplot2)
ggplot(df, aes(x = rep, y = adat)) +
    geom_boxplot(fill = "gold") +
    scale_x_discrete (name = "A  és  B csoport") 

Az első két sor egy data.frame-et készít. Az adatok első fele A, míg a második fele a B csoportba kerül. Ezután boxplot-ot készítünk mindkét csoport adataiból, és ezeket egymás mellett ábrázoljuk.