\(\Omega\): nemüres halmaz (eseménytér), elemi események (\(\omega\)) halmaza
– Kísérlet lehetséges kimeneteleinek halmaza; érmedobás: \(\Omega=\{F, I\}\)
\(\mathcal{A} \subseteq \Omega\): \(\sigma\)-algebra (események családja), véges \(\Omega\) esetén az eseménytér összes részhalmaza
– \(A \in \mathcal{A}\) lehetséges kimenetelek halmaza; érmedobás: \(\mathcal{A}=\{ \emptyset , \{F\}, \{I\}, \Omega \}\), pl. \(A=\{F\}\)
\(\mathbb{P}: \mathcal{A} \rightarrow [0,1]\) valószínűségi mérték
– események valószínűsége; érmedobás: pl. \(\mathbb{P}(A) = \frac{1}{2}\)
ha minden \(\mathbb{P} \in \mathcal{P}\)-re \((\Omega, \mathcal{A}, \mathbb{P})\) valószínűségi mező
– amennyiben \(\mathcal{P} = \{ \mathbb{P}_{\vartheta} | \vartheta \in \Theta \subseteq \mathbb{R}^p \,\, {\rm param\acute etert\acute er\}}\): paraméteres statisztikai mező
Definíció:(Minta:) \(\mathbf{X}=(X_1,...,X_n)\) valószínűségi változó sorozat. A továbbiakban feltesszük, hogy függetlenek és azonos eloszlásúak. Realizációja: \(x_1,...,x_n\)
Definíció:(Mintatér:) Minta lehetséges értékeinek halmaza: \(\chi, \mathbb{R}^n\) egy részhalmaza; érmedobás: pl. érme ötszöri feldobásánál \(\{0,1\}^5\)
Definíció:(Becslés:) \(T(\mathbf{X})\) becslése \(g(\vartheta)\)-nak, ahol \(\vartheta \in \Theta \subseteq \mathbb{R}^p\), ha \(T:\chi \rightarrow \Theta\). Másképp: A mintatéren értelmezett függvényt statisztikának hívjuk. Becslést úgy kaphatunk, ha egy statisztikába a mintát behelyettesítjük.
Definíció:(Torzítatlan becslés) \(T(\mathbf{X}\)) statisztika torzítatlan becslése a \(\vartheta\) paraméter \(g(\vartheta)\) függvényének, ha \(E_{\vartheta}T(\mathbf{X})=g(\vartheta)\) \(\forall \vartheta \in \Theta\) esetén.
Definíció:(Statisztika) A minta valamely függvénye,
Példák statisztikára:
mintaátlag v. átlag \(\overline{X}=\frac{1}{n}\sum \limits_{i=1}^n X_i\),
tapasztalati szórás: \(S_n=\sqrt{ \frac{1}{n}\sum \limits_{i=1}^n (X_i-\overline{X})^2}\) (az átlagtól való átlagos négyzetes eltérés gyöke)
Korrigált tapasztalati szórás: \(S_n^*=\sqrt{\frac{1}{n-1}\sum \limits_{i=1}^n (X_i-\overline{X})^2}\)
Szórási együttható (vagy relatív szórás): \(V=\frac{S_n}{\overline{X}}\) (az átlagtól való átlagos eltérés százalékban) /megjegyzés: lehet a korrigált tapasztalati szórással számolni/
\(k\)-adik tapasztalati momentum (\(k \ge 1, k \in \mathbb{Z}\)): \(m_k=\frac{1}{n}\sum \limits_{i=1}^n X^k_i\)
Tapasztalati módusz: a legtöbbször előforduló érték
Rendezett minta: \(X_1^*\leq ... \leq X_n^*\) a mintaelemek nem csökkenő sorrendben
Tapasztalati medián: \(X^*_\frac{n+1}{2}\), ha \(n\) páratlan és \(\frac{X^*_\frac{n}{2}+ X^*_{\frac{n}{2}+1}}{2}\), ha \(n\) páros.
Terjedelem: \(R=X_n^*-X_1^*\) (legnagyobb legkisebb mintaelem különbsége)
\(z\)-kvantilis: \(q_z=\inf \{x: F(x) \geq z \}\). Ha \(F\) invertálható, akkor \(q_z=F^{-1}(z)\).
Tapasztalati \(z\)-kvantilis: \(q_z\) értelmezése: a mintaelemek \(z\)-ed része legfeljebb a \(q_z\), (\(1-z\))-ed része pedig legalább a \(q_z\) értéket veszi fel (\(0 < z <1\)).
Sokféleképpen számolható, pl. interpolációs módszerrel: először megállapítjuk a sorszámot: \((n+1)z=e+t\) (\(e\): egészrész, \(t\): törtrész), majd kiszámoljuk a \(z\)-kvantilist: \(q_z=X_e^*+t(X_{e+1}^*-X_e^*)\).
Kvartilisek: Speciális kvantilisek, - alsó (vagy első) kvartilis: \(Q_1 = q_{\frac{1}{4}}\), - medián: \(Q_2=q_{\frac{1}{2}}\),
Interkvartilis terjedelem: \(IQR=q_{\frac{3}{4}} - q_{\frac{1}{4}} = Q_3-Q_1\)
Tapasztalati eloszlásfüggvény: \(F_n(x)=\frac{1}{n}\sum \limits_{i=1}^n I(X_i<x)\), ahol \[I(X_i<x)= \begin{cases} 1 & \text{ ha }X_i<x \\ 0 & \text{ ha }X_i \geq x \end{cases}\] az indikátor függvény
(Glivenko-Cantelli tétel) Az \(F_n(x)\) tapasztalati eloszlásfüggvény és az \(F(x)\) elméleti eloszlásfüggvény közötti eltérés maximuma 1 valószínűséggel egyenletesen 0-hoz konvergál, ami azt jelenti, hogy elég nagy minta esetén \(F_n(x)\) értéke minden \(x\)-re közel van \(F(x)\) értékéhez.
Boxplot
Itt a doboz két széle az első ill. harmadik kvartilis, a belső függőleges vonal jelzi a medián értékét. A vízszintes vonalak a doboztól legfeljebb \(1.5\cdot IQR\) távolságra lógnak ki. A \(\max\{ x_1^*,Q_1-1,5 \cdot IQR \}\)-nál kisebb ill. \(\min\{ x_n^*,Q_3+1,5 \cdot IQR \}\)-nál nagyobb értékeket kiugró értéknek tekintjük és pontokkal ábrázoljuk.
“A német tank probléma a nevét egy a II. Világháború idején felmerült problémára alkalmazott megoldás után kapta. A szövetséges haderők számára nagyon fontos lett volna ismerni, hogy a németek mennyi Panzer V („Panther” azaz párduc) típusú tankot gyártottak a háború évei alatt. A szövetséges hírszerzés minden erőfeszítés ellenére sem volt képes megbízható számadatokkal szolgálni. Végül rájöttek, hogy a németek nagyon precízen egymás után következő egyedi sorszámokkal látták el a legyártott tankok sebességváltó házait."
Az alábbiakban annyiban fogunk eltérni a fenti példától, hogy folytonos egyenletes eloszlással fogjuk modellezni a problémát.
A \((0, \vartheta)\) intervallumon egyenletes eloszlásból vett \(n\) elemű minta alapján adjunk tapasztalati becslést a \(\vartheta>0\) paraméterre (több megoldás is lehetséges). Torzítatlan-e? Ha nem, tegyük azzá!
Torzítatlan-e a tapasztalati közép reciproka az exponenciális eloszlás paraméterére? Ha nem, hogyan lehet torzítatlanná tenni?
R
):Számolja ki a mintaátlagot, tapasztalati szórást és korrigált tapasztalati szórást, a szórási együtthatót (a korrigált szórást használva), valamint a második tapasztalati momentumot!
Mi a kockadobás elméleti eloszlásfüggvénye? Ábrázolja ezt a függvényt is!
A floor(runif(100, min=1, max=7))
utasítással generáljon \(100\) kockadobást és annak ábrázolja a tapasztalati eloszlásfüggvényét az R
program segítségével. (Megjegyzés: generálhat más számú kockadobást is.) Mit tapasztal?
Tekintsük a fenti a 101, 103, 106, 101 adatokat, melyeket az előzőekből \(100\)-zal való eltolással kaptunk. Mennyi lesz most a mintaátlag és a tapasztalati szórás?
Az (a)-pontbeli adatokat szorozzuk meg \(-3\)-mal: \(-3, -9, -18, -3\). Hogyan változik ekkor a mintaátlag és a tapasztalati szórás?
Nézzen rá az adatokra! Reálisak? Javítsa az esetleges adathibákat!
Adja meg a rendezett mintát!
Rajzolja fel a tapasztalati eloszlásfüggvényt! Mennyi a tapasztalati eloszlásfüggvény értéke a 180 helyen? értelmezze szövegesen!
Elemezze a hallgatók testmagasságát alapstatisztikák: átlag, korrigált tapasztalati szórás, szórási együttható, kvartilisek, terjedelem, interkvartilis terjedelem, tapasztalati ferdeség, tapasztalati csúcsosság segítségével!
Készítsen boxplot ábrát!
Készítsen alkalmas osztályközös gyakorisági sort, majd abból hisztogramot! Vesse ezt össze az R
adat=c(2,0,1,0,8,3,5,7,8,2,3,5,1,7,8,3,5,3,2,8)
Mit számol az alábbi R program?
sum(adat<3)
t_adat = table(adat)
names(t_adat)[t_adat==max(t_adat)]
A table
függvény először az adat
vektorból készít kontigencia táblát. Azaz az előforduló értékek mindegyikére megadja az előfordulások számát. Ezután kiírja a leggyakrabban előforduló értékeket (string
-ként):
## [1] "3" "8"
TRUE
vagy FALSE
?sd(adat)== sqrt(sum((adat-mean(adat))^2)/(length(adat)))
Amennyiben hamis az állítás, hogyan lehet igazzá tenni?
rep=rep(c("A","B"),c(10,10))
df = data.frame(adat=adat,rep=rep)
library(ggplot2)
ggplot(df, aes(x = rep, y = adat)) +
geom_boxplot(fill = "gold") +
scale_x_discrete (name = "A és B csoport")
Az első két sor egy data.frame
-et készít. Az adatok első fele A
, míg a második fele a B
csoportba kerül. Ezután boxplot
-ot készítünk mindkét csoport adataiból, és ezeket egymás mellett ábrázoljuk.