Valószínűségi mező: \((\Omega, \mathcal{A}, \mathbb{P})\)} - \(\Omega\): nemüres halmaz (eseménytér), a kísérlet lehetséges kimeneteleinek halmaza; pl. érmedobás esetében \(\Omega=\{F, I\}\)

Statisztikai mező: \((\Omega, \mathcal{A}, \mathcal{P})\), ha minden \(\mathbb{P} \in \mathcal{P}\)-re \((\Omega, \mathcal{A}, \mathbb{P})\) valószínűségi mező.

Ha \(\mathcal{P} = \{ \mathbb{P}_{\vartheta} | \vartheta \in \Theta\}\) \(\Theta\subseteq \mathbb{R}^p\) akkor paraméteres statisztikai mező.

Definíció: (Minta) \(\mathbf{X}=(X_1,...,X_n)\) minta, ha minden \(\mathbb{P}\in\mathcal{P}\) mellett függetlenek és azonos eloszlásúak. Realizációja: \(x_1,...,x_n\)

Definíció: (Mintatér) Minta lehetséges értékeinek halmaza, jelölése általában \(\mathfrak{X}\) és \(\mathbb{R}^n\) egy részhalmaza. pl. érme ötszöri feldobásánál \(\{0,1\}^5\)

Torzítatlan becslések és elégséges statisztika

Definíció (Becslés): A mintatéren értelmezett függvényt statisztikának hívjuk. Becslést úgy kaphatunk, ha egy statisztikába a mintát behelyettesítjük.

pl. 10-szer választunk egy gép gyártmányai közül. Mindegyik gyártmányról megállapítjuk, hogy selejtes vagy sem. Minket a gépről kikerülő gyártmányok selejtaránya érdekel, amit nem ismerünk. Ekkor a mintatér \(\mathfrak{X}=\{0,1\}^{10}\), a paramétertér \(\Theta=(0,1)\) és a mintánk \((X_1,X_2,\cdots,X_{10})\) minden \(p\in(0,1)\) mellett független indikátor változókból áll, \(\mathbb{P}_p(X_i=1)=p\). Az ismeretlen \(p\) paramétert kézenfekvő a relatív gyakorisággal becsülni. Ekkor \(T:\mathfrak{X}\to[0,1]\), \(T(x)=\frac1{10}(x_1+\cdots+x_{10})\) a statisztika, ami az átlagot számolja, és \(\hat p=T(X)\) a mintaátlag, vagy relatív gyakoriság az ismeretlen \(p\) paraméter becslése.

Definíció (Torzítatlan becslés): \(T(\mathbf{X}\)) torzítatlan becslése a \(\vartheta\) paraméter \(g(\vartheta)\) függvényének, ha \(\mathbb{E}_{\vartheta}(T(\mathbf{X}))=g(\vartheta)\), minden \(\vartheta \in \Theta\) esetén.

Az előző példánál maradva \(g(p)=p\) és \(\mathbb E_p(T(X))=p\), vagyis a relatív gyakoríság torzítatlan becslése a valószínűségnek.

Definíció (Elégségesség): Diszkrét eloszlású \(\mathbf{X}\) minta esetén a \(T(\mathbf{X}\)) statisztika elégséges a \(\vartheta\) paraméterre, ha minden \(\mathbf{x}, t\) párra, a \(P_{\vartheta}(\mathbf{X} = \mathbf{x} | T(\mathbf{X}) = t)\) valószínűség nem függ \(\vartheta\)-tól.

Az előző példát folytatva a mintatér egy tetszőleges \(x\) pontjára \[ \mathbb{P}_p(X=x)=\prod_{i=1}^{10} \mathbb{P}_p(X_i=x_i)=p^{\sum_i x_i}(1-p)^{10-\sum x_i} \] Így \[ \mathbb{P}_p(X=x|T(X)=k/10)= \begin{cases} 0&\text{ha $\sum_i x_i\neq k$}\\ \frac{1}{\binom{n}{k}}&\text{ha $\sum_i x_i=k$} \end{cases}. \] Azaz \(T\) elégséges statisztika.

Megjegyzés: \(T\) pontosan akkor elégséges ha léteznek \(h\) és \(g_{\vartheta}\) függvények, melyekre \(P_{\vartheta}(\mathbf{X} = \mathbf{x})=h(\mathbf{x}) \cdot g_{\vartheta}(T(\mathbf{x}))\)

Definíció (Elégségesség absz. folytonos esetben): Abszolút folytonos \(X_1, X_2, \dots, X_n\) i.i.d. minta esetén a \(T(\mathbf{X}\)) statisztika elégséges a \(\vartheta\) paraméterre, ha létezik a sűrűségfüggvénynek \(f_{n, \vartheta}(\mathbf{x})=h(\mathbf{x}) \cdot g_{\vartheta}(T(\mathbf{x}))\) alakú faktorizációja.

Feladatok:

  1. Torzítatlan-e a mintaelemek mértani közepének reciproka az exponenciális eloszlás paraméterére? Ha nem, hogyan lehet torzítatlanná tenni?

  2. Torzítatlan-e a tapasztalati közép reciproka az exponenciális eloszlás paraméterére? Ha nem, hogyan lehet torzítatlanná tenni?

  3. Próbálja R-ben meghatározni az előbbi két feladatban javasolt becsléseket! Generáljon 100000-szer 6 elemű 0,5 paraméterű exponenciális mintát. Hasonlítsa össze a becsléseket!

  4. A \((0, \vartheta)\) intervallumon egyenletes eloszlásból vett \(n\) elemű a minta alapján adjunk tapasztalati becslést a \(\vartheta>0\) paraméterre (több megoldás is lehetséges). Torzítatlan-e? Ha nem, tegyük azzá!

  5. Próbálja R-ben meghatározni az előző feladat becsléseit! Generáljon 100000-szer 6 elemű \([0,3]\) intervallumon egyenletes eloszlású. Hasonlítsa össze a becsléseket!

  6. Keressünk elégséges statisztikákat a következő \(n\) elemű minta esetén:

  1. binomiális\((r,p)\), \(r\) ismert és \(0<p<1\) paraméter,
  2. geometriai\((p)\), \(0<p<1\) paraméter,
  3. diszkrét egyenletes az \(\{1, 2, \dots , N\}\) halmazon, \(N=1,2,\dots\) paraméter,
  4. U\((-\vartheta, \vartheta)\), \(\vartheta>0\) paraméter.