neděle 20. července 2014

Experimenten statistikoš - část 2

Po více než měsíci prakticky non-stop fyzické práce a absolutně minimalistického používání počítače jsem se rozhodl jeden víkend hodit na všechno bobek a nářadí jsem nechal odpočinout, zaslouží si to. Stejně bylo takové horko, že se nic dělat nedalo. Takže jsem mohl věnovat nějakou tu hodinku dalšímu vyhodnocení svého statistického experimentu. Konkrétně druhé části své předpovědi:
Rozdělím-li řady na kratší, stejně dlouhé úseky, řekněme 5-10 čísel dlouhé, budou tyto úseky samy o sobě poměrně dobře odpovídat tomu, co by bylo k očekávání od skutečně náhodného systému. Jejich celková distribuce ale bude více uniformní, než by tomu bylo u skutečně náhodného systému.
Nejprve je třeba upozornit na to, že je při absolutně doslovné interpretaci je to nesmysl, což jsem si uvědomil až dodatečně, když už bylo pozdě to reformulovat. Za prvé předpověď první se vylučuje s doslovnou interpretací této druhé předpovědi v případě, že by byla správná (což byla). Za druhé je omezený počet kombinací nul a jedniček, a žádné kombinace obsažené v číselných řadách jakýmkoliv způsobem nemohou nebýt možné v řadě generované náhodně. Takže, ačkoliv se mi to moc nelíbí, musím přiznat chybu a nejdříve trochu vysvětlit, co jsem myslel tím, co jsem napsal.
Měl jsem na mysli, že tvar distribuce u pěti - desetimístných řad bude přibližně stejný, jako u očekávaná distribuce u skutečně náhodných řad, ale "konce" této distribuce budou trochu přizvednuté a vrchol trochu nižší (současně v návaznosti na první předpověď je nevyhnutelné, že vrchol této distribuce bude trochu vystředěný oproti ideálu, což jsem si původně neuvědomil vůbec). Čili že budou správně převažovat řady oscilující kolem středu, ale řady na extrémech budou více než je zdrávo. Nejlépe to asi vysvětlí příklad.


Červená čára zobrazuje ideální distribuci sledované veličiny. V tomto případě jaké by bylo zastoupení pětimístných řad obsahujících 0 až 5 jedniček v nekonečně dlouhé řadě  náhodně generovaných čísel. Histogram zobrazuje jejich zastoupení v jedné řadě dodané čtenáři. Toto jsem tak nějak očekával. Ovšem toto není to, co jsem obdržel.

 To je opět nejlépe zobrazeno obrázkem, tentokráte větším:

 
Zde  už je vidět, že mému očekávání jakžtakž odpovídaly jenom tři z devíti dodaných řad (Řady 4, 5, 7). Zbývající vykazují poněkud slabší odchylky, než jsem očekával. Až na řadu 1 všechny vykazují zátěž k více jedničkám, jinak ale nic extra. Pro vizuální srovnání jeden diagram skutečně (pseudo)náhodné řady.

I když se jednalo o řady značně dlouhé, nemohu s klidným svědomím bez statistického testu a počítání p-hodnoty říci na základě pouhého "kouknu a vidím", zda se tyto distribuce značně významně liší od ideální binominální distribuce. Doma postrádám potřebný software a nemám tolik času se s tím pižlat ručně. Mírná zatíženost směrem k jedničkám ovšem statisticky významná je, to vyplynulo už z prvního vyhodnocení.

Teď jak to vypadá u desetimístných řad:
Víceméně by se k tomu dalo říci totéž, co k řadám pětimístným.

Závěrem by se tedy dalo na základě dostupných dat říci, že má předpověď platí pro přibližně polovinu lidí, ale polovina lidí vygenerovala poměrně věrohodné vzorce náhodných pětimístných řad. Věrohodné z pozice této jedné veličiny. Zda skutečně odpovídala alespoň nějaká ta řada tomu, co by se dalo očekávat od skutečně náhodného systému definitivně rozlousknu (snad) někdy příště.