pátek 13. června 2014

Experimenten statistikoš - část 1

 Bouchněmež společně šampus. Konečně jsem se dostal k tomu, abych se alespoň trochu mohl podívat na statistický experiment, k němuž mi někteří z vás v loni mlaskavě dodali data.

Nejprve kratililinká rekapitulace:
Před více než rokem jsem ve článku "Sháním morčata" požádal čtenáře o spolupráci. Sedm se jich přihlásilo a společně mi opatřili devět číselných řad podle zadání, zaslaného mailem. O pár měsíců později jsem sběr dat definitivně ukončil a učinil určité předpovědi ve článku "Náhoda je vůl".

Dnes se budu věnovat první předpovědi, totiž této:
Takto získané řady čísel budou vykazovat významnou zátěž jedním směrem, k jedničkám či nulám.
Pokusné řady, jež jsem obdržel, si vedly v sumáři jak můžete vidět na přiložené minitabulce. Samozřejmě pokud nejste skutečně enormně talentovaný matematik, tak vám tato čísla sama osobě řeknou totéž, co mě. Všechny řady se liší od ideálního stavu 500 jedniček a 500 nul, ale jak moc je tato odchylka významná? Na první pohled to nevypadá až tak hrozně a analýza "kouknu a vidím" toho moc neřekne. Na první pohled, přiznám se bez mučení, jsem si už myslel, že moje první předpověď padla.

Ovšem statistika už nám říká něco jiného a pro názornost jsem výsledky vizualizoval. Černá, šrafovaná křivka zobrazuje jakou distribuci v počtu jedniček (nebo nul, to je phuck) by mělo nekonečno náhodných řad jedniček a nul, dlouhých tisíc čísel. Dlouhodobí čtenáři blogu by měli zpozornět, protože v tom grafu vidí Gaussovu křivku normálního roznložení, o níž už jsem psal. To je správně, ovšem Gaussova křivka to není. Zde vyobrazená distribuce není normální, nýbrž binomická, což je ovšem na této úrovni už jedno, liší se od distribuce normální tak málo, že to nestojí za řeč (toto je velmi důležitý statistický poznatek, k němuž se ještě vrátím - prozatím nechť vám to vrtá hlavou). Červeně označená plocha zahrnuje 95%, což je (není-li důvod pro něco jiného) považováno obecně za hranici, při níž jest vhodné minimálně zpozornět. Modré trojúhelníčky zobrazují, jak si vedly čtenáři dodané "náhodné" řady.

Zde už je zcela jasně vidět, že čtyři z devíti řad se pohybovaly mimo interval 95%,  dvě dokonce jsou už v oblastech, kde je pravděpodobnost generování takové řady skutečně náhodně pro všechny praktické účely nula (byť má určitou teoretickou, spočitatelnou hodnotu) a pouze dvě se jakžtakž blíží středu. Pravděpodobnost, že 44% z náhodně generovaných řad bude mimo 95% interval je 0,06%.

Takže závěrem lze říct, že tato předpověď byla potvrzena - lidmi vygenerované řady jedniček a nul obecně vykazují tendenci preferovat jedno nebo druhé číslo.

Žádné komentáře:

Okomentovat