pátek 23. listopadu 2012

Sním, či bdím? To je Bob Dylema!

Začněme slovní úlohou pro první stupeň základní školy. Máte pytlík se sto kuličkami, smíchané hliněnky a skleněnky. Vyndáte dvacet kuliček a z nich bude šest skleněnek a čtrnáct hliněnek. Vyndáte dalších deset a z těch jsou tři skleněnky a sedm hliněnek. Kolik je na základě tohoto možné odhadnout, že je tam hliněnek a kolik skleněnek?

Pokud je vaše odpověď sedmdesát hliněnek a třicet skleněnek tak je špatně. Správná odpověď, alespoň podle logiky našich úředníků a legislativců, je totiž stočtyřicet hliněnek a šedesát skleněnek. Nedělejte si hlavu s tím, že vám najednou vyšlo celkem dvakrát více kuliček, než kolik jich pytlík obsahoval, protože věci se při počítání nejspíš ode dneška oficiálně množí. Alespoň tak mi to připadá, nejsem si tak docela jist, že jsem pochopil logiku za touto úvahou. Při čtení článku Sčítat, nebo zprůměrovat? Odečet hlasů neúspěšným kandidátům budí dohady mi, přiznávám bez mučení, chvilku prokluzovala kolečka, když jsem se pokoušel pochopit, co za příšerný matematický oříšek se to snaží chudáčci úředníčci a politici rozluštit.

Samozřejmě se má procentuální chybovost dvou náhodně vybraných vzorků zprůměrovat, a ne sečíst. Bylo by možné ovšem i spočítat přibližnou relativní chybovost podílem sumy absolutních chyb obou vzorků a jejich sumy velikosti obou vzorků. Oba výpočty vedou ke stejnému výsledku. Ale sečíst relativní chybovost dvou náhodně vybraných vzorků a aplikovat ji pak na celý vzorek? Ne, to opravdu nejde, a opravdu to je nemám slov.

Nejvíce mne na tomhle ale fascinuje to objevování Ameriky v naší prezidentské kampani, nad nímž jsem se nezávisle na tomto už podivoval dnes ráno, když jsem si četl, jak se ověřuje platnost podpisů. Definujme nejprve řešený problém:

Máme množinu X. Potřebujeme s co nejmenším množstvím námahy zjistit, kolik prvků množiny má vlastnost A a kolik má vlastnost B. Množina X je tak velká, že ji nelze zkontrolovat celou, jaké tedy máme možnosti?


Bývaly doby, kdy pro rozlousknutí tohoto problému bylo nutné vykonat hodně práce a popsat hodně papíru výpočty. Dnes ovšem už nic takového není nutné. Nejprve se podívejme, jak to řešili naši páni legislativci:
Ze zbývajícího počtu vzali 8500 náhodně vybraných jmen a ručně se kontrolovala pravost údajů či jejich duplicita ...
Pokud byla chybovost menší než tři procenta, odečetl se výsledek od počtu jmen a kontrola skončila. To se však žádnému z kandidátů nestalo. V případě, kdy byla chybovost větší, se vzalo dalších 8500 jmen. Chybovost se na konci kontroly sečetla a příslušné procento se z celkového počtu odečetlo.
Zajímavý přístup. Takže ze vzorků různých velikostí se braly vzorky stejné velikosti, z toho se následně spočítala chybovost, a když překročila určitou hladinu, tak se vzal znovu vzorek stejné velikosti a to celé se zopakovalo. I když pomineme ten matematický kotrmelec na konci, tak je to příšerná ptákovina, z níž mě brní hlava.

První problém samozřejmě je, že kandidáti na prezidenta nasbírali různě velké množství podpisů. Pro kontrolu na stejnou úroveň statistické jistoty je neefektivní brát vždy fixní vzorek. U kandidátů, kteří měli méně podpisů, to může znamenat, že kontrolujete zbytečně důkladně a vynakládáte námahu na něco, co lze zjistit mnohem snáze. U kandidátů, kteří měli hodně podpisů naopak může znamenat, že kontrolujete nedostatečně důkladně a zvyšujete možnost statistické chyby a skutečné množství chyb zásadně pře/podhodnotíte.

Rozlousknout oříšek, kolik je tedy třeba jednotlivým kandidátům zkontrolovat hlasů, abychom si byli na (například) 99% jisti, že jsme je vyhodnotili správně, není matematicky žádná legrace. Je na to potřeba skutečný statistik, a ne jenom amatérský nadšenec jako já. Nicméně nepochybuji, že takovíto statistici u nás existují, a není jich málo, a jsou i mezi státními úředníky. Jak to vím? Nevím, předpokládám to na základě skutečnosti, že tzv. princip AQL je v průmyslu používán nejméně deset let, bylo k němu napsáno v rámci EU tři pihele papíru a existuje na toto téma celá řada norem, obsahujících i hezké tabulky a obrázky, jež vysvětlují, jak velký vzorek je potřeba vzít z jak velké populace, abychom měli použitelný výsledek. A tyto normy byly přeloženy i do češtiny, českými úředníky. A i když není možné tyto tabulky použít přímo pro volbu prezidenta, tak skýtají dobrý výchozí bod pro to, jak se tyto věci mají dělat.

No a samozřejmě dnes existují různé komerční programy designované specificky za účelem počítání statistických veličin, některé drahé, některé levnější, některé skýtají dokonce zkušební verzi zdarma.

A je ostudou celého našeho státu, všech jeho politických reprezentantů a všech zainteresovaných úředníků, kteří jsou za tuto veleptákovinu zodpovědní, že úkol vyhotovit pracovní postup na ověření validity podpisů v petici a následné provedení tohoto úkolu pro něco tak důležitého, jako je volba prezidenta, bylo zřejmě svěřeno někomu, komu při počítání prstů na rukou vyjde pokaždé jiné číslo.

5 komentářů:

  1. Kdyby to celé nebylo k pláči, tak je to k smíchu. Osobně si myslím, že vůbec celá tato první "všelidová" volba našeho prezidenta vejde takto do dějin (nakonec i s jejím výsledkem).
    Malá věcná doplňující poznámka - následný soud týkající se této věci potrvá zhruba 10x déle (a bude 1000x dražší), než by tvala ruční kontrola VŠECH podpisů jmenovaných kandidátů (zde tedy se 100% správností - i když ani v tomto případě bych si tím u našich úředníků nebyl zcela jist).

    OdpovědětVymazat
  2. Zajímalo mě, jak ta kokotina vlastně vůbec vznikla a vypadá to, že se inspirovali metodou "přejímka dvojím výběrem"http://www.scov.cz/statistika.pdf - str.27

    Samozřejmě se jen "inspirovali", takže to nakonec skutečně pokurvili. Nehledě na to, že požití tohoto druhu přejímky je u podpisů nesmyl. Ta metoda má smysl ve chcíli, kdy je test příliš drahý ve srovnání s výrobními náklady nebo je test kvality destruktivní. Používala to třeba US Army na střelivo během druhé světové.

    Zajímavý je to tím, že se tam právě objevuje to sečtení.

    OdpovědětVymazat
  3. Možná to je vzdálená inspirace přejímkou dvojím výběrem, ale to je skutečně velkorysá interpretace.

    Ona kontrola podpisů by se dala srovnat se "zničící" zkouškou na atributivní znak. I na to existují normy. Zkoušku dvojím výběrem by tak šlo principielně aplikovat. Tam se totiž odebere nejprve menší vzorek - právě z důvodů např. náročnosti zkoušky, ceny atp. Pokud je tento vzorek v oblasti statistické nejistoty - tzn. nelze říct s požadovanou úrovní jistoty ani čehý ani hot - provede se druhý, větší výběr.

    Při zkoušce dvojím výběrem se pak sčítá absolutní počet chyb, nikoliv relativní chybovost. A tento součet se porovnává s absolutní úrovní pro kumulativní povolenou chybovost obou odběrů, která je stanovena separátně pro povolenou chybovost prvního odběru.

    Díky za odkaz.

    OdpovědětVymazat
  4. "Vzdálená ispirace" nějakými sofistikovanými metodami ?
    Ó, jak kulantně zamlžený fakt, že dotyčný úředník je prostě idiot !
    (Btw - i ti největší moravští vidláčtí notorici vědí, že pokud by slili dohromady dva vzorky 51% slivovice, tak jim (kurňa) fakt nevznikne nová slivovice s obsahem 102% alkoholu ....)

    OdpovědětVymazat
  5. Máte rozbitý sarkasmometr, doporučuji rekalibraci ;-)

    OdpovědětVymazat