pátek 23. listopadu 2012

Sním, či bdím? To je Bob Dylema!

Začněme slovní úlohou pro první stupeň základní školy. Máte pytlík se sto kuličkami, smíchané hliněnky a skleněnky. Vyndáte dvacet kuliček a z nich bude šest skleněnek a čtrnáct hliněnek. Vyndáte dalších deset a z těch jsou tři skleněnky a sedm hliněnek. Kolik je na základě tohoto možné odhadnout, že je tam hliněnek a kolik skleněnek?

Pokud je vaše odpověď sedmdesát hliněnek a třicet skleněnek tak je špatně. Správná odpověď, alespoň podle logiky našich úředníků a legislativců, je totiž stočtyřicet hliněnek a šedesát skleněnek. Nedělejte si hlavu s tím, že vám najednou vyšlo celkem dvakrát více kuliček, než kolik jich pytlík obsahoval, protože věci se při počítání nejspíš ode dneška oficiálně množí. Alespoň tak mi to připadá, nejsem si tak docela jist, že jsem pochopil logiku za touto úvahou. Při čtení článku Sčítat, nebo zprůměrovat? Odečet hlasů neúspěšným kandidátům budí dohady mi, přiznávám bez mučení, chvilku prokluzovala kolečka, když jsem se pokoušel pochopit, co za příšerný matematický oříšek se to snaží chudáčci úředníčci a politici rozluštit.

Samozřejmě se má procentuální chybovost dvou náhodně vybraných vzorků zprůměrovat, a ne sečíst. Bylo by možné ovšem i spočítat přibližnou relativní chybovost podílem sumy absolutních chyb obou vzorků a jejich sumy velikosti obou vzorků. Oba výpočty vedou ke stejnému výsledku. Ale sečíst relativní chybovost dvou náhodně vybraných vzorků a aplikovat ji pak na celý vzorek? Ne, to opravdu nejde, a opravdu to je nemám slov.

Nejvíce mne na tomhle ale fascinuje to objevování Ameriky v naší prezidentské kampani, nad nímž jsem se nezávisle na tomto už podivoval dnes ráno, když jsem si četl, jak se ověřuje platnost podpisů. Definujme nejprve řešený problém:

Máme množinu X. Potřebujeme s co nejmenším množstvím námahy zjistit, kolik prvků množiny má vlastnost A a kolik má vlastnost B. Množina X je tak velká, že ji nelze zkontrolovat celou, jaké tedy máme možnosti?


Bývaly doby, kdy pro rozlousknutí tohoto problému bylo nutné vykonat hodně práce a popsat hodně papíru výpočty. Dnes ovšem už nic takového není nutné. Nejprve se podívejme, jak to řešili naši páni legislativci:
Ze zbývajícího počtu vzali 8500 náhodně vybraných jmen a ručně se kontrolovala pravost údajů či jejich duplicita ...
Pokud byla chybovost menší než tři procenta, odečetl se výsledek od počtu jmen a kontrola skončila. To se však žádnému z kandidátů nestalo. V případě, kdy byla chybovost větší, se vzalo dalších 8500 jmen. Chybovost se na konci kontroly sečetla a příslušné procento se z celkového počtu odečetlo.
Zajímavý přístup. Takže ze vzorků různých velikostí se braly vzorky stejné velikosti, z toho se následně spočítala chybovost, a když překročila určitou hladinu, tak se vzal znovu vzorek stejné velikosti a to celé se zopakovalo. I když pomineme ten matematický kotrmelec na konci, tak je to příšerná ptákovina, z níž mě brní hlava.

První problém samozřejmě je, že kandidáti na prezidenta nasbírali různě velké množství podpisů. Pro kontrolu na stejnou úroveň statistické jistoty je neefektivní brát vždy fixní vzorek. U kandidátů, kteří měli méně podpisů, to může znamenat, že kontrolujete zbytečně důkladně a vynakládáte námahu na něco, co lze zjistit mnohem snáze. U kandidátů, kteří měli hodně podpisů naopak může znamenat, že kontrolujete nedostatečně důkladně a zvyšujete možnost statistické chyby a skutečné množství chyb zásadně pře/podhodnotíte.

Rozlousknout oříšek, kolik je tedy třeba jednotlivým kandidátům zkontrolovat hlasů, abychom si byli na (například) 99% jisti, že jsme je vyhodnotili správně, není matematicky žádná legrace. Je na to potřeba skutečný statistik, a ne jenom amatérský nadšenec jako já. Nicméně nepochybuji, že takovíto statistici u nás existují, a není jich málo, a jsou i mezi státními úředníky. Jak to vím? Nevím, předpokládám to na základě skutečnosti, že tzv. princip AQL je v průmyslu používán nejméně deset let, bylo k němu napsáno v rámci EU tři pihele papíru a existuje na toto téma celá řada norem, obsahujících i hezké tabulky a obrázky, jež vysvětlují, jak velký vzorek je potřeba vzít z jak velké populace, abychom měli použitelný výsledek. A tyto normy byly přeloženy i do češtiny, českými úředníky. A i když není možné tyto tabulky použít přímo pro volbu prezidenta, tak skýtají dobrý výchozí bod pro to, jak se tyto věci mají dělat.

No a samozřejmě dnes existují různé komerční programy designované specificky za účelem počítání statistických veličin, některé drahé, některé levnější, některé skýtají dokonce zkušební verzi zdarma.

A je ostudou celého našeho státu, všech jeho politických reprezentantů a všech zainteresovaných úředníků, kteří jsou za tuto veleptákovinu zodpovědní, že úkol vyhotovit pracovní postup na ověření validity podpisů v petici a následné provedení tohoto úkolu pro něco tak důležitého, jako je volba prezidenta, bylo zřejmě svěřeno někomu, komu při počítání prstů na rukou vyjde pokaždé jiné číslo.

Žádné komentáře:

Okomentovat