neděle 11. listopadu 2012

GIGO princip.

GIGO princip je váš nepřítel. Možná to nevíte. Možná ho neznáte. Ale určitě už jste se s ním setkali.

Pokud používáte jenom deskriptivní statistiku, jste ještě v relativním bezpečí, ale jakmile zkusíte použít statistiku aplikovanou, a to ať už analytickou či prediktivní, musíte si na GIGO dát setsakra pozor. Možná si myslíte, že vás se to netýká, protože statistiku nepoužíváte. Omyl. Každý používá statistiku, někteří si toho jenom nejsou vědomi. A ať jste právník či inženýr, účetní či učitel, GIGO vám jednou může podrazit nohy, aniž o tom víte.

Ani bloggeři nejsou vůči GIGO imunní. Právě GIGO je důvod, proč naprostá většina mých výroků obsahuje kvalifikátory a kvantifikátory, a to i když jsem si jist až za hranice všedních dnů, že má data jsou solidní, má matematika korektní a mé závěry správné. Bojím se GIGO. Setkal jsem se s  ním tváří v tvář mnohokrát a není to hezký pohled. GIGO dokáže i inteligentním lidem zatemnit smysly natolik, že melou z cesty se zápalem mudžahedína. Bojím se GIGO. Bojím, bojím.

Při jakémkoliv statistickém zpracování dat je totiž třeba nezapomenout, že nejde jen o čísla. Jde i o to, jak jsou ta čísla získána, kde jsou získána, a jak jsou interpretována.

Způsob sběru dat je důležitý a hraje esenciální roli při následném zpracování výsledků a nevyhnutelně i jejich interpretaci. Proto jakékoliv agentury dávají velký pozor (popřípadě měly by dávat pozor) na to, aby pro své dotazníky získaly tzv. reprezentativní vzorek. To jest takovou skladbu respondentů s ohledem na vzdělání, věk, pohlaví atd. která co nejlépe odpovídá celkovému skutečnému složení populace. Získat úplně reprezentativní výsledky je samozřejmě nemožné bez toho, aby příslušný dotazník vyplnili všichni, a tady vstupuje do debaty tzv. interval věrohodnosti, p-hodnota a různé podobné srandičky, s jejichž pomocí lze spočítat, jaká je pravděpodobnost, že výsledky se blíží realitě. Správně a profesionálně udělaná statistická studie obsahuje vždy nějakou takovouto plusminus informaci.

Například u internetového dotazníku je zásadní chybou předpokládat, že jeho výsledky jsou reprezentativní pro celou Českou republiku. Je zásadní chybou dokonce i předpokládat, že jeho výsledky jsou reprezentativní pro čtenáře dané stránky, a to zejména je-li možné předpokládat například  nárazový přísun čtenářů přes Google díky psaní o často vyhledávaném tématu atp. PZ Myers na tuto vlastnost internetových dotazníků už několik let poukazuje tím, že své desetitisíce čtenářů občas pošle na "pharyngulaci" nějakého pošahaného dotazníku např. na stránkách příznivců homeopatie nebo Fox News, čili na zkreslení výsledků tohoto dotazníku (většinou směrem realita, protože problém těchto dotazníků často spočívá v tom, že jejich účel není skutečný sběr dat, ale pouhé poplácávání se po ramenou mezi čtenáři příslušné pošahané stránky v tom smyslu, že jim dodá iluzi toho, že jejich pošahané názory jsou standard).

Pokud tváří v tvář výsledkům internetového dotazníku, zejména pokud nekoriguje pro možnou podujatost a trolly, vycházíte z neověřené premisy, že jeho výsledky jsou reprezentativní a přesné, cokoliv, co s těmi výsledky dále uděláte, je nevyhnutelně GIGO. Je úplně jedno, jak přesně budete počítat, je-li vaše základní premisa chybná GIGO vás dostane a není jiné cesty ven, než celou statistiku zahodit.

Že jsem ještě neřekl, co to vlastně GIGO je? Pravda.

"Garbage In - Garbage Out"

4 komentáře:

  1. Vzhledem k tomu, že mám na konci tohoto semestru odevzdat poměrně slušně udělané výběrové šetření jako závěrečnou práci, je tohle pro mě docela důležité.
    A formulace otázek přímo týkajících se tématu (faktografické o respondentovi nejsou nikdy zas tak těžké) je vůbec kapitola sama pro sebe.

    OdpovědětVymazat
  2. Hezké. Pokud tomu dobře rozumím, pak na GIGO principu v zásadě funguje a "ujíždí" celá volební mašinérie v parlamentních demokraciích a to včetně interpretace výsledků voleb a jejích následků.
    Nebo ne snad ....?

    OdpovědětVymazat
  3. Myslím, že ne nutně. Jde prostě o to, že pokud vycházíte ze špatné premisy, nebo máte blbá vstupní data, bude výsledek vždy špatný a blbý.
    Pokud máme ve volbách idiota a blba a volí pouze oligofrenní lidé, pak asi ano, vyšli jsme z premis a vstupních dat, která nemohla garantovat jiný výsledek než špatný. Teda pokud tak dobře chápu pojem "volební mašinérie".
    Jinak čistě podle pojmu by se asi GIGO vztahovalo jen právě na interpretaci výsledků voleb a jejich následků. Pokud potřebujete zjistit, jak volby dopadly a co to přinese, musíte mít pokud možno co nejpřesnější počet hlasů kde co padl a kdo je dával. Pokud tyhle informace máte a pracujete s nimi dobře, měl by vám vylézt v rámci možnosti přesný a platný výsledek. Když ne, tak prostě nemůže.

    Ale jinak se to IMHO u nás stalo po krajských volbách. Ačkoli se prezentoval často výsledek, že komunisté nabrali masivně na voličích, při pohledu na celkový počet hlasů jejich a jiných stran letos a před lety o ničem takovém nemůžeme hovořit.
    Holt někdo do stroje nandal blbá nebo nekompletní data a pak mu z toho vyšlo taky hloupé tvrzení.

    OdpovědětVymazat
  4. Nejsem odporník na danou problematiku, ale co jsem tak porůznu pochytil, tak jde věrohodnost (nejen) online dotazníku zvýšit několika způsoby:
    1) Vložení demografických otázek (tzn. na věk, pohlaví atd. respondenta). To umožňuje nakalibrovat výsledky na složení populace i když vzorek není v těchto ohledech reprezentativní.
    2) Vložení redundantníchh otázek s různou formulací. Troll na tyto otázky odpoví nekonzistentně a jeho odpověď lze tudíž poznat a vyhodit.
    3) Vložení otázek, na než lze předpokládat u všech upřímných stejnou odpověď, na kterou se ovšem nikomu nebude chtít pravdivě odpovědět (např. "Lžete občas?"). Pokud někdo dává konzistentně odpovědi, které neodpovídají realitě, pravděpodobně lže a lze ho ignorovat.

    OdpovědětVymazat