neděle 11. listopadu 2012

GIGO princip.

GIGO princip je váš nepřítel. Možná to nevíte. Možná ho neznáte. Ale určitě už jste se s ním setkali.

Pokud používáte jenom deskriptivní statistiku, jste ještě v relativním bezpečí, ale jakmile zkusíte použít statistiku aplikovanou, a to ať už analytickou či prediktivní, musíte si na GIGO dát setsakra pozor. Možná si myslíte, že vás se to netýká, protože statistiku nepoužíváte. Omyl. Každý používá statistiku, někteří si toho jenom nejsou vědomi. A ať jste právník či inženýr, účetní či učitel, GIGO vám jednou může podrazit nohy, aniž o tom víte.

Ani bloggeři nejsou vůči GIGO imunní. Právě GIGO je důvod, proč naprostá většina mých výroků obsahuje kvalifikátory a kvantifikátory, a to i když jsem si jist až za hranice všedních dnů, že má data jsou solidní, má matematika korektní a mé závěry správné. Bojím se GIGO. Setkal jsem se s  ním tváří v tvář mnohokrát a není to hezký pohled. GIGO dokáže i inteligentním lidem zatemnit smysly natolik, že melou z cesty se zápalem mudžahedína. Bojím se GIGO. Bojím, bojím.

Při jakémkoliv statistickém zpracování dat je totiž třeba nezapomenout, že nejde jen o čísla. Jde i o to, jak jsou ta čísla získána, kde jsou získána, a jak jsou interpretována.

Způsob sběru dat je důležitý a hraje esenciální roli při následném zpracování výsledků a nevyhnutelně i jejich interpretaci. Proto jakékoliv agentury dávají velký pozor (popřípadě měly by dávat pozor) na to, aby pro své dotazníky získaly tzv. reprezentativní vzorek. To jest takovou skladbu respondentů s ohledem na vzdělání, věk, pohlaví atd. která co nejlépe odpovídá celkovému skutečnému složení populace. Získat úplně reprezentativní výsledky je samozřejmě nemožné bez toho, aby příslušný dotazník vyplnili všichni, a tady vstupuje do debaty tzv. interval věrohodnosti, p-hodnota a různé podobné srandičky, s jejichž pomocí lze spočítat, jaká je pravděpodobnost, že výsledky se blíží realitě. Správně a profesionálně udělaná statistická studie obsahuje vždy nějakou takovouto plusminus informaci.

Například u internetového dotazníku je zásadní chybou předpokládat, že jeho výsledky jsou reprezentativní pro celou Českou republiku. Je zásadní chybou dokonce i předpokládat, že jeho výsledky jsou reprezentativní pro čtenáře dané stránky, a to zejména je-li možné předpokládat například  nárazový přísun čtenářů přes Google díky psaní o často vyhledávaném tématu atp. PZ Myers na tuto vlastnost internetových dotazníků už několik let poukazuje tím, že své desetitisíce čtenářů občas pošle na "pharyngulaci" nějakého pošahaného dotazníku např. na stránkách příznivců homeopatie nebo Fox News, čili na zkreslení výsledků tohoto dotazníku (většinou směrem realita, protože problém těchto dotazníků často spočívá v tom, že jejich účel není skutečný sběr dat, ale pouhé poplácávání se po ramenou mezi čtenáři příslušné pošahané stránky v tom smyslu, že jim dodá iluzi toho, že jejich pošahané názory jsou standard).

Pokud tváří v tvář výsledkům internetového dotazníku, zejména pokud nekoriguje pro možnou podujatost a trolly, vycházíte z neověřené premisy, že jeho výsledky jsou reprezentativní a přesné, cokoliv, co s těmi výsledky dále uděláte, je nevyhnutelně GIGO. Je úplně jedno, jak přesně budete počítat, je-li vaše základní premisa chybná GIGO vás dostane a není jiné cesty ven, než celou statistiku zahodit.

Že jsem ještě neřekl, co to vlastně GIGO je? Pravda.

"Garbage In - Garbage Out"

Žádné komentáře:

Okomentovat