neděle 11. listopadu 2012

GIGO princip.

GIGO princip je váš nepřítel. Možná to nevíte. Možná ho neznáte. Ale určitě už jste se s ním setkali.

Pokud používáte jenom deskriptivní statistiku, jste ještě v relativním bezpečí, ale jakmile zkusíte použít statistiku aplikovanou, a to ať už analytickou či prediktivní, musíte si na GIGO dát setsakra pozor. Možná si myslíte, že vás se to netýká, protože statistiku nepoužíváte. Omyl. Každý používá statistiku, někteří si toho jenom nejsou vědomi. A ať jste právník či inženýr, účetní či učitel, GIGO vám jednou může podrazit nohy, aniž o tom víte.

Ani bloggeři nejsou vůči GIGO imunní. Právě GIGO je důvod, proč naprostá většina mých výroků obsahuje kvalifikátory a kvantifikátory, a to i když jsem si jist až za hranice všedních dnů, že má data jsou solidní, má matematika korektní a mé závěry správné. Bojím se GIGO. Setkal jsem se s  ním tváří v tvář mnohokrát a není to hezký pohled. GIGO dokáže i inteligentním lidem zatemnit smysly natolik, že melou z cesty se zápalem mudžahedína. Bojím se GIGO. Bojím, bojím.

Při jakémkoliv statistickém zpracování dat je totiž třeba nezapomenout, že nejde jen o čísla. Jde i o to, jak jsou ta čísla získána, kde jsou získána, a jak jsou interpretována.

Způsob sběru dat je důležitý a hraje esenciální roli při následném zpracování výsledků a nevyhnutelně i jejich interpretaci. Proto jakékoliv agentury dávají velký pozor (popřípadě měly by dávat pozor) na to, aby pro své dotazníky získaly tzv. reprezentativní vzorek. To jest takovou skladbu respondentů s ohledem na vzdělání, věk, pohlaví atd. která co nejlépe odpovídá celkovému skutečnému složení populace. Získat úplně reprezentativní výsledky je samozřejmě nemožné bez toho, aby příslušný dotazník vyplnili všichni, a tady vstupuje do debaty tzv. interval věrohodnosti, p-hodnota a různé podobné srandičky, s jejichž pomocí lze spočítat, jaká je pravděpodobnost, že výsledky se blíží realitě. Správně a profesionálně udělaná statistická studie obsahuje vždy nějakou takovouto plusminus informaci.

Například u internetového dotazníku je zásadní chybou předpokládat, že jeho výsledky jsou reprezentativní pro celou Českou republiku. Je zásadní chybou dokonce i předpokládat, že jeho výsledky jsou reprezentativní pro čtenáře dané stránky, a to zejména je-li možné předpokládat například  nárazový přísun čtenářů přes Google díky psaní o často vyhledávaném tématu atp. PZ Myers na tuto vlastnost internetových dotazníků už několik let poukazuje tím, že své desetitisíce čtenářů občas pošle na "pharyngulaci" nějakého pošahaného dotazníku např. na stránkách příznivců homeopatie nebo Fox News, čili na zkreslení výsledků tohoto dotazníku (většinou směrem realita, protože problém těchto dotazníků často spočívá v tom, že jejich účel není skutečný sběr dat, ale pouhé poplácávání se po ramenou mezi čtenáři příslušné pošahané stránky v tom smyslu, že jim dodá iluzi toho, že jejich pošahané názory jsou standard).

Pokud tváří v tvář výsledkům internetového dotazníku, zejména pokud nekoriguje pro možnou podujatost a trolly, vycházíte z neověřené premisy, že jeho výsledky jsou reprezentativní a přesné, cokoliv, co s těmi výsledky dále uděláte, je nevyhnutelně GIGO. Je úplně jedno, jak přesně budete počítat, je-li vaše základní premisa chybná GIGO vás dostane a není jiné cesty ven, než celou statistiku zahodit.

Že jsem ještě neřekl, co to vlastně GIGO je? Pravda.

"Garbage In - Garbage Out"

středa 7. listopadu 2012

20 kilo!

Tak se blog přehoupl přes dvacet tisíc návštěv z tam, kde domov můj, a shodou okolností se tentýž měsíc přehoupl i přes dvacet registrovaných uživatelů. Snad nejzajímavější na tom je skutečnost, že jsem se na to za dva roky ještě nevykašlal. Když se podívám, kolikrát mi do článků proklouzla nějaká noticka o tom, jak se mi do psaní vůbec nechce, zjišťuji, že se mi vlastně víc nechce, než chce. Sám sebe se někdy - někdy i častěji - ptám proč vlastně píši?  A sám vlastně odpověď neznám. Ale každopádně za čtenářskou přízeň děkuji, vynasnažím se seč to půjde alespoň jednou do měsíce něco vypotit i do budoucna.

Ovšem zajímavá chybička se vloudila na straně google - následující diagram statistiky návštěv mi to dnes vymalovalo (možná ho to maluje už delší dobu nebo odjakživa a já si toho až dnes všiml):
Podle tohohle jsem začal psát blog před čtyřmi roky a byly to roky, upřímně řečeno, značně podivné. Rok 2012 má normálních 12 měsíců, ale rok 2011 má jen prosinec, rok 2010 má leden až listopad, rok 2009 zase jenom prosinec a rok 2008, v němž jsem začal údajně psát, jenom listopad.

Zajímalo by mne, jak tahle chybička vznikla a jestli i jiní blogeři mají takovýto nestandardní kalendář. Žeby reptiliánská konspirace iluminátů za účelem ovládnutí světa židozednáři?

čtvrtek 1. listopadu 2012

Inzerát

Vyměním mozek za jiný model. Přednostně stabilní, bez sklonů k přehřívání a výpadkům. Vysoký výkon není podmínkou, spíše naopak.

Zn: Spěchá.

neděle 28. října 2012

Advocatus Diaboli

Titulem z titulku býval titulován od středověku až do dvacátého století člověk, jehož úlohou při kanonizaci/blahoslavení/svatořečení či jak se tomu nesmyslu říká, bylo poukazovat na logické díry v argumentaci zastánce svatořečení, odhalovat podvody při dokazování zázraků či hledat jejich přirozená vysvětlení. Vypovídá hodně o mentalitě věřících, že skeptikovi, hledajícímu pravdu, bylo přisouzeno hovorové jméno spojující jej s hlavním záporným hrdinou jejich oblíbené pohádky. Ale koho to překvapuje?

Dnes se ten výraz používá částečně pro lidi, kteří zastávají nepopulární stanovisko, nebo pro lidi, kteří v debatě hájí stanovisko, jež nevyhnutelně nezastávají. Ve výuce rétoriky/argumentace si takovou funkci dokáži představit jako smysluplnou, neboť umožňuje tříbit argumenty. Bohužel je to i určitá forma trollování rozšířená na interfernetu, na niž jsem alergický. Je obtížné oddělit zrno od plev a zjistit, kdo oponuje z důvodů oprávněného nesouhlasu, a kdo z toho má jenom bžundu.

To je jenom taková malá fsufka. Debatu u předchozího článku jsem četl celou, i když jsem záhy přestal reagovat, neb to považuji za zbytečné. V komentářích je tam hodně odkazů na další stránky, které v mém prvním článku nebyly zohledněny, protože jsem je v té době ještě neznal. Nicméně ať se na to dívám z kterékoliv strany a převracím to kolikrát chci, stále to vypadá, že soudce rozhodl bez toho, aby příslušná situace byla posouzena odborníky, což byl a je můj hlavní problém s tímto rozsudkem. Nebyli-li k posouzení vědeckého problému přizváni vědci, pak i když je rozsudek třebas perfektně legální, je stále špatný. Zejména je-li pravda to, co při důkladnějším nastudování této události naznačují jiné články - totiž že ono sporné prohlášení neřekl nikdy nikde žádný z šesti odsouzených vědců, ale řekl jej (na tlak politiků) předseda komise.

Co se pravděpodobností zemětřesení atp. týče, k tomu se možná někdy vyjádřím detailněji jindy, přednostně asi až bude na mém blogu dost informací ze základů statistiky na to, abych si mohl být jist, že to bude pochopeno. Což bude s mým tempem psaní někdy na Svatého Dyndy, nebo možná až vykvetou hrábě.

K následujícímu:
While 50% of major earthquakes are preceded by foreshocks, only about 5-10% of small earthquakes turn out to be foreshocks, leading to false warnings.
I kdyby tento citát z wikipedie znamenal pravděpodobnost 1/10 až 1/20 vzniku velkého zemětřesení (což nemusí být nutně pravda, není-li známa kauzální propojenost mezi silnými a slabými zemětřeseními, může jít o pouhou propagaci tzv. hráčského klamu), tak je to pravděpodobnost značně malá, na samé hraně toho, co se považuje za statisticky signifikantní. A statisticky signifikantní stále ještě neznamená prakticky použitelné pro konkrétní případy - protože 10 až 20 planých poplachů na jeden jediný správný by představovalo obrovskou ekonomickoku zátěž, kterou je nutné rovněž vzít v potaz, a takovýto poměr planých poplachů k oprávněným by velmi brzy vedl k desenzitivizaci lidí. Lidé jsou prostě takoví.


Ještě k jedné věci bych se ale rád vypeckoval, protože se objevuje v komentářích na mém i jiných webech. Tou věcí je konkrétně přesouvání viny za nepochopení vědeckých poznatků na vědce. To je totiž logický klam, jelikož tam neexistuje žádná kauzální a logická spojitost. Protože zatímco je povinností pedagoga snažit se diskutovanou/vysvětlovanou věc co nejvíce smysluplně zjednodušit/přizpůsobit své audienci, je současně povinností audience se informovat a aktivně se snažit pochopit podávané informace. A dále i když obě strany komunikačního kanálu splní své povinnosti v procesu vzdělávání, stále jsou zde dva faktory, které tomu mohou hodit klacek pod nohy - normální rozložení inteligence v populaci, jež znamená, že určité procento lidí má velmi limitované schopnosti chápat cokoliv složitějšího, a pak čas, jež je nezbytnou ingrediencí ve vzdělávání kohokoliv o čemkoliv. Veřejnost, jež se snaží teď své mrtvé přišpendlit na svědomí šesti vědcům (potažmo vědecké komunitě), si za ty mrtvé z tohoto hlediska může minimálně z části sama. Když někdo žije v seismicky aktivní oblasti, měl by se o danou problematiku alespoň rudimentárně zajímat sám od dětství, a ne čekat, že ho bude pořád někdo vodit za ručičku.

Jasný, černobílý viník v tomto případě prostě neexistuje a je chybou jej hledat. Neviděl jsem žádné informace svědčící o opaku.

úterý 23. října 2012

Hon na čarodějnice.

Nemám slov. Šest italských vědců a bývalý státní úředník bylo odsouzeno k šesti letům vězení za zabití, protože nedokázali přesně předpovědět zemětřesení ve vsi L'Aquilla v roce 2009.

Doporučuji si přečíst článek na wikipedii k tomuto zemětřesení. Podle něj jeden laboratorní technik údajně velké zemětřesení předvídal, byl obviněn z alarmismu a bylo mu zakázáno o tom mluvit. Je-li to pravda, o to úžasnoucnější je potom tento rozsudek. Tedy abych byl konkrétnější - o to blbější je tento rozsudek. Za to, že následující výrok byl "neúplný, rozporuplný a nepřesný".
It is unlikely that an earthquake like the one in 1703 could occur in the short term, but the possibility cannot be totally excluded.
Je nepravděpodobné, že zěmětřesení jako to v roce 1703 nastane v dohledné době, ale tuto možnost nelze ani zcela vyloučit.
Což je, podle mínění expertů na tuto problematiku velmi přesný výrok. Bohužel to vypadá, že laici mají pocit, že vědci mají křišťálové koule, z nichž mohou vyčíst, co se stane. Jelikož věda je, byla a bude, o předpovědích, žeáno? Ale když předpoví něco, co se nám nelíbí, tak jsou alarmisté (viz nedávná, zcela korektně a správně vyhodnocená a ošetřená pandemie prasečí chřipky), a když něco nepředpoví, tak jsou mordýři. Z té logiky se mi až točí hlava, respektive točí se mi z toho, jak se v tomhle uvažování - jež je bohužel velmi rozšířené - snažím nějakou logiku najít. Nejedná se o nic jiného, než o novodobé hony na čarodějnice, kdy ignorantská veřejnost se snaží za každou cenu najít nějaký chlup na vědcích, kterým vděčí za svůj současný život.

Problém totiž je, že slovo předpověď ve smyslu vědeckém není totéž, co předpověď ve smyslu věšteckém, a zaměňovat tyto dva významy znamená podlehnout logickému klamu, který jsem si česky příhodně pojmenoval záměna významů.

Nečetl jsem wiki článek o předvídání zemětřesení celý, ale na zběžné čtení víceméně říká, co je lze očekávat díky efektu kouzelné lentilky - před každým velkým zemětřesením je někdo, kdo ho správně "předpoví", ale tato předpověď byla jenom statistickou anomálií, kdy se prostě z velkého množství vědců, rádobyvědců a pošuků někdo náhodou trefil. S množstvím zemětřesení, která se ročně stanou v geologicky aktivních zónách, a s množstvím lidí, kteří se zabývají výzkumem, by bylo statisticky mnohem větší anomálií, kdyby se nikdo nikdy netrefil. Problém ale je, že prostě neexistuje statistický model, který by byl schopen předpovídat zemětřesení s takovou přesností, jež je ekonomicky a společensky užitečná. Momentálně lze (podle mých znalostí, zdůrazňuji, že nejsem expert) možná pouze předpověď pravděpodobnostní, a ta je pro tuto konkrétní záležitost k ničemu.

Co taková pravděpodobnostní předpověď říká? Je to podobné jako u rulety. U rulety mohu předpovědět, že mnou rozebíraný a e-mailem mi neustále vnucovaný systém martingale nefunguje a v průměru to není spolehlivá cesta k výdělku, ani dlouhodobému, ani krátkodobému. Kdybych si dal hodně práce s tím znovu se naučit, co jsem zapomněl, mohl bych k tomu spočítat i fúru čísílek na štosy papíru popsané řeckými písmenky a kudrnatými znaky. Mohl bych spočítat, jaká je pravděpodobnost, že s vkladem X při rychlosti spinu Y budete mít pravděpodobnost Z, že přežijete první hodinu, pak druhou, pak třetí atd. To všechno lze udělat.

Co ale udělat nelze, je říct, jak konkrétně se bude dařit Pavlu Rákosovi z Mokré Lhoty, když se rozhodne tento systém využít a na ruletě vydělávat. Nelze ani vyloučit možnost, že se tak skutečně někdo někde na světě živí a zatím mu to vychází. Lze pouze říct (například. popisuji princip a skutečné pravděpodobnosti jsem nepočítal), že 50% lidí zkrachuje první den, 25% druhý den, 13% třetí den atd. atp.

V podstatě jediná správná rada, již jsou vědci schopni s ohledem na zemětřesení (a povodně, a uragány, a vznik smrtícího kmene chřipky) je, že pokud žijete v geologicky aktivní oblasti, máte si buď postavit dům, který to vydrží (což jde do určité míry ovšem levné to není) a nebo se odstěhovat jinam. Jenže nenexistuje oblast, která by byla rizika prostá, a život je prostě takový, že náhody se dějí a dít budou a kdo chce hrát na jistotu, tak ať si prostřelí hlavu vstoje na zábradlí mostu s kamenem na nohou a oprátkou na krku (a ani to nemá výsledek jistý).

Nicméně podstatné je, že o vědeckých záležitostech mají rozhodovat vědci. Je-li vědeckým konsenzem (a podle mně dostupných informací tomu tak je), že dotyčné zemětřesení nebylo možné předpovědět přesněji, než jak tomu bylo učiněno, nemůže žádný vědecky gramotný a zodpovědný soudce dotyčné vědce odsoudit na základě emocionálních svědectví pozůstalých, kteří v onom přírodním neštěstí ztratili blízké. Žádná míra smutku, s nímž plně soucítím, neospravedlňuje házení viny za přírodní katastrofu na bedra vědců. A kdo hledá úlevu od smutku tím, že se snaží za každou cenu najít viníka, ten moje sympatie rychle ztratí. Argumentum ad misericordiam by nemělo mít větší váhu než informovaný, byť ex post facto nesprávný, vědecký výrok. Což mi připomíná, že na ex post facto soudy máme hezké přísloví - "Po bitvě je každý generálem".

Zdroje:

pátek 19. října 2012

Nekonečný příběh

Tak mi zase přišla reklama na internetové kasino rovnou do e-mailu. Tentokráte na stránku www(tecka)mujpasivniprijem(tecka)com

Ani jsem se nenamáhal se čtením. Jedná se pořád o to samé. Všiml jsem si akorát jedné drobnosti, autor tentokráte píše dobu trvání jednoho "cyklu" se čtyřim sázkami - minuta (čili ca 15 sekund na spin)  - a doporučuje počáteční vklad 200 €. Super! To značně usnadňuje vyvrácení tohoto paskvilu.

Protože 200 € limit při zdvojnásobování sázky dosáhne člověk už když spadne 8x za sebou tatáž barva. Čehož pravděpodobnost je ca. 1/256. Pokud to někomu připadá jako "málo" pravděpodobné, tak vězte, že při rychlosti spinu 15 sekund to znamená 240 spinů za hodinu, čili 234 příležitostí pro tuto "nepravděpodobnou" náhodu stát se skutečností. A o pouhé čtyři minuty dále už dokonce 256 příležitostí. A dál už se mi s matematikou nechce patlat, protože je to zbytečné. Každopádně kdo by měl tendenci té podvodné reklamě snad věřit, nechť si zkusí zadat uvedené parametry do mnou vytvořených excelových tabulek a přesvědčí se na vlastní oči. Občas sice na konci osmihodinového "pracovního" dne skončíte s hezkým ziskem, ale většinou přijdete o všechny peníze dříve, než den skončí.

středa 10. října 2012

Jsou všude a je jich plno

Kdykoliv se rozpumpuji nad alternativní medicínou, je mi následně v reálu i na internetu někým vyčítáno, že bych se neměl rozčilovat, a že bych lidem neměl brát jejich berličku, když jim pomáhá a podobné "tut tut, zlobivý Charly je ošklivý a mě se to nelíbí". Těmto nyní předesílám, že si můžou jít a nacpat svoje mravokárcování do dolního konce trávícího traktu, protože jsem se rozpumpoval a na jejich pravdoláskařské otravování, v němž má přednost tón sdělení před jeho obsahem, nejsem zvědav.

Psal jsem původně úplně jiný článek, když jsem narazil na tuto placenou reklamu na novinkách. Ani jsem se nenamáhal číst ten "rozhovor", protože ať je v něm cokoliv, je to zkušenost jednoho jediného člověka, a tudíž je naprosto irelevantní pro řešení problémů jiných lidí, zejména u záležitosti tak komplexní a diverzní, jako je atopický ekzém. Nejsou dva ekzémy stejné, a neléčený nebo špatně léčený atopický ekzém může později korelovat (ačkoliv nikoliv nevyhnutelně způsobovat) s mnohem závažnějšími zdravotními potížemi, jako například astma.

První pohled na stránky prodávající příšlušný výrobek nám prozradí ledacos. Například to, že údajný výrobek byl vyvíjen v s "konzultacemi s lékaři, dermatology, farmaceuty a odborníky na výživu", ale na celé stránce nenajdete jeden jediný (odkaz na) klinický test. To, že něco testoval pan Martin Fuks na sobě je sice hezké, a je i možné, že mu to skutečně pomohlo, ale to neznamená, že to pomůže mě, nebo mému bratrovi, nebo komukoliv dalšímu, kdo trpí ekzémem. Naopak, takhle podáno to může nějakou naivní maminku vést k tomu, že místo aby dítě dovedla k lékaři a používala jím předepsané a skutečně klinicky testované léky, tak mu za téměř desetinu běžného platu koupí mazáníčka, která neobsahují de fakto žádnou účinnou látku.

Ve skutečnosti se totiž jedná jenom o velmi, velmi drahou kosmetiku prodávanou jako lék, ovšem s velmi opatrně formulovaným výrazivem, aby laik nepoznal, že se nejedná o lék a mohl tak naletět, a současně aby se v případě právických tahanic při případných problémech prodejce mohl hájit tím, že přeci neprodává lék, ale kosmetiku - a říká to přeci sám na své stránce. Za povšimnutí stojí, že na podstránce Klasická léčba ekzému (která je, pokud jsem schopen posoudit, víceméně správná) stojí tvrzení "V chronické fázi je to naopak. Zde je důležitá právě účinná látka.", které je v přímém protikladu proti manipulativní masáži v článku Můj příběh (který, mimochodem, obsahuje provařený blábol o překyselování organismu, nesmírně populární v poslední době).

Problém je, že ta stránka obsahuje i dobré informace, ty ale slouží pouze jako zástěrka pro prodání předraženého produktu. Kosmetika může skutečně pomoct proti atopickému ekzému. Je vhodné například nahradit agresivní mýdla a sprchové gely pleťovým mlékem (víceméně jakýmkoliv, pokud na něj nejste alergičtí). Pleťové mléko lze skutečně použít k umytí, funguje na stejném principu jako odličovač. Taky omáhá necamrat se ve vodě zbytečně dlouho, lépe krátce ale často. Nepoužívat zbytečně voňavky, deodoranty a antiperspiranty, i ty nejjemnější dráždí pokožku, zejména alergikovu - aby člověk nesmrděl, stačí pravidelně důkladně vydrhnout teplou vodou a nenosit jednou propocené oblečení podruhé (čerstvý pot nepáchne ani zdaleka tak strašně, jako kombinace starého potu a voňavky, alespoň tedy mému nosu). Používat šetrné prací prášky a aviváže. Nesnažit se být opálený jako holywoodská hvězda. A vyhýbat se stresu a problémové stravě je dobrá rada při každém onemocnění, je to dobrá rada i pro zdravého.

A to mne na této manipulativní masáži a podobných štve. Je to reklama prodávající kosmetický produkt. Čili nabízí - možná dobrý, pravděpodobně skutečně nezávadný, a zcela určitě předražený - doplněk k léčbě ekzému, ale v žádném případě nenabízí "nový způsob řešení" jak se tvrdilo v nadpisu článku na novinkách! Je jediný dobrý způsob řešení jakékoliv nemoci, a to je jít za lékařem a dodržovat předepsaný lékařský režim. Pokud se člověku podaří najít následně doplněk nebo alternativu, která pro něj osobně funguje a umožní mu léčebný režim - opět po konzultaci s lékařem - změnit či zmírnit, fajn. Pokud se o tuto svou zkušenost chce podělit s ostatními a podpořit je tak v hledání alternativ, jež by jim ulehčily život, taky fajn. Ale pokud na tom chce vydělávat peníze a začne to nabízet jako univerzální alternativu, končí fajn. A pokud zvolí formu, která je manipulativní a záměrně formulovaná tak, aby si laici koupili předražené verze multivitamínů a pleťových krémů, kterých si lidé už tak kupují mnohem více než je pro jejich zdraví nezbytné, končí legrace.

Nepochybuji, že je všechno tip ťop legální. Ale to nemění nic na tom, že je to morálně nechutné a pokud teď někdo cítí nutkání mi vysvětlovat, že se nemám rozčilovat nad nemorálním chováním, nechť se vrátí na začátek článku a přečte si, kam si to nutkání má vepchat. Někdy je třeba se rozčílit, ukázat prstem a varovat lidi - nekupujte med třikrát dráž jenom proto, protože na něj někdo dal nálepku "Probiotický doplněk stravy, Složení - Aqua, Saccharum, Fructose, Glucose, microflora Apis mellifera sp.". A tak teď ukazuji prstem a říkám - nekupujte si pleťový krém a pleťové mléko za šíléné ceny, jenom proto, protože někdo složení napsal latinsky místo česky a napsal vědátorsky znějící web bez jediného odkazu na skutečný vědecký výzkum. Jsou i levnější alternativy