Thomas Bayes pomáhá

Dušan Polanský

Náhoda v našich životech hraje dost významnou roli. Přejícné náhodě říkáme štěstí, nepřejícné smůla. Někdy mluvíme o osudu. Na osud se ale vymlouváme i v případech, kdy režisérem toho, co se nám hodí svést na osud, jsme my sami. Kdo by se ale chválil něčím nehezkým? Leč určitě ne zcela náhodně si ke mně v trolejbusu přisedla starší unavená paní, místo bylo totiž pouze vedle mě. Bylo na ní poznat, že pláč má na krajíčku. Také se po chvilce rozbrečela a posmrkávala do papírového kapesníku (ty zásadně nepoužívám) a po chvilce se mi omluvila, že svým pláčem obtěžuje. Je jasné, že jsem se ji snažil uklidnit, že chápu, že v životě jsou situace, kdy člověk či chce nebo nechce brečet musí.

Se slzami v očích mi sdělila, že pro ni zle dopadl test na jednu vážnou nemoc. Abych její nedobrou náladu zmírnil, snažil jsem se ji vysvětlit, že většina používaných testů v medicíně nemá 100 % spolehlivost. Na to mi obratem a docela živě odpověděla, že lékař jí sdělil, že test je spolehlivý asi z 70 % (což je popravdě bída bídoucí). Z toho vyvodila, že i ona na 70 % trpí onou vážnou nemocí. Chyba lávky, není to pravda! Pochopitelně za dané situace a daného času jsem neměl větší šanci ženě vysvětlit, proč tomu tak je. Přesto jsem se ji snažil ujistit, že se trochu v tom vyznám, a že určitě to nebude 70 %, ale podstatně méně, klidně i pod 5 %. „Vy jste doktor?“ zeptala se mě plná naděje. „Ne, nejsem, ale něco o tom vím.“ „Pane, je od vás hezké, že chcete moji bolest zmírnit, ale sám tomu jistě nevěříte,“ namítla mi hořce. Krátce na to z trolejbusu vystoupila a neřekla mi ani na shledanou.

Abychom si vysvětlili, proč jsem ženě s velikou pravděpodobností nelhal, vezmeme si na pomoc teorii anglického duchovního Thomase Bayese (1701(?) – 1761). A zde je zadání příkladu, na kterém si bayseovský přístup k teorii pravděpodobnosti vysvětlíme, nejprve selským rozumem, a pak i výpočtem podle Bayesova vzorce:

Podstoupili jsme lékařský test na vážnou nemoc. Nemoc se vyskytuje pouze u půl procenta populace. Test je spolehlivý na 70 %, ve 30 % udává pozitivní výsledek, ačkoli nemocný vážnou nemoc nemá. Tento jev se obvykle pojmenovává v medicíně jako falešná pozitivita. Náš test bohužel dopadl pozitivně. S jakou pravděpodobností máme vážnou nemoc?

Mnozí asi odpoví, že s asi 70 % pravděpodobností, vždyť test je spolehlivý právě na 70 %. Ukážeme si, že pravda to není ani velice přibližně. Abychom nepočítali příliš abstraktně, zvolíme si vzorek populace, ať je to 100 000 lidí. Velikost vzorku nebude mít žádný dopad na náš výsledek, protože nás zajímají procenta.

Budeme důsledně rozlišovat situaci před podstoupením testu a po podstoupení testu.

Před podstoupením testu byla pravděpodobnost, že máme nemoc rovna číslu 0,005, což je matematické vyjádření půl procenta. 100 % je 1, 1 % je 0,01, 70 % je 0,7, 30 % je 0,3 atd. Z našeho vzorku 100 000 lidí trpí nebezpečnou nemocí 100 000 × 0,005 = 500 lidí.

Pak podstoupíme test, bohužel je pozitivní. Jaká je teď pravděpodobnost, že trpíme vážnou nemocí? Je jasné, že pravděpodobnost se po provedení testu změnila, před provedením testu byla jenom půl procenta, teď zcela logicky očekáváme, že bude vyšší.

Víme, že z našeho vzorku 100 000 lidí trpí vážnou nemocí 500 lidí, zbývá nám 99 500 lidí, kteří vážnou nemoc nemají. Kdybychom těchto 99 500 lidí podrobili testu, test by dal nesprávný výsledek u 99 500 × 0,3 = 29 850 lidí. Násobili jsme 0,3 proto, neboť test v 30 % udává pozitivní výsledek, ačkoliv člověk vážnou nemoc nemá. Celkem tedy 500 + 29 850 = 30 350 lidí trpí vážnou nemocí, alespoň podle testu a predikce nemoci u populace.

Jaká je teď pravděpodobnost, že opravdu máme vážnou nemoc? Víme, že pravděpodobnost určitého jevu je dána zlomkem, podílem počtu tomuto jevu příznivých výsledků k počtu všech možných výsledků. Například při poctivém házení „necinknutou“ hrací kostkou (krychle, pravidelný šestistěn) je počet všech možných výsledků roven 6, může padnout 1 nebo 2 nebo 3 nebo 4 nebo 5 nebo 6. Pravděpodobnost pádu např. šestky je pak 1/6, jelikož pouze jeden výsledek je příznivý pádu 6. Pravděpodobnost pádu 2 nebo 3 je 2/6, což je 1/3, protože dva výsledky jsou příznivé pádu 2 nebo 3.

Jak bude zmíněný zlomek vypadat v našem příkladu? Vážnou nemoc má 500 lidí, test ale označil dalších 29 850 lidí, celkem tedy máme 30 350 potenciálních nemocných. Pravděpodobnost, že nemoc máme, je pak 500/30 350 = 0,016, což vyjádřeno v procentech je 1,6 %, tedy ne 70 %! Uznáte, že 1,6 % a 70 % je pěkně veliký rozdíl pravděpodobností.

Ovšem tenhle výsledek nemůžeme zcela mechanicky aplikovat na výše zmíněný případ paní z trolejbusu, protože nevíme, jaké procento populace trpí vážnou nemocí, kterou paní ani nezmínila a rovněž nevíme, zda test byl falešně pozitivní nebo falešně negativní. U falešně negativního testu se předpokládá, že pokud nemoc nemáme, spolehlivost testu je 100 %. U falešně pozitivního testu se předpokládá, že pokud nemoc máme, spolehlivost testu je 100 %. V reálu jsou testy jakýmsi mixem falešné pozitivity a negativiy. Ovšem na zákledě zde uvedeného výpočtu zcela jistě si můžeme dovolit tvrdit, aže v případě starší paní 70 % pravděpodobnost nemoci je zcela vyloučená.

Ono vůbec s procenty v medicíně je to vždy všelijaké. V lednu 2012 jsem podstoupil operaci prostaty. Protože jsem po operaci chtěl k tomu napsat nějaké povídání, začal jsem shánět statistické údaje kolem prostaty. Jedna veliká katastrofa, i lékaři vařili z vody. A tak jsem pátral na vlastní pěst. Vyšlo mi, že podle statistik trpí problémy prostaty asi čtvrtina mužů a operační výkon absolvuje z této čtvrtiny jenom malá část mužů, asi 20 %. Takže ze 100 mužů tak 5. Několik lékařů mi napsalo, že nějak takhle by to mohlo nakonec být. Podle reklam v televizi málem všichni muži trpí prostatou a pokud si nebudou kupovat drahé léky hrozí jim operace. S velikou pravděpodobností to pravda není.

Určitě výsledek našeho fiktivního příkladu ne každý akceptuje, ale není se co divit. I řada matematiků bayesovskou teorii pravděpodobnosti důrazně odmítá. Asi nejhůře výsledek našeho příkladu akceptují lékaři, protože jednak většina z nich moc matematiku nemusí, a jednak hodně věří intuici získané dlouholetou praxí. Není to hřích, je to dáno profesním zaměřením. Nakonec každý z nás ve své profesi využívá v té či oné míře intuici podloženou praxí a zkušenostmi. Ještě hůře jsou na tom humanitně vzdělaní lidé. Podobné úvahy jim dělají stejné problémy, jako mně naučit se pár desítek anglických slovíček. Také jsem se je nikdy nenaučil.

Pokud vás bayesovská teorie pravděpodobnosti zaujala, existuje k ní řada odborných publikací, bohužel většinou v angličtině. Žádnou z nich jsem v životě nečetl z titulu svého jazykového analfabetismu. Ale základy této teorie jsou zmíněny i ve většině knih o teorii pravděpodobnosti vydaných v českém či slovenském jazyce.

Výpočet s použitím Bayesova vzorce vidíte na obrázku. Výsledek musí být pochopitelně stejný. Pokud vám tenhle vzorec nic neříká, něco málo beletristického jsem ve svých střípcích k tomuto tématu již napsal. Úplně na konci uvádím přehled některých z těchto textů v doporučeném pořadí k přečtení. V nich najdete i několik dalších příkladů vyřešených s použitím Bayesova vzorce. A to je snad již vše, protože již nemám v plánu o této problematice dále psát.

Tady jsou slíbené odkazy na některé mé texty kolem pravděpodobnosti:

V Brně 1. března 2016.

Doplněk z 3. prosince 1920:  Požádal mě čtenář, profesí lékař, zda bych nedoplnil i výpočet na COVID-19, vycházeje z předpokaldu, že účinnost testu je 70 %, a že nemoc se vyskytuje u 10 % populace. Tady je zadání i řešení.

Podstoupili jsme lékařský test na vážnou nemoc. Nemoc se vyskytuje u 10 % procent populace. Test je spolehlivý na 70 %, ve 30 % udává pozitivní výsledek, ačkoli nemocný vážnou nemoc nemá. Tento jev se obvykle pojmenovává v medicíně jako falešná pozitivita. Náš test bohužel dopadl pozitivně. S jakou pravděpodobností máme vážnou nemoc?

Mnozí asi odpoví, že s asi 70 % pravděpodobností, vždyť test je spolehlivý právě na 70 %. Ukážeme si, že pravda to není. Abychom nepočítali příliš abstraktně, zvolíme si vzorek populace, ať je to 100 000 lidí. Velikost vzorku nebude mít žádný dopad na náš výsledek, protože nás zajímají procenta.

Budeme důsledně rozlišovat situaci před podstoupením testu a po podstoupení testu.

Před podstoupením testu byla pravděpodobnost, že máme nemoc rovna číslu 0,1, což je matematické vyjádření 10 procent. 100 % je 1, 1 % je 0,01, 70 % je 0,7, 30 % je 0,3, 10 % je 0,1 atd. Z našeho vzorku 100 000 lidí trpí nebezpečnou nemocí 100 000 × 0,1 = 10 000 lidí.

Pak podstoupíme test, bohužel je pozitivní. Jaká je teď pravděpodobnost, že trpíme vážnou nemocí? Je jasné, že pravděpodobnost se po provedení testu změnila, před provedením testu byla jenom 10 procent, teď zcela logicky očekáváme, že bude vyšší.

Víme, že z našeho vzorku 100 000 lidí trpí vážnou nemocí 10 000 lidí, zbývá nám 90 000 lidí, kteří vážnou nemoc nemají. Kdybychom těchto 90 000 lidí podrobili testu, test by dal nesprávný výsledek u 90 000 × 0,3 = 27 000 lidí. Násobili jsme 0,3 proto, neboť test v 30 % udává pozitivní výsledek, ačkoliv člověk vážnou nemoc nemá. Celkem tedy 10 000 + 27 000 = 37 000 lidí trpí vážnou nemocí, alespoň podle predikce nemoci u populace a testu.

Jaká je teď pravděpodobnost, že opravdu máme vážnou nemoc? Víme, že pravděpodobnost určitého jevu je dána zlomkem, podílem počtu tomuto jevu příznivých výsledků k počtu všech možných výsledků. Například při poctivém házení „necinknutou“ hrací kostkou (krychle, pravidelný šestistěn) je počet všech možných výsledků roven 6, může padnout 1 nebo 2 nebo 3 nebo 4 nebo 5 nebo 6. Pravděpodobnost pádu např. šestky je pak 1/6, jelikož pouze jeden výsledek je příznivý pádu 6. Pravděpodobnost pádu 2 nebo 3 je 2/6, což je 1/3, protože dva výsledky jsou příznivé pádu 2 nebo 3.

Jak bude zmíněný zlomek vypadat v našem příkladu? Vážnou nemoc má podle predikce 10 000 lidí, test ale celkem označil dalších 27 000 lidí, což je celkem 37 000 potenciálně nemocných. Pravděpodobnost, že nemoc máme, pak je 10 000/37 000 = 0,37, což vyjádřeno v procentech je 37 %, tedy ne 70 %! Uznáte, že je to docela veliký rozdíl.

Ovšem nejásejme předem, něco podobného platí i pro falešnou negativitu. Předpokládejme, že test je spolehlivý na 70 %, ve 30 % udává negativní výsledek, ačkoli vážnou nemoc máme. Pokud podle testu nemoc nemáme, neznámená, že ji nemáme na 70 %, ale pouze na 37%! S touhle skutečností se dnes potkávám často u nemoci covid-19. Antigenní test nám ukáže, že nemoc nemáme, leč záhy se dostaví zdravotní problémy, podstoupíme PCR test a bác, jsme nakaženi koronavirem.

Domů | Prolog 2001: Vesmírná odysea | Nejen básně v próze | Střípky