Jak číst vědecké studie
Aktualizováno 11.8.2025
Uveďme si příklad.
Pokud bychom čistě hypoteticky věděli, že „90 % zločinců jí před činem chleba“, mohlo by to evokovat, že chléb nějakým způsobem zvyšuje tendenci k trestné činnosti – a že bychom ho měli z jídelníčku našich dětí raději vyřadit.
Pokud ale nevíme nic dalšího, můžeme se ptát: „No jo, ale co ostatní lidé – nejedí chleba úplně stejně?“ Souvisí to spolu vůbec?
Kontrolní skupina
Kvalitní studie by měla mít mimo jiné kontrolní skupinu.
Pokud by se ukázalo, že kolem 90 % lidí v kontrolní skupině jí chleba stejně často a ve stejném množství jako lidé ve skupině zločinců, znamenalo by to, že chléb s trestnou činností pravděpodobně vůbec nesouvisí.
Kdyby kontrolní skupina existovala a přesto by se ukázalo, že zločinci jedí chleba častěji, ani to by ještě nepotvrzovalo, že je kriminalita způsobena přímo chlebem. Bylo by třeba zohlednit další okolnosti, například socioekonomický status.
Pokud bychom měli důvod předpokládat, že lidé v kontrolní skupině mají vyšší příjmy než ti ve „zločinecké“, museli bychom se ptát, co je příčina a co následek. Zločinci možná nekradou proto, že jedí chleba, ale proto, že mají nižší příjmy – a chléb jedí prostě proto, že je levnější. Vzniká tak korelace (souvislost), ale korelace není vždy kauzalita (příčinnost).
Ideální uspořádání studie
Nejlepší by bylo, kdyby experimentální a kontrolní skupina byly co nejpodobnější věkem, pohlavím, příjmy i prostředím, kde žijí (protože třeba v některých regionech se jí chléb častěji). Docílit takové podobnosti ale může být složité.
Jednou možností, jak zjistit, zda pojídání chleba opravdu zvyšuje pravděpodobnost páchání trestné činnosti, by bylo sledovat účastníky dlouhodobě – ideálně od dětství. Náhodně (třeba losem) by byli rozděleni do dvou skupin:
-
v jedné by rodiče dětem chléb nedávali nebo jen málo,
-
ve druhé by ho jedly častěji.
Po letech by se porovnalo, zda ve „chlebové“ skupině došlo k trestné činnosti významně častěji. Takový výzkum je ovšem náročný a může být i eticky sporný – ovlivňuje stravování dětí a mohlo by to mít dopady na jejich vývoj.
Velikost souboru
Další kritérium kvality výzkumu je počet účastníků.
Je rozdíl, zda má každá skupina 20 lidí, nebo přes 1 000. Malé studie mohou být méně spolehlivé, protože u nich má náhoda větší váhu.
Opakovatelnost výsledků
Zajímavé je sledovat, zda se výsledky podařilo zreplikovat – tedy zda jiné studie na podobné téma přinesly podobné závěry. Pokud jen jedna studie zjistí, že chléb souvisí s kriminalitou, ale většina ostatních ne, důvěryhodnost té jediné bude nízká (ledaže by ostatní měly jasné nedostatky).
To připomíná vtip:
Paní přijde za lékařem a ptá se, zda očkování způsobuje autismus.
Lékař: „Tahle studie říká, že ano, tyto ostatní“ (ukáže na hromadu papírů) „říkají, že ne.“
Paní popadne tu jedinou studii: „Děkuji, tohle jsem potřebovala.“
Statistická významnost a velikost efektu
Důležité je také zjistit, zda jsou rozdíly mezi skupinami statisticky významné a jak velké jsou.
Vědci k tomu často používají p-hodnotu – ta ukazuje, jaká je pravděpodobnost, že pozorovaný rozdíl vznikl jen náhodně. Čím je p-hodnota menší, tím spíše se nejedná o náhodu (výzkumníci obvykle považují výsledky za významné, pokud je hodnota p nižší než 0,05, někdy jsou přísnější a vyžadují nižší než 0,01).
Dalším ukazatelem je velikost efektu (například Cohenovo d), která říká, jak moc velký a prakticky důležitý ten rozdíl je. Může se stát, že výsledky jsou sice „statisticky významné“, ale rozdíl mezi skupinami je zanedbatelný (zde se rozdíly mezi soubory pokládají za malé pro hodnoty d přibližně 0,2, za střední pro hodnoty přibližně 0,5 a za vysoké pro d okolo 0,8, viz např. Cohen, 1988).
Příklad:
Pokud by ve studii s 1 000 účastníky v každé skupině spáchalo trestný čin 51 lidí v „chlebové“ skupině a 50 v kontrolní, p-hodnota by nejspíše byla vysoká – rozdíl je prakticky nulový.
V některých dalších studiích sice zjistíme statisticky významné rozdíly mezi skupinami, ale to ještě neznamená, že mají na život účastníků opravdu výrazný dopad. Představme si například hypotetický výzkum, který by ukázal, že děti konzumující více borůvek budou v dospělosti v průměru o 2 milimetry vyšší. Je dobré mít na paměti, že takový rozdíl patrně zásadně neovlivní kvalitu jejich života – pokud by se tedy zároveň neprokázaly i jiné, významnější přínosy pojídání borůvek.
Matoucí faktory v rodičovství
V oblasti těhotenství a rodičovství je to podobné.
Například předporodní kurz tvrdí, že jen 12 % jejich absolventek rodilo císařským řezem – tedy o polovinu méně než průměr. To může být zavádějící: do takového kurzu se často hlásí ženy s nízkorizikovým těhotenstvím a silnou motivací rodit přirozeně. Výsledek tak může souviset spíš s tímto výběrem, než s kurzem samotným.
Podobně, pokud studie porovnává IQ dětí matek vystavených stresu v těhotenství a matek v klidu, je vhodné zjistit i IQ a socioekonomické podmínky samotných matek (tedy životní podmínky a vzdělávací možnosti). Někdy totiž rozdíly u dětí souvisí spíš s dědičností a životními podmínkami než s těhotenským stresem.
Jak poznat kvalitní studii?
-
má kontrolní skupinu,
-
účastní se jí dostatečně velký počet lidí,
-
její výsledky se potvrdily v dalších studiích,
-
rozdíly jsou statisticky významné a dostatečně velké,
-
zohledňuje matoucí faktory.
Číst vědecké studie může být náročné, zvlášť když jsme z jiného oboru. Sama jako rodič malých dětí vím, jak těžké je najít si na to čas a energii – a to jsem je dříve četla často. Proto je v pořádku, když si necháme s hledáním a vyhodnocováním informací pomoct někým, komu důvěřujeme. Rozhodování podle ověřených dat nám může ušetřit zbytečné obavy – i chybné závěry vyvozené z „chlebových“ statistik.