V sérii textů o výzkumu v psychologii už jsme popsali, jak vytvořit dotazník, jak správně posbírat kvantitativní data a také to, jak proč a jak data ještě před analýzou očistit. V posledním díle z cyklu „Jak se dělá výzkum v psychologii“ se zaměříme na analýzu kvantitativních dat.
K té můžeme využít mnoho různých statistických postupů. Jejich volba je do značné míry dána výzkumnou otázkou, stanovenými hypotézami i konkrétním způsobem, jakým měříme zkoumané konstrukty.
Ideálně bychom měli mít naprosto jasno v tom, jakou analýzu pro svá data zvolíme už při přípravě dotazníku, neboť způsob měření předurčuje možnosti statistických metod. Jednoduše řečeno, způsob, jakým proměnnou měříme, do značné míry ovlivňuje to, co s ní v analýze můžeme dělat, jaké hypotézy můžeme testovat a jaké výsledky nakonec obdržíme.
Pokud se například ptáme na věk tak, že respondenti vybírají mezi dvěma možnostmi „méně než 18“ a „více než 18“, pak takový způsob měření znemožňuje pro popis souboru dotazovaných použít průměrnou hodnotu – můžeme pouze konstatovat hodnotu nejčastější (tedy modální). Proto je důležité mít dopředu pečlivě promyšleno, co chceme dělat, abychom se vyhnuli situacím, kdy nemůžeme ověřit zajímavou hypotézu, protože jsme se namísto konkrétního věku ptali třeba právě jen na zletilost respondenta.
Bohužel ale nežijeme v ideálním světě, a tak se přes veškerou naši snahu a promyšlený dotazník může stát, že položky a škály nebudou fungovat tak, jak jsme si mysleli při jejich vytváření. Například se ukáže, že naše škála není dostatečně citlivá a všichni respondenti nám padají na jednu „hromádku“: všichni například vypadají jako naprosto šťastní jedinci, což ovšem neodpovídá realitě. Anebo je položka pro dotazované nesrozumitelná a všichni zvolí možnost „nevím“ nebo „nedokážu odpovědět“.
Jindy se může stát, že položky ve škále nesedí dohromady – neměří jen jeden rys, který jsme měřit chtěli, ale rozpadají se. Někdy také daná položka či škála jednoduše není vyplněná dostatečně – respondenti například neměli dost času vyplnit dotazník až do konce, a proto jsou poslední položky vyplněny jen menšinou oslovených lidí.
To všechno jsou případy, které nám „kazí“ naplánovanou analýzu. V praxi se tak konečný výběr analýzy a položek, které do ní zařadíme, často určuje až po vyčištění dat, kdy teprve zjistíme, co nám data dovolují udělat. Prvním krokem v analýze je tedy příprava položek a škál, které využijeme k testování hypotéz.
Někdy položky potřebujeme z různých důvodů překódovat, například namísto 5 věkových kategorií chceme pro konkrétní analýzu udělat jen dvě. U škál se rozhodujeme, z jakých položek a jakým způsobem vytvoříme celkový skór (můžeme například skóry z jednotlivých položek sčítat nebo počítat jejich průměr).
Následuje samotné testování, kdy zjišťujeme, zda pro námi hypotetizovaný model najdeme v sesbíraných datech podporu. Všechny kroky by se přitom měly řídit teorií, tedy měl by existovat nějaký důvod, proč mezi jednotlivými konstrukty očekáváme spojitost, kterou testujeme – například neredukujeme věk na kategorie, aby to „lépe vycházelo“, ale protože má smysl ptát se, jak se liší v konkrétních rysech třeba zletilí od nezletilých.
V případě, že pak (oprávněně) očekávaný vztah v našich datech nenalezneme (například v našich datech bude vycházet, že životní spokojenost nesouvisí se sebehodnocením), musíme se zamyslet nad možnými příčinami. Nenalezená souvislost v datech totiž samozřejmě nemusí znamenat, že zde souvislost reálně není: mohli jsme také udělat chybu v měření či počítání skórů, ve výběru zkoumané populace, v kódování dat.
Stejně tak i pokud souvislost data podporují, neznamená to automaticky, že daná souvislost opravdu existuje. Vždy je možné, že došlo k určité chybě. Při interpretaci našich zjištění je proto vždy nutná opatrnost. Sami bychom měli kriticky zvážit celý proces od přípravy dotazníku před sběr dat až po analýzu, díky němuž jsme výsledek nakonec získali.
Autorky pracují na IVDMR FSS MU v projektu VITOVIN spolufinancovaném Evropským sociálním fondem a rozpočtem České republiky.