Přejít na hlavní obsah

Jak se dělá výzkum v psychologii? Díl třetí

Ani správně připravený dotazník a posbíraná data nezabrání tomu, že vědci dostanou špatné odpovědi. 

V minulých dílech zazněly informace o přípravě dotazníkusběru kvantitativních dat. Před jejich analýzou a zodpovídáním výzkumných otázek a hypotéz přichází na řadu ještě jeden krok: čištění dat.

Čištění dat bývá poměrně zdlouhavá, nevděčná a neviditelná práce. O čištění dat se moc nemluví a ani se o něm ve většině publikovaných studií nedočteme. Přesto je nezbytnou součástí výzkumu. Co to tedy vlastně je? 

Při přípravě dotazníku i sběru se snažíme co nejvíce o to, aby naše data k něčemu byla; tedy aby otázkám respondenti rozuměli, aby byli k odpovídání motivováni a měli k vyplňování vhodné podmínky. I (motivovaní) respondenti jsou ale jenom lidé, a tak při vyplňování občas něco zaškrtnou omylem, něco přehlédnou nebo špatně pochopí a jejich odpovědi pak nejsou úplné nebo pravdivé. A samozřejmě existují i takoví, kteří si rádi z výzkumníků vystřelí a dotazník vyplní tak, aby odpovědi ve škále utvořily nějaký pěkný obrázek. Taková data pak přirozeně neodpovídají realitě a zkreslila by naše analýzy a závěry. Právě proto se výzkumníci snaží všemožnými způsoby "špatná" data odhalit a naložit s nimi, jak zasluhují: tedy smazat je nebo je "opravit"- zkrátka data vyčistit.

Konkrétní postupy čištění závisí na konkrétním dotazníku a jeho specifikách. Mezi základní metody patří sledování tzv. odpověďových řad a kontrola toho, zda respondent neodpovídá na podobné položky pokaždé jinak. Oďpověďové řady hledáme typicky u položek seskupených do škál. Kupříkladu máme deset položek se stejnými možnostmi odpovědí (například: naprosto platí až naprosto neplatí), které dohromady měří jednu charakteristiku.

Odpověďová řada je pak takové vyplnění škály, při němž vznikne série stejných odpovědí: na všechny položky například respondent odpoví zakroužkováním první možnosti. To samo o sobě nemusí být špatné a někdy to může odpovídat realitě – "pravé" odpověďové řady vznikají tak, že respondent bezmyšlenkovitě kroužkuje stejné možnosti (nejspíš aby už měl dotazník za sebou).

Psychologické škály jsou ovšem zákeřné a takovou tendenci dokáží odhalit, neboť se v nich často objevují obrácené položky: například ve stejné škále mohou být položky jako "Mám spoustu kamarádů" a "Nemám žádného kamaráda", k nimž logicky patří opačné odpovědi. Odpověďová řada u takových škál prostě nemůže odpovídat realitě a je mnohdy naprosto nesmyslná nebo minimálně podezřelá.

Příkladem kontroly odpovědí může být i otázka: „Kolik je vám let?" položená na začátku dotazníku, která je na konci zopakovaná jako: „Vepište datum svého narození“. Jenže co když výzkumník zjistí, že tyto údaje u respondenta nesouhlasí? Co když se liší o 5, 10, 20 let? Který údaj pak vybrat? Nebo raději smazat oba? A co další data tohoto respondenta? Dá se jim věřit? Nebo je třeba zahodit celý dotazník?

Jak vidíte, čištění dat není záležitost jednoduchých odpovědí. Ani podezřelá oďpověďová řada nemusí vždy znamenat zničená data, stejně jako překlep u věku. Nestačí proto vyhodnotit jednu škálu nebo jeden údaj, musíme se vždy dívat na komplexní obraz.

Má tento respondent všechny škály plné odpověďových řad? Pak mu asi věřit nebudeme. Má řadu pouze u poslední škály a jinak je dotazník vyplněný smysluplně? Pak mohl být ke konci už jen unavený anebo neměl dost času, a tak vše rychle zaškrtal. Často se díváme i na celkový způsob vyplňování: je dotazník počmáraný, pomalovaný obrázky na okrajích? A kolik celkem respondent vyplnil položek? Je jich málo a ještě jsou podezřelé?

Takto se můžeme zamýšlet nad každým jednotlivým dotazníkem a naše rozhodnutí zahodit celý dotazník anebo jen vymazat data z konkrétních položek či škál je pak v ideálním případě založeno na zhodnocení více různých faktorů.

Nekontrolujeme přitom pouze respondenty, ale také celé jednotky (a tedy i sběr). Jak probíhal sběr v určité třídě? Nakolik byl spolehlivý tento tazatel? Bojujeme přitom vždy mezi potřebou uchovat co nejvíce dat, které potřebujeme pro analýzu, a potřebou mít data kvalitní, protože jinak nebudou výsledky stát za nic.

Čištění je tedy mravenčí práce, která obvykle spolyká velké množství času. Je ale také velmi dobrým metodologickým proniknutím do toho, co data opravdu znamenají, o čem vypovídají. A to je ideálním podkladem pro další analytickou práci, o které si více řekneme zase v dalším díle.

Autorky pracují na IVDMR FSS MU v projektu VITOVIN spolufinancovaném Evropským sociálním fondem a rozpočtem České republiky.

Hlavní novinky