Datu tīrīšana ir būtiska datu analīzes sastāvdaļa, it īpaši, ja jūs savācat savus kvantitatīvos datus. Pēc datu apkopošanas jums tie jāievada datorprogrammā, piemēram, SAS, SPSS vai Excel. Neatkarīgi no tā, vai tas tiek darīts ar rokām, vai to dara datora skeneris, radīsies kļūdas. Neatkarīgi no tā, cik rūpīgi dati ir ievadīti, kļūdas ir neizbēgamas. Tas varētu nozīmēt nepareizu kodēšanu, nepareizu rakstīto kodu nolasīšanu, nepareizu melnu zīmju uztveri, trūkstošos datus utt. Datu tīrīšana ir šo kodēšanas kļūdu noteikšanas un labošanas process.
Ir divu veidu datu tīrīšana, kas jāveic datu kopām. Tie ir iespējama koda tīrīšana un ārkārtas tīrīšana. Abas ir ļoti svarīgas datu analīzes procesā, jo, ja tās ignorēs, gandrīz vienmēr iegūsit maldinošu pētījumu.
Iespējamā koda tīrīšana
Visiem dotajiem mainīgajiem būs noteikts atbilžu izvēles un kodu komplekts, kas atbilst katrai atbildes izvēlei. Piemēram, mainīgais dzimums katram būs trīs atbilžu varianti un kodi: 1 vīrietim, 2 sievietēm un 0, ja nav atbildes. Ja jums ir respondentam, kurš šim mainīgajam ir kodēts ar 6, ir skaidrs, ka ir pieļauta kļūda, jo tas nav iespējams atbildes kods. Iespējamā koda tīrīšana ir pārbaudes process, lai pārliecinātos, ka datu failā tiek parādīti tikai tie kodi, kuri katram jautājumam ir piešķirti atbildes izvēlei (iespējamie kodi).
Dažas datu ievadīšanai pieejamās datorprogrammas un statistikas programmatūras paketes pārbauda šāda veida kļūdas, ievadot datus. Šeit lietotājs pirms datu ievadīšanas nosaka katra jautājuma iespējamos kodus. Tad, ja tiek ievadīts numurs ārpus iepriekš noteiktām iespējām, parādās kļūdas ziņojums. Piemēram, ja lietotājs mēģināja ievadīt dzimuma skaitli 6, dators var pīkstēt un atteikt kodu. Citas datorprogrammas ir paredzētas nelegālo kodu pārbaudei pabeigtajos datu failos. Tas ir, ja tie netika pārbaudīti datu ievadīšanas procesā, kā tikko aprakstīts, ir veidi, kā pārbaudīt failus, vai tajos nav kodēšanas kļūdu, pēc datu ievadīšanas pabeigšanas.
Ja datu ievadīšanas procesā neizmantojat datorprogrammu, kas pārbauda kodēšanas kļūdas, dažas kļūdas var atrast, vienkārši izpētot atbilžu sadalījumu katram datu vienumam komplekts. Piemēram, jūs varētu ģenerēt mainīgā frekvences tabulu dzimums un šeit jūs redzētu numuru 6, kas tika nepareizi ievadīts. Pēc tam jūs varētu meklēt šo ierakstu datu failā un labot to.
Tīrīšana ārkārtas gadījumos
Otrais veids dati tīrīšanu sauc par ārkārtas tīrīšanu, un tā ir nedaudz sarežģītāka nekā iespējamā koda tīrīšana. Datu loģiskā struktūra var ierobežot noteiktu respondentu atbildes vai noteiktus mainīgos. Tīrīšana ar neparedzētiem gadījumiem ir process, kurā tiek pārbaudīts, vai tikai tiem gadījumiem, kad vajadzētu būt datiem par konkrētu mainīgo, ir šādi dati. Piemēram, pieņemsim, ka jums ir anketa, kurā jūs vaicājat respondentiem, cik reizes viņi ir bijuši stāvoklī. Visām respondentēm jābūt atbildēm, kas kodētas datos. Tēviņiem tomēr vajadzētu būt tukšiem vai arī viņiem vajadzētu būt īpašam kodam, lai neatbildētu. Ja kāds no vīriešiem, piemēram, datos ir kodēts, piemēram, ar 3 grūtniecībām, tad zināt, ka ir kļūda, un tā ir jālabo.
Atsauces
Babbie, E. (2001). Sociālo pētījumu prakse: 9. izdevums. Belmonta, Kalifornija: Wadsworth Thomson.