Statistici - concepte de bază

concepte

Ce sunt variabilele. Variabilele, sau altfel, caractere statistice, vectori, sunt lucruri pe care le măsurăm, le monitorizăm sau le manipulăm în timpul cercetării. Ele diferă prin rolul pe care îl joacă în cercetarea noastră și prin modul în care sunt măsurabile.

Ce populație. O populație, altfel un set de bază, este un ansamblu de elemente posibile, respondenți, potrivite pentru fenomenul interesului nostru. De exemplu, toți alegătorii la alegerile prezidențiale. Sau toate persoanele cu leucemie, dacă căutăm un remediu pentru această boală. Sau toate sunt câmpuri posibile dacă subiectul este o cercetare a solului.

Ce este un eșantion. Un eșantion, sau o selecție, sau altfel o dată, un set de date, este un subset al întregii populații. Cercetătorul analizează eșantionul și încearcă să generalizeze rezultatele găsite pe acesta la întreaga populație. Într-un fișier de date, un respondent reprezintă un rând, iar variabilele reprezintă coloane. Prin urmare, este o matrice care are atât de multe rânduri cât există respondenți în eșantion și câte coloane sunt variabile monitorizate. Unificând toate eșantioanele posibile, obținem întreaga populație.

Corelarea și cercetarea experimentală. În cercetarea corelației, examinăm relațiile dintre variabile, deși nu afectează variabilele, le măsurăm doar și căutăm relații, de ex. care este relația dintre timpul realizat la traversarea bazinului de 100 m și numărul de fotografii. În cercetarea experimentală, manipulăm unele variabile și apoi măsurăm efectul acestei manipulări asupra altor variabile. De exemplu, îi instruim pe respondenți să înoate o vreme și apoi să măsurăm dependența menționată mai sus. Numai cercetările experimentale ne vor oferi dovezi complete ale unei legături cauzale. În cercetarea experimentală, avem ocazia să aflăm că schimbarea variabilei A a provocat schimbarea variabilei B. În timp ce cercetarea de corelație vorbește doar despre dependență, dar nu oferă dovezi convingătoare ale cauzei.

Relațiile dintre variabile. Variabilele, indiferent de tipul lor, sunt în relație, cu alte cuvinte, există o relație între ele, o dependență, dacă valorile lor din eșantionul respondenților corespund sistematic între ele. De exemplu, să luăm un eșantion de respondenți pentru care măsurăm înălțimea și greutatea. De regulă, mai mare tinde să fie mai greu, deci ne putem aștepta ca aceste două variabile să fie în relație, cu alte cuvinte - independente.

Două trăsături de bază ale fiecărei relații între variabile. Ele sunt dimensiunea și fiabilitatea, adică fiabilitatea.
Dimensiunea sesiunii din eșantion este ușor de măsurat. De exemplu, dimensiunea relației dintre obezitate și nivelurile de colesterol din sânge este ridicată. Cel puțin pe un eșantion de cercetare specific, putem prezice că primul este cauza celui de-al doilea.
Fiabilitatea este mai puțin intuitivă decât dimensiunea, dar este foarte importantă. El vorbește despre reprezentativitatea rezultatului obținut dintr-un eșantion specific. El vorbește despre probabilitatea ca, dacă selectăm alți respondenți din aceeași populație, ne putem aștepta la un rezultat similar celui al eșantionului original. De regulă, cercetătorul trebuie să generalizeze rezultatul obținut din eșantion la întreaga populație. Fiabilitatea poate fi estimată cantitativ și în textul următor o vom întâlni ca valoare p sau nivel de semnificație.

Care este nivelul de semnificație (valoarea p). Nivelul de semnificație al rezultatului obținut din eșantion este probabilitatea ca dependența observată, resp. diferența dintre variabilele din eșantionul de respondenți este pur aleatorie și că în întreaga populație din care a fost selectat eșantionul, această dependență, resp. nu e nicio diferenta. Cu cât este mai mare nivelul de semnificație, cu atât dependența observată obținută de eșantionul de cercetare a respondenților poate fi de așteptat pentru întreaga populație.
De exemplu, un nivel de semnificație de 0,05 indică faptul că nu există mai mult de o probabilitate de 5% ca relația dintre variabilele găsite în eșantion să fie pur aleatorie. Cu alte cuvinte, valoarea p este probabilitatea unei erori cauzate de acceptarea rezultatului dependenței obținute din eșantion ca fiind valabil pentru întreaga populație. Prin urmare, presupunând că nu există o astfel de relație în populație, atunci la o valoare p de 0,05 pentru fiecare 20 de replici ale experimentului, această relație ar putea apărea într-un eșantion. Dar dacă într-adevăr există o astfel de relație în populație, atunci probabilitatea ca acest fapt să fie confirmat prin repetarea experimentului se numește puterea testului și, ferește-te, nu este 1-p.
Pentru o dependență cu adevărat semnificativă, resp. diferență, un astfel de rezultat este luat în considerare dacă valoarea p este mai mică de 0,05. În unele sarcini de cercetare se folosește un criteriu mai strict, p

Gradul de dependență și interpretarea acesteia. Scopul testării statistice este de a estima relația dintre variabile, adică raportul dintre variația explicată a unei variabile de cealaltă și variația totală a acelei variabile. Astfel, în măsura în care, exprimată ca procent, modificarea primei variabile poate fi explicată prin schimbarea în a doua și invers.

Efectul nerespectării prezumției de normalitate. Majoritatea afirmațiilor de mai sus sunt dovedite matematic, dar unele dintre ele se bazează doar empiric, prin așa-numitele experimente Monte-Carlo. Astfel, a fost determinată măsura în care testele bazate pe normalitate sunt sensibile la nerespectarea ipotezei unei distribuții normale. Concluzia acestor studii a fost că consecința acestei neconformități este mai puțin gravă decât se credea inițial. Prin urmare, utilizarea testelor de partiționare în toate tipurile de cercetare crește în prezent în popularitate.

Piese traduse din:
StatSoft, Inc. (1999). Manual de statistică electronică. Tulsa, OK: StatSoft. WEB: http://www.statsoft.com/textbook/stathome.html