Tabelele de urgență
Simțul și dispunerea mesei. O contingență, sau tabel încrucișat, este o combinație de două (sau mai multe) tabele de frecvență, astfel încât fiecare celulă interioară să reprezinte o combinație unică de valori specifice (numite și categorii) ale variabilelor încrucișate. Astfel, face posibilă determinarea frecvenței, a numărului de respondenți, care se încadrează într-o anumită categorie pentru mai multe variabile. Examinarea acestor frecvențe face posibilă determinarea relației, a relației dintre variabilele încrucișate. Tabelul de contingență este potrivit numai pentru variabilele nominale sau variabile numerice care ating un număr relativ mic de valori posibile. Dacă este necesar să utilizați o variabilă numerică cu un număr mai mare de valori dobândite, este necesar să o recodificați mai întâi, unde valorile variabilei vor fi atribuite fără echivoc unei categorii (de exemplu, scăzută, medie, înaltă).
Masă 2x2. Cea mai simplă formă a unui tabel de contingență este un tabel 2x2, în care ambele variabile sunt binare, dobândind doar două valori posibile. De exemplu, pentru a determina relația dintre sex și popularitatea unei anumite băuturi de la producătorul A sau B, folosim următoarele date:
Tabelul de urgență rezultat ar putea arăta ca de ex. după cum urmează:
Fiecare celulă de tabel reprezintă o combinație unică a valorilor a două variabile cu tabele încrucișate. Numărul din celulă este numărul de respondenți care dobândesc, în antetul rândului și coloanei, valorile variabilelor. Acest tabel arată că mai multe femei decât bărbați aleg producătorul A și mai mulți bărbați decât femei din producătorul B. Astfel, sexul și producătorul ar putea fi într-o relație care trebuie dovedită sau respinsă.
Numere marginale. Numerele marginale sau altfel marginale se află în coloana din dreapta și rândul de jos al tabelului și sunt identice cu tabelele de frecvență ale variabilelor examinate, care sunt descrise în statisticile descriptive. Numerele marginale sunt utile în estimarea dacă există o relație între variabilele examinate. Deoarece raportul dintre bărbați și femei în producătorul A este de 40:60, dacă același raport ar fi în întregul grup, am putea concluziona că popularitatea producătorului A nu este legată de sex. În acest caz, raportul din coloana pentru producătorul A ar reflecta doar raportul global dintre bărbați și femei.
Rânduri, coloane și procente totale. Exemplul anterior a arătat că, pentru a estima relația dintre variabilele încrucișate, este util să comparați valorile din celulele interne cu cele marginale. Pentru simplitate, este mai convenabil să lucrați cu frecvențe exprimate în procente.
Prezentarea grafică a tabelelor de contingență. Este posibil să prezentați rândurile și coloanele tabelului ca grafice cu bare, sau întregul tabel cu un singur grafic, o histogramă tridimensională. O altă opțiune este utilizarea unei histograme categorizate, unde o variabilă este prezentată de histograme individuale pentru fiecare valoare a celeilalte.
Tabelele cu stub și banner. Dacă există doar două variabile care trebuie evaluate într-un tabel încrucișat, vorbim despre un tabel cu două căi. Cu toate acestea, dacă există mai multe variabile disponibile și tabelele bidirecționale ale mai multor perechi ale acestor variabile sunt interesante, este posibil să le afișăm într-o formă condensată într-una singură tabele stub-and-banner.
Tabelele multi-way cu variabila de control. Dacă este necesar să se evalueze relația dintre mai mult de două variabile categorice, vorbim despre un tabel cu mai multe căi. Teoretic, numărul de variabile din tabelul cu mai multe căi este nelimitat, dar rezultatul practic este deja foarte greu de citit pentru numărul de variabile 5. Pentru a analiza relațiile în astfel de tabele, este bine să folosiți tehnici de model, cum ar fi analiza log-liniară sau analiza corespondenței.
Statistici în tabele de urgență. Tabelul următor arată o relație foarte puternică între vârsta (adult sau copil) a respondenților și popularitatea unui anumit tip de desert (A sau B).
La toți adulții, preferă desertul A, în timp ce copiii preferă desertul B. Nu există nicio îndoială cu privire la relația dintre variabilele examinate. Cu toate acestea, în practică sesiunea nu este atât de puternică, iar întrebarea este cum să evaluăm fiabilitatea acesteia, adică semnificația statistică. Următoarea prezentare generală acoperă cele mai generale măsuri ale relației dintre două variabile categorice. Prin urmare, este o analiză statistică a tabelelor bidirecționale.
Testul chi-pătrat al lui Pearson. Această măsură a fiabilității relației dintre cele două variabile categorice este cea mai frecvent utilizată. Testul se bazează pe măsurarea diferențelor de frecvențe reale în celulele tabelului de contingență, spre deosebire de cele așteptate, unde frecvența celulelor așteptate este calculată ca raportul dintre produsul frecvenței marginale a rândului și coloanei relevante și numărul total. Semnificația testului chi-pătrat crește odată cu creșterea diferențelor măsurate.În conformitate cu introducerea, valoarea testului chi-pătrat și semnificația sa depind, de asemenea, de numărul total de respondenți. Cu numărul lor mare, chiar și diferențe mici în frecvențele dobândite în comparație cu cele așteptate pot duce la semnificație statistică.
Singura condiție prealabilă pentru utilizarea testului chi-pătrat (în afară de regulile referitoare la eșantionare) este regula conform căreia frecvențele așteptate nu trebuie să fie foarte mici, mai mici de 5.
Test Chi-pătrat de maximă probabilitate. Acest test testează aceeași ipoteză ca și precedentul, dar se bazează pe teoria probabilității maxime. În practică, rezultatul este foarte aproape de testul chi-pătrat al lui Pearson.
Corecția Yates. Acesta este un test chi-pătrat îmbunătățit pentru tabelele de tipuri 2x2. Este potrivit în cazul în care tabelul conține frecvențe reale mici, astfel încât frecvențele așteptate să fie, de asemenea, mai mici de 10.
Testul exact al lui Fisher. Se aplică numai tabelelor 2x2 pri malom n. Se bazează pe acest principiu: frecvențele marginale din tabel sunt date și să presupunem că pentru întreaga populație este adevărat că cele două variabile examinate în tabel nu sunt în relație. Care este probabilitatea ca în baza acestor ipoteze să obținem frecvențe celulare inegale sau mai slabe decât cele pe care le avem? Pentru n mic, această probabilitate poate fi cuantificată exact analizând toate tabelele posibile pe baza frecvențelor marginale date.
McNemarov chi-square test. Testul este aplicabil pentru 2x2 tabele și măsurători independente. De exemplu, măsurarea înainte și după experiment, unde măsurăm numărul de studenți care nu reușesc la test la începutul și la sfârșitul semestrului. Primim două teste chi-pătrat. Testul A/D testează ipoteza că numărul din celulele A (stânga sus) și D (dreapta jos) sunt aceleași. B/C testează ipoteza că numărul din celulele B (dreapta sus) și C (stânga jos) sunt aceleași.
Coeficientul Phi. Este o măsură a corelației dintre două variabile categorice pentru 2x2 Mese. Valoarea coeficientului phi poate varia de la -1 la 1, 0 înseamnă că variabilele nu se corelează, -1 sau 1 că sunt complet dependente.
Corelația tetracorică. Aceste statistici se aplică numai 2x2 tabele, în care ambele variabile au fost create prin clasificarea artificială a variabilelor inițial continue.
Contingență coeficient - C . Este o măsură a relației a două variabile pe baza testului chi-pătrat al lui Pearson. Comparativ cu chi-pătratul original, este mai ușor de interpretat, deoarece valorile sale sunt în afara intervalului, cu 0 însemnând independență absolută. Dezavantajul acestei statistici este faptul că C poate atinge limita superioară 1 numai dacă numărul categoriilor este nelimitat. Acest grad de relație nu este, în general, la fel de acceptabil, datorită unei interpretări nu foarte clare în termeni de probabilitate, precum r-ul lui Pearson.
Statistici bazate pe rang. În multe cazuri, categoriile variabilelor din tabelul de contingență sunt de ordin (de exemplu, foarte slabe, slabe, medii, puternice, foarte puternice). Deci variabilele sunt ordinale. Atâta timp cât codificarea categoriilor urmează o ordine logică, următoarele statistici pot fi utilizate pentru a exprima relația dintre variabile:
Spermanovo R . R-ul lui Spearman poate fi considerat coeficientul de corelație al produsului Pearson (Pearson's r), adică din punctul de vedere al proporției variabilității, cu excepția faptului că Spearman este calculat din ordin. Prin urmare, variabilele trebuie să fie măsurabile cel puțin pe scara ordinală.
Tau-ul lui Kendall . Tau-ul lui Kendall identic cu R. Spearman. Cu toate acestea, calculul și rezultatul sunt diferite, la fel ca și interpretarea. Valabil: -1
Sommer d: d (X | Y), d (Y | X). (Siegel, Castellan, 1988, pp. 303-310)
Gamma. Statisticile gamma sunt utile dacă datele conțin multe măsurători legate. Din punctul de vedere al ipotezelor, statisticile gamma sunt echivalente cu R a lui Spearman sau tau-ul lui Kendall, din punct de vedere al interpretării este similar cu tau-ul lui Kendall.
Coeficienți de incertitudine . Aceștia sunt indicatori ai dependenței stochastice. S (Y, X) se referă la dependența simetrică, S (X | Y), S (Y | X) la asimetric.