Pentru a facilita înțelegerea statisticilor, este necesar să se explice câteva concepte statistice de bază.
Fișier statistic
Statistica se ocupă de fenomenele pe care le numim fenomene de masă. Distingem două tipuri de fenomene de masă. O specie este una care apare într-un număr mare de obiecte - înălțime, greutate, culoarea ochilor, sex, vârstă, profesie, număr de copii etc. A doua specie este una care este rezultatul unui număr mare de repetări, de ex. cântărirea repetată a unui obiect, aruncări repetate de zaruri, monede etc. Obiectele pe care le examinăm statistici se numesc fișier statistic - de exemplu. un set de oameni care trăiesc pe un teritoriu.
Fișier statistic de bază scop N reprezintă ansamblul tuturor unităților statistice. Dacă nu este posibil să examinăm fișierul de bază (din motive de timp, financiare sau de altă natură), creăm din acesta fișier eșantion după reguli prestabilite. În sondaj, datele sunt colectate numai pentru o parte a populației, așa-numitul probă. Aceste date sunt apoi utilizate pentru a estima caracteristicile întregii populații. În acest caz, trebuie să se asigure că eșantionul reprezintă populația relevantă. De exemplu, proporția persoanelor cu vârsta sub 18 ani sau proporția femeilor și bărbaților dintr-un eșantion selectat de gospodării trebuie să reflecte realitatea din populația totală.
Trebuie să facem selecția astfel încât obiectele selectate să aibă o proprietate pe care o are întregul fișier de bază. Numim această proprietate semn statistic (poate fi genul, profesia, numărul copiilor, vârsta, educația etc.). Numim variații, variante ale diferitelor valori ale unui semn statistic.
Semn statistic
Caracterele statistice pot fi împărțite în funcție de diferite aspecte. Împărțirea de bază este în caracteristici calitative și cantitative:
Caracteristici calitative (categorice) exprimă verbal o proprietate a unei unități statistice. Valorile caracterelor calitative sunt de obicei notate cu numere, sunt codificate. Împărțim caracteristicile calitative în:
- - nominal - nume de caractere, le putem numi valorile, dar nu le putem clasifica. Putem spune că sunt diferite sau egale (sex, culoarea ochilor, naționalitate);
- - ordinal - personaje în serie, În mod natural le putem aranja valorile în ordine, dar nu putem determina cât de mult o valoare este mai mare decât cealaltă (medalie - aur, argint, bronz, rang în armată, evaluare calitativă a elevului - excelent, foarte bun, bun, eșuat, putem exprima evaluarea numerică 1, 2, 3, 4).
Caracterele cantitative (cardinale, numerice) sunt numere reale, putem spune despre valorile lor dacă sunt aceleași sau diferite, le putem aranja în ordine și putem determina, de asemenea, cât de mult o valoare este mai mare decât alta. Aceste caractere au, de asemenea, o valoare zero și o unitate de măsură. Caracteristicile cantitative sunt împărțite în:
- - caractere discrete - au un număr finit, dar numărabil de variații și toate variațiile pot fi numerotate cu numerele naturale 1, 2, 3 de exemplu numărul de copii din familie, numărul de puncte din test;
- - continuupersonaje - poate avea valori numerice diferite de la un anumit interval (înălțimea corpului, venitul).
Caracterele intervale (diferențiale) sunt acelea ale căror valori le putem aranja în ordine, putem determina cât de mult o valoare este mai mare decât cealaltă și care sunt diferențele (intervale) între valori, dar nu putem determina de câte ori o valoare este mai mare decât celălalt. Caracterul interval nu are un punct zero natural, dar punctul zero poate fi determinat de comun acord. Prin urmare, valorile de caractere de interval pot fi adăugate sau scăzute, dar nu pot fi multiplicate și împărțite. Ele pot dobândi atât valori pozitive, cât și negative, de exemplu: semnul „temperatura Celsius” are o temperatură convenită de topire a gheții zero.
Caracterele proporționale (proporționale) sunt cazuri speciale de caractere de interval. Ele pot fi aranjate în ordine și putem determina diferențele dintre valori. Au, de asemenea, un punct zero natural, un 0 absolut, ceea ce înseamnă că personajul nu există. Valorile lor nu pot fi negative, pot fi adăugate, scăzute, înmulțite și împărțite. De exemplu, caracterul de vârstă are un zero absolut de 0 ani. Un bărbat de 60 de ani are cu 40 de ani mai mult de 20 de ani și putem spune că el este de 3 ori mai în vârstă decât la douăzeci de ani.
Determinarea valorilor unei caracteristici statistice într-un fișier statistic se numește sondaj statistic. În procesarea datelor statistice, înlocuim adesea caracteristica calitativă cu una cantitativă.
(de exemplu, genul trăsăturii calitative: bărbați = 1, femei = 2).
Se numește un caracter care are o singură valoare fixă constant. Statisticile monitorizează în principal caracterele care au cel puțin două sau mai multe variante. Un astfel de personaj are un nume variabil.
Clasificare statistică
Cel mai bun mod de a simplifica și clarifica datele obținute prin sondaje statistice este de a le organiza în anumite grupuri - clase.
Metoda de aranjare a datelor statistice în anumite grupuri (clase) în funcție de o anumită caracteristică se numește sortare.
clasificare = împărțirea unităților statistice în astfel de grupuri (clase) încât proprietățile caracteristice ale fenomenelor studiate ies în evidență cât mai bine posibil;
caracter de sortare = un caracter statistic care este un criteriu pentru sortarea unui fișier statistic;
clasa = un grup de unități statistice cu aceeași valoare (variantă) a unui caracter.
Exemple de sortare a fișierelor statistice:
- când notăm la școală, distingem între o clasă de unități, o clasă de dubluri, o clasă de trei, .
- clasificarea persoanelor în funcție de nivelul de educație atins - grup cu studii de bază, grup cu studii medii, fără GCSE, grup cu studii medii cu GCSE.
Când o statistică are un număr mic de variații, fiecare dintre variațiile sale reprezintă o clasă separată. Un tabel de distribuție a frecvenței, numit și pentru a prezenta astfel de date tabelul de frecvențe. De obicei este vorba primul pas în procesarea statisticilor.
Distribuția frecvenței - tabelul de frecvențe
Tabelele de frecvență sunt utilizate pentru a afișa date, adică mod clar de organizare a datelor. Statisticile sunt clasificate în clase cu un anumit număr și se creează o distribuție a frecvenței.
Tabelele de frecvență conțin informații:
- - pe valorile monitorizate ale caracterului și pe frecvența apariției acestuia în fișierul statistic (număr absolut), număr ni, indică câte unități ale fișierului statistic aparțin unei clase cu o anumită proprietate sau câte unități ale fișierului au o valoare de caracterx i
- - despre reprezentarea relativă a valorilor caracterelor în fișier (frecvența relativă), = număr vi, indică ce parte a fișierului aparține clasei cu proprietatea dată; este determinată de raportul abundenței absolute ni și domeniul de aplicare al fișierului n.
- - privind includerea valorii individuale a unui personaj în distribuția generală a frecvenței caracterului (frecvență cumulativă)
Numărul de camere de zi din gospodării a fost determinat cu rezultate posibile: 1, 2, 3, 4, 5+ (adică 5 sau mai multe camere). În acest sondaj, 25 de respondenți au fost selectați aleator cu următoarele rezultate, care locuiau în apartamente cu următorul număr de camere: 1, 3, 2, 4, 5+, 2, 3, 2, 5+, 1, 4, 2, 3, 3, 5+, 3, 3, 2, 4, 4, 2, 3, 4, 3, 2
Creați un tabel de distribuție a frecvenței și a frecvenței relative. Încercați o scurtă interpretare a rezultatelor obținute, care va conține cea mai numeroasă și cea mai mică valoare a personajului monitorizat.
Soluția
Marcăm caracterul monitorizat cu simbolul X (numărul de locuințe), care poate lua valorile x i (j = 1, 2, 3, 4, 5+). Notăm numere absolute ni, abundența relativă vj.
Masa: Numere absolute și relative în funcție de numărul de camere de zi
Majoritatea oamenilor trăiesc în gospodării cu trei camere de locuit (32%), în timp ce gospodăriile cu o cameră de zi trăiesc în cei mai puțini oameni (8%).
Înseamnă valori
Cunoaștem două grupuri de bază ale caracteristicilor numerice pentru studiul unei caracteristici statistice:
caracteristicile poziției (centru) - exprimă un anumit nivel de caracter în jurul căruia alte valori ale personajului sunt mai mult sau mai puțin concentrate;
caracteristicile variabilității - exprimă modul în care valorile caracterului elementelor setului diferă de caracteristica de poziție selectată sau una de cealaltă
Caracteristicile poziției (niveluri, centru) - numere care caracterizează așa-numitele „valoarea medie” a caracteristicii statistice observate. Le împărțim în două grupuri de bază:
- medii - pot fi simple sau cântărite
(a) media aritmetică
b) diametrul geometric
c) media armonică
- alte valori medii - mediană, mod
Media aritmetică
Se numește media aritmetică, în limbajul comun in medie, este suma valorilor unui grup de numere împărțit la numărul de numere din grup. Media poate fi înțeleasă ca însumarea unui grup de numere într-un singur număr.
Media aritmetică X exprimă volumul valorilor X în medie pe unitate de fișier. Este definit de relația:
N - intervalul de fișiere,
x i - valoarea caracterului X la unitatea a i-a.
Exemplu
Avem 9 numere în grup: 10, 12, 11, 15, 13, 35, 41, 23, 20. Suma acestor 9 numere este 180. Apoi suma 180 este împărțită la numărul 9 pentru a obține media . Media este 180/9 = 20.
Exemplu
Pe baza rapoartelor statistice privind nașterile și decesele și dosarele privind migrația, Oficiul de Statistică al Republicii Slovace pregătește un bilanț anual al populației Republicii Slovace pentru toate municipalitățile.
Avem numărul mediu (mediu) de rezidenți permanenți în regiuni individuale din Republica Slovacă la 31 decembrie 2018 (pentru o mai bună muncă cu date, numărul de locuitori a fost rotunjit și este dat în mii): Regiunea Bratislava 646, Regiunea Trnava 562, Regiunea Trenčín 588, Regiunea Nitra 679, Regiunea Žilina 691, Regiunea Banská Bystrica 650, Regiunea Prešov 823, Regiunea Košice 798.
Calculați media aritmetică a numărului de locuitori care locuiesc într-o regiune a Republicii Slovace.
Soluția
Înlocuim datele date în formula pentru media aritmetică. Nu trebuie să uităm că vom introduce numere în mii în formulă, astfel încât populația rezultată va fi în mii.
X = (646 + 562 + 588 + 679 + 691 + 650 + 823 + 798)/8 = 679.625 ≐ (aprox.) 680
Putem afirma că în fiecare regiune a Republicii Slovace locuiesc în medie 680 de mii de locuitori.
Media aritmetică (videoclipul ilustrativ poate conține reclame)
În statisticile oficiale, este cel mai frecvent tip de medie medie ponderată, deoarece rareori toate articolele au același sens. Pe media ponderată, fiecare articol luat în considerare este înmulțit cu un număr (pondere) care reflectă importanța relativă a articolului, apoi rezultatul este calculat și apoi împărțit la numărul de articole.
Media aritmetică ponderată X folosim atunci când lucrăm cu un set sortat de valori ale caracterelor X. Pentru a-l calcula folosim relația:
N - intervalul de fișiere,
x i - valoarea caracterului X la unitatea a i-a.
Media ponderată (videoclipul ilustrativ în limba cehă poate conține anunțuri)
Diametru geometric (ilustrarea video poate conține reclame)
Mod
Mo este cea mai comună valoare de caracter X, respectiv, în cazul unui fișier sortat, valoarea cu cea mai mare abundență absolută.
Exemplu
Numărul de camere de zi din gospodării a fost determinat cu rezultate posibile: 1, 2, 3, 4, 5+ (adică 5 sau mai multe camere). În timpul acestui sondaj, 25 de respondenți au fost selectați aleatoriu, fiecare locuind într-un apartament cu un anumit număr de camere (primul locuia într-un apartament cu o cameră, al doilea într-un apartament cu trei camere: 1, 3, 2, 4, 5 +, 2, 3, 2, 5+, 1, 4, 2, 3, 3, 5+, 3, 3, 2, 4, 4, 2, 3, 4, 3, 2
Valoarea 3 este cea mai comună în acest exemplu, ceea ce înseamnă că modul este 3.
Mod (x) = 3, valoarea 3 este cea mai frecventă, apare de până la 8 ori.
Median
Median Pe mine este valoarea care împarte setul de valori detectate în 2 grupuri la fel de numeroase, t. j. grupuri, dintre care primul conține 50% din unitățile statistice având valoarea unui caracter X mai mică decât mediana, a doua conține 50% din unitățile statistice rămase, care au o valoare mai mare decât mediana. Dacă sortăm toate valorile caracterului în funcție de mărime într-o secvență care nu descrește (sau nu crește), atunci mediana va fi valoarea care se află în mijlocul secvenței considerate.
În cazul unui fișier sortat:
și - limita superioară a clasei care precede intervalul media,
N - interval de fișiere,
n1 - numărul tuturor elementelor sub intervalul media,
n2 - numărul de elemente ale intervalului media,
h - lățimea clasei.
Exemplu
Dimensiunile marginilor celor cinci zaruri sunt 6, 8, 9, 10 și 11 (în cm). Determinați valoarea mediană:
(a) pentru suprafața lor,
(b) pentru volumul acestor cuburi.
Soluția
a) Mai întâi calculăm suprafețele (în cm 2) ale cuburilor individuale. Pentru dimensiunile de margine date, acestea sunt egale cu: 216, 384, 486, 600, 726.
Acum este posibil să se determine mediana:
Med (x) = x (n + 1)/2 = x6/2 = x3 = 486, deoarece n este impar.
b) Mai întâi calculăm volumele (în cm 3) ale cuburilor individuale. Pentru dimensiunile date ale marginilor, ele sunt egale treptat cu: 216, 512, 729, 1000, 1331. Acum este posibil să se determine mediana:
Med (x) = x (n + 1)/2 = x6/2 = x3 = 729, deoarece n este impar.
Mod, mediană (ilustrarea video poate conține anunțuri)
Variabilitate
Caracteristicile variabilității (variabilitate, împrăștiere) = numere care indică măsura în care valorile caracterului se abat de la poziția caracteristică selectată sau una de la alta. Acestea includ:
- intervalul de variație
- împrăștiere
- deviație standard
Gama de variații vr este doar o caracteristică aproximativă a variabilității valorilor trăsăturii observate. Este definită ca diferența dintre cele mai mari și cele mai mici valori ale trăsăturii cantitative, t. j. v r = Xmax - Xmin .
Împrăștiere
Împrăștiere δ 2 reprezintă media aritmetică a pătratelor abaterilor de la medie X. Este definit de formula:
În cazul unui fișier sortat, îl calculăm în funcție de relația:
N - interval de fișiere,
m - numărul de clase din fișier,
nj - abundență absolută j-din acea clasă (j = 1, 2, . m),
xj - valoarea caracterului X, care reprezintă j-acea clasă.
Una dintre proprietățile importante ale împrăștierii este:
a) Varianța constantei este egală cu zero.
b) Dacă adăugăm la toate valorile caracterului constant, varianța nu se modifică.
c) Dacă înmulțim toate valorile caracterului cu constanta a, atunci varianța valorilor rezultate este egală cu produsul varianței setului original și pătratul constantei a .
Exemplu
În magazinul de bunuri de uz casnic, au primit un lot de 18 mături, în timp ce măturile aveau lungimea prescrisă de 120 cm. Cu toate acestea, măsurătorile au arătat că lungimile reale sunt după cum urmează:
117, 122, 125, 118, 119, 120, 122, 123, 116, 117, 121, 120, 123, 120, 119, 121, 124, 115.
Cu siguranță împrăștierea măturilor.
Soluția
Mai întâi calculăm media:
X = (117 + 122 + 125 + 118 +. + 121 + 124 + 115)/18 = 2162/18 = 120.1
Înlocuind în formulă calculăm varianța:
Varianța rezultată este de 6,69.
Scatter (videoclipul ilustrativ poate conține reclame)
Introducere în varianță și deviație standard (videoclipul ilustrativ poate conține reclame)
Abaterea standard (standard) δ este definit ca δ = √δ 2 și indică modul în care mediile dintr-un set dat deviază valorile caracterelor de media aritmetică.
Abaterea standard (videoclipul ilustrativ poate conține reclame)