Semnificație statistică: definiție, concept, semnificație, ecuații de regresie și testarea ipotezelor. Nivel de semnificație statistică (p)

Fiabilitatea statistică este esențială în practica de calcul a FCC. S-a remarcat anterior că mai multe eșantioane pot fi selectate din aceeași populație:

Dacă sunt selectați corect, atunci indicatorii lor medii și indicatorii populației generale diferă ușor unul de celălalt în ceea ce privește amploarea erorii de reprezentativitate, ținând cont de fiabilitatea acceptată;

Dacă sunt selectați din populații diferite, diferența dintre ele se dovedește a fi semnificativă. Statistica se referă la compararea eșantioanelor;

Dacă diferă nesemnificativ, neprincipal, nesemnificativ, adică aparțin de fapt aceleiași populații generale, diferența dintre ele se numește nesigură din punct de vedere statistic.

Fiabil statistic O diferență de eșantion este un eșantion care diferă semnificativ și fundamental, adică aparține unor populații generale diferite.

La FCC, evaluarea semnificației statistice a diferențelor de eșantion înseamnă rezolvarea multor probleme practice. De exemplu, introducerea de noi metode de predare, programe, seturi de exerciții, teste, exerciții de control este asociată cu testarea lor experimentală, care ar trebui să arate că grupul de testare este fundamental diferit de grupul de control. Prin urmare, se folosesc metode statistice speciale, numite criterii de semnificație statistică, pentru a detecta prezența sau absența unei diferențe semnificative statistic între eșantioane.

Toate criteriile sunt împărțite în două grupe: parametrice și neparametrice. Criteriile parametrice necesită prezența unei legi de distribuție normală, i.e. Aceasta înseamnă determinarea obligatorie a principalelor indicatori ai legii normale - media aritmetică și abaterea standard s. Criteriile parametrice sunt cele mai exacte și corecte. Testele neparametrice se bazează pe diferențele de rang (ordinale) dintre elementele eșantionului.

Iată principalele criterii de semnificație statistică utilizate în practica FCC: testul Student și testul Fisher.

Testul t al elevului numit după omul de știință englez K. Gosset (Student – ​​pseudonim), care a descoperit această metodă. Testul t al lui Student este parametric și este folosit pentru a compara valorile absolute ale probelor. Probele pot varia în dimensiune.

Testul t al elevului este definit astfel.

1. Găsiți testul t Student prin următoarea formulă:


unde sunt mediile aritmetice ale eșantioanelor comparate; t 1, t 2 - erori de reprezentativitate identificate pe baza indicatorilor eșantioanelor comparate.

2. Practica la FCC a arătat că pentru munca sportivă este suficient să acceptăm fiabilitatea contului P = 0,95.

Pentru fiabilitatea numărării: P = 0,95 (a = 0,05), cu numărul de grade de libertate

k = n 1 + n 2 - 2 din tabelul din Anexa 4 găsim valoarea valorii limită a criteriului ( t gr).

3. Pe baza proprietăților legii distribuției normale, criteriul Student compară t și t gr.

Tragem concluzii:

dacă t t gr, atunci diferența dintre probele comparate este semnificativă statistic;

dacă t t gr, atunci diferența este nesemnificativă statistic.

Pentru cercetătorii din domeniul FCS, evaluarea semnificației statistice este primul pas în rezolvarea unei probleme specifice: dacă eșantioanele comparate sunt fundamental sau nu fundamental diferite unele de altele. Următorul pas este evaluarea acestei diferențe din punct de vedere pedagogic, care este determinat de condițiile sarcinii.

Să luăm în considerare aplicarea testului Student folosind un exemplu specific.

Exemplul 2.14. Un grup de 18 subiecți a fost evaluat pentru ritmul cardiac (bpm) înainte de x i și după y euîncălzire.

Evaluați eficacitatea încălzirii pe baza ritmului cardiac. Datele și calculele inițiale sunt prezentate în tabel. 2.30 și 2.31.

Tabelul 2.30

Procesarea indicatorilor de ritm cardiac înainte de încălzire


Erorile pentru ambele grupuri au coincis, deoarece dimensiunile eșantionului sunt egale (același grup este studiat la conditii diferite), iar abaterile standard au fost s x = s y = 3 bătăi/min. Să trecem la definirea testului Studentului:

Am stabilit fiabilitatea contului: P = 0,95.

Numărul de grade de libertate k 1 = n 1 + n 2 - 2 = 18 + 18-2 = 34. Din tabelul din Anexa 4 găsim t gr= 2,02.

Inferență statistică. Deoarece t = 11,62, iar limita t gr = 2,02, atunci 11,62 > 2,02, i.e. t > t gr, prin urmare diferența dintre eșantioane este semnificativă statistic.

Concluzie pedagogică. S-a constatat că în ceea ce privește ritmul cardiac diferența dintre starea grupului înainte și după încălzire este semnificativă statistic, adică. semnificativ, fundamental. Deci, pe baza indicatorului de ritm cardiac, putem concluziona că încălzirea este eficientă.

Criteriul Fisher este parametrica. Este utilizat la compararea ratelor de dispersie a probei. Aceasta înseamnă de obicei o comparație în ceea ce privește stabilitatea performanței sportive sau stabilitatea indicatorilor funcționali și tehnici în practică cultura fizica si sport. Probele pot fi de diferite dimensiuni.

Criteriul Fisher este definit în următoarea secvență.

1. Găsiți criteriul Fisher F folosind formula


unde , sunt variațiile eșantioanelor comparate.

Condiţiile criteriului Fisher prevăd că în numărătorul formulei F există o dispersie mare, adică numărul F este întotdeauna mai mare decât unu.

Setăm fiabilitatea numărării: P = 0,95 - și determinăm numărul de grade de libertate pentru ambele eșantioane: k 1 = n 1 - 1, k 2 = n 2 - 1.

Folosind tabelul din Anexa 4, găsim valoarea limită a criteriului F gr.

Compararea criteriilor F și F gr ne permite să formulăm concluzii:

dacă F > F gr, atunci diferența dintre eșantioane este semnificativă statistic;

dacă F< F гр, то различие между выборками статически недо­стоверно.

Să dăm un exemplu concret.

Exemplul 2.15. Să analizăm două grupuri de jucători de handbal: x i (n 1= 16 persoane) și y i (n 2 = 18 persoane). Aceste grupuri de sportivi au fost studiate pentru timpul (orele) de decolare la aruncarea mingii în poartă.

Indicatorii de repulsie sunt de același tip?

Datele inițiale și calculele de bază sunt prezentate în tabel. 2.32 și 2.33.

Tabelul 2.32

Prelucrarea indicatorilor de repulsie ai primului grup de handbalisti


Să definim criteriul Fisher:





Conform datelor prezentate în tabelul din Anexa 6, găsim Fgr: Fgr = 2,4

Să acordăm atenție faptului că în tabelul din Anexa 6 sunt enumerate numerele de grade de libertate de dispersie mai mare și mai mică atunci când se apropie numere mari devine mai dur. Astfel, numărul de grade de libertate al dispersiei mai mari urmează în această ordine: 8, 9, 10, 11, 12, 14, 16, 20, 24 etc., iar cel mai mic - 28, 29, 30, 40 , 50 etc. d.

Acest lucru se explică prin faptul că, pe măsură ce dimensiunea eșantionului crește, diferențele în testul F scad și este posibil să se utilizeze valori tabelare care sunt apropiate de datele originale. Deci, în exemplul 2.15 =17 este absent și valoarea cea mai apropiată de acesta poate fi luată ca k = 16, din care obținem Fgr = 2,4.

Inferență statistică. Deoarece testul lui Fisher F= 2,5 > F= 2,4, eșantioanele se pot distinge semnificativ statistic.

Concluzie pedagogică. Valorile timpului (timpului) de decolare la aruncarea mingii în poartă pentru jucătorii de handbal din ambele grupe diferă semnificativ. Aceste grupuri ar trebui considerate diferite.

Cercetările ulterioare ar trebui să dezvăluie motivul acestei diferențe.

Exemplul 2.20.(privind fiabilitatea statistică a eșantionului ). Calificările jucătorului de fotbal s-au îmbunătățit dacă timpul (timpul) de la darea semnalului până la lovirea mingii la începutul antrenamentului a fost x i , iar la sfârșit y i .

Datele inițiale și calculele de bază sunt date în tabel. 2.40 și 2.41.

Tabelul 2.40

Prelucrarea indicatorilor de timp de la darea unui semnal până la lovirea mingii la începutul antrenamentului


Să determinăm diferența dintre grupurile de indicatori folosind criteriul Studentului:

Cu fiabilitate P = 0,95 și grade de libertate k = n 1 + n 2 - 2 = 22 + 22 - 2 = 42, folosind tabelul din Anexa 4 găsim t gr= 2,02. Deoarece t = 8,3 > t gr= 2,02 - diferența este semnificativă statistic.

Să determinăm diferența dintre grupurile de indicatori folosind criteriul lui Fisher:


Conform tabelului din Anexa 2, cu fiabilitate P = 0,95 și grade de libertate k = 22-1 = 21, valoarea F gr = 21. Deoarece F = 1,53< F гр = = 2,1, различие в рассеивании исходных данных статистически недостоверно.

Inferență statistică. Conform mediei aritmetice, diferența dintre grupurile de indicatori este semnificativă statistic. În ceea ce privește dispersia (dispersia), diferența dintre grupurile de indicatori este nesigură din punct de vedere statistic.

Concluzie pedagogică. Calificările fotbalistului s-au îmbunătățit semnificativ, dar trebuie acordată atenție stabilității mărturiei sale.

Pregătirea pentru muncă

Înainte de a efectua acest lucru de laborator la disciplina „Metrologie sportivă” tuturor elevilor grup de studiu este necesar să se formeze echipe de lucru a câte 3-4 elevi în fiecare, pentru a finaliza împreună sarcina de lucru a tuturor lucrărilor de laborator.

În pregătire pentru muncă citiți secțiunile relevante din literatura recomandată (vezi secțiunea 6 a datelor instrucțiuni metodologice) și note de curs. Studiați secțiunile 1 și 2 pentru această lucrare de laborator, precum și sarcina de lucru pentru aceasta (secțiunea 4).

Pregătiți un formular de raport pe foi standard de hârtie de scris format A4 și umpleți-o cu materialele necesare lucrării.

Raportul trebuie să conțină :

Prima pagină cu indicarea catedrei (UC și TR), grupa de studiu, numele de familie, prenumele, patronimul studentului, numărul și titlul lucrării de laborator, data finalizării acesteia, precum și numele de familie; grad academic, titlul academic și funcția profesorului care acceptă postul;

Scopul lucrării;

Formule cu valori numerice care explică rezultatele intermediare și finale ale calculelor;

Tabele de valori măsurate și calculate;

Solicitat prin atribuire material grafic;

Scurte concluzii asupra rezultatelor fiecărei etape a sarcinii de lucru și asupra muncii efectuate în general.

Toate graficele și tabelele sunt desenate cu atenție folosind instrumente de desen. Simbolurile grafice și litere convenționale trebuie să respecte GOST-urile. Este permisă întocmirea unui raport folosind tehnologia computerizată.

Misiunea de lucru

Înainte de a lua toate măsurătorile, fiecare membru al echipei trebuie să studieze regulile de utilizare a îmbrăcămintei sport. Jocuri cu darts, prezentate în Anexa 7, care sunt necesare pentru realizarea următoarelor etape de cercetare.

Etapa I a cercetării„Cercetați rezultatele atingerii unei ținte joc sportiv Darts de fiecare membru al echipei pentru respectarea legii normale de distributie conform criteriului χ 2 Pearson și criteriul trei sigma"

1. măsoară (testează) viteza (personală) și coordonarea acțiunilor, prin aruncarea săgeților de 30-40 de ori către o țintă circulară în jocul sportiv Darts.

2. Rezultatele măsurătorilor (testelor) x i(în pahare) formulați sub forma unei serii de variații și introduceți în tabelul 4.1 (coloanele, completați toate calculele necesare, completați tabelele necesare și trageți concluziile corespunzătoare cu privire la conformitatea distribuției empirice rezultate cu legea distribuției normale, prin analogie cu calcule similare, tabelele și concluziile exemplului 2.12, date în secțiunea 2 din prezentele ghiduri de la paginile 7 -10.

Tabelul 4.1

Corespondența vitezei și coordonării acțiunilor subiecților cu legea distribuției normale

Nu. rotunjite
Total

II – etapa cercetării

„Evaluarea indicatorilor medii ai populației generale de lovituri pe ținta jocului sportiv Darts a tuturor elevilor din grupa de studiu pe baza rezultatelor măsurătorilor membrilor unei echipe”

Evaluați indicatorii medii de viteză și coordonare a acțiunilor tuturor elevilor din grupa de studiu (conform listei grupei de studiu din revista clasă) pe baza rezultatelor lovirii țintei Darts a tuturor membrilor echipei, obținute în prima etapă de cercetare a acestei lucrări de laborator.

1. Documentați rezultatele măsurătorilor vitezei și coordonării acțiunilor atunci când aruncați săgeți către o țintă circulară în jocul sportiv Săgețile tuturor membrilor echipei dvs. (2 - 4 persoane), care reprezintă un eșantion de rezultate de măsurare din populația generală (rezultate de măsurare a tuturor elevilor dintr-un grup de studiu - de exemplu, 15 persoane), introducându-le în coloana a doua și a treia Tabelul 4.2.

Tabelul 4.2

Prelucrarea indicatorilor de viteză și coordonarea acțiunilor

membrii brigadei

Nu.
Total

În tabelul 4.2 de mai jos ar trebui înțeles , scor mediu egal (vezi rezultatele calculului în tabelul 4.1) membrii echipei tale ( , obţinute în prima etapă a cercetării. Trebuie remarcat faptul că, de regulă, Tabelul 4.2 conține valoarea medie calculată a rezultatelor măsurătorilor obținute de un membru al echipei în prima etapă a cercetării , deoarece probabilitatea ca rezultatele măsurătorilor diferiților membri ai echipei să coincidă este foarte mică. Apoi, de regulă, valorile în coloană Tabelul 4.2 pentru fiecare rând - egal cu 1, O în rândul „Total " coloane " ", este scris numărul de membri ai echipei dvs.

2. Efectuați toate calculele necesare pentru a completa Tabelul 4.2, precum și alte calcule și concluzii similare calculelor și concluziilor din exemplul 2.13 prezentate în secțiunea a 2-a a acestei dezvoltări metodologice la paginile 13-14. Trebuie avut în vedere atunci când se calculează eroarea de reprezentativitate "m" este necesar să se utilizeze formula 2.4 dată la pagina 13 a acestei dezvoltări metodologice, întrucât eșantionul este mic (n, iar numărul de elemente ale populației generale N este cunoscut și este egal cu numărul de elevi din grupa de studiu, conform listei revistei grupului de studiu.

III – etapa cercetării

Evaluarea eficacității încălzirii conform indicatorului „Viteza și coordonarea acțiunilor” de către fiecare membru al echipei folosind testul t al Studentului

Pentru a evalua eficacitatea încălzirii pentru aruncarea săgeților la ținta jocului sportiv „Darts”, efectuat în prima etapă a cercetării acestei lucrări de laborator, de către fiecare membru al echipei conform indicatorului „Viteză și coordonarea acțiunilor”, folosind criteriul Student - un criteriu parametric pentru fiabilitatea statistică a legii distribuției empirice la legea distribuției normale.

… Total

2. variaţiile și RMS , rezultatele măsurătorilor indicatorului „Viteza și coordonarea acțiunilor” pe baza rezultatelor încălzirii, prezentate în tabelul 4.3, (vezi calcule similare date imediat după tabelul 2.30 al exemplului 2.14 de la pagina 16 a acestei dezvoltări metodologice).

3. Fiecare membru al echipei de lucru măsoară (testează) viteza (personală) și coordonarea acțiunilor după încălzire,

… Total

5. Efectuați calcule medii variaţiile și RMS ,rezultatele măsurătorii indicatorului „Viteza și coordonarea acțiunilor” după încălzire, prezentate în tabelul 4.4, notați rezultatul general al măsurătorii pe baza rezultatelor încălzirii (vezi calcule similare date imediat după tabelul 2.31 din exemplul 2.14 de la pagina 17 a acestei dezvoltări metodologice).

6. Efectuați toate calculele și concluziile necesare similare calculelor și concluziilor din exemplul 2.14 prezentate în secțiunea a 2-a a acestei dezvoltări metodologice la paginile 16-17. Trebuie avut în vedere atunci când se calculează eroarea de reprezentativitate "m" este necesar să se utilizeze formula 2.1 dată la pagina 12 a acestei dezvoltări metodologice, deoarece eșantionul este n, iar numărul de elemente din populația N ( este necunoscut.

IV – etapa cercetării

Evaluarea uniformității (stabilității) indicatorilor „Viteza și coordonarea acțiunilor” a doi membri ai echipei folosind criteriul Fisher

Evaluați uniformitatea (stabilitatea) indicatorilor „Viteza și coordonarea acțiunilor” a doi membri ai echipei utilizând criteriul Fisher, pe baza rezultatelor măsurătorilor obținute la a treia etapă a cercetării în cadrul acestei lucrări de laborator.

Pentru a face acest lucru, trebuie să faceți următoarele.

Folosind datele din tabelele 4.3 și 4.4, rezultatele calculării variațiilor din aceste tabele obținute la a treia etapă a cercetării, precum și metodologia de calcul și aplicare a criteriului Fisher de evaluare a uniformității (stabilității) indicatorilor de sport, date în exemplul 2.15 de la paginile 18-19 din această dezvoltare metodologică, trageți concluziile statistice și pedagogice adecvate.

V – stadiul cercetării

Evaluarea grupurilor de indicatori „Viteza și coordonarea acțiunilor” ale unui membru al echipei înainte și după încălzire

Cel mai recent, Vladimir Davydov a scris o postare pe facebook despre testarea A/B sau MVT, care a ridicat o mulțime de întrebări.

De obicei, efectuarea de teste A/B sau MVT pe site-uri web este un lucru foarte dificil. Deși „landerilor” li se pare că acest lucru este elementar, pentru că „asta este la fel, există programe speciale, concert.”

Dacă decideți să testați conținutul web, rețineți:

1. Mai întâi trebuie să izolați un public egal, egal, egal. Efectuați teste A/A. Marea majoritate a testelor efectuate de agenții online sau agenți de marketing pe internet fără experiență sunt incorecte. Tocmai pentru că conținutul este testat pe diferite audiențe.

2. Efectuați zeci sau mai bine încă sute de teste pe parcursul mai multor luni. Nu merită să testați 2-3 versiuni ale unei pagini timp de o săptămână.

3. Amintiți-vă că puteți testa și în format MVT (adică multe opțiuni), și nu doar A și B.

4. Analizați statistic matricea de date cu rezultatele testelor (Excel este absolut bine, puteți utiliza și SPSS). Sunt rezultatele în marja de eroare, cât de mult se abate și cum depind de timp? Dacă, de exemplu, în primul punct al testului A/A ați primit abateri puternice ale unei opțiuni de la alta, acesta este un eșec și nu puteți testa mai departe.

5. Nu este nevoie să testați totul. Acesta nu este divertisment (cu excepția cazului în care nu aveți nimic altceva de făcut). Are sens să testați doar ceea ce, din punct de vedere al marketingului și al analizei de afaceri, poate duce la rezultate notabile. Și, de asemenea, ceva din care rezultatele pot fi măsurate efectiv. De exemplu, ați decis să măriți dimensiunea fontului pe site, ați testat o pagină cu un font mai mare timp de câteva săptămâni - vânzările au crescut. Ce înseamnă acest lucru? Nu este nimic pentru mine (vezi paragrafele anterioare).

6. Trebuie testate căi întregi. Adică nu este suficient să luați și să testați pagina de achiziție (sau vreo acțiune pe site) - trebuie să testați acele pagini și pași care duc la această pagină de conversie finală.

Întrebarea a fost pusă în comentarii:

„Cum să determinăm câștigătorul? Aici am testat titlul pe o pagină care vinde „direct”. Ce diferență de conversie trebuie să existe între A și B pentru a declara un câștigător?

Răspunsul lui Vladimir:

În primul rând, trebuie să efectuați experimente izolate pe termen lung (regula de bază a oricărei evaluări statistice). În al doilea rând, totul se reduce inevitabil la statistică și matematică (de aceea recomand excel și spss sau analogi gratuiti. Trebuie să calculăm probabilitatea de încredere că diferența de valori înseamnă ceva). Mânca bun articol(unul dintre multele). Acolo preiau tranzacții de la GA pe baza testelor Optimizelyhttps://www.distilled.net/uploads/ga_transactions.png , comparați tranzacțiile (cumpărările) cu distribuția obișnuită și vedeți dacă media se încadrează în interval interval de încredere erorihttps://www.distilled.net/uploads/t-test_tool.png

Doriți să primiți o ofertă de la noi?

Începeți cooperarea

Rolul semnificației statistice în creșterea conversiilor: 6 lucruri pe care trebuie să le știți

1. Exact ce înseamnă

„Schimbarea ne-a permis să obținem o creștere cu 20% a conversiei cu un nivel de încredere de 90%. Din păcate, această afirmație nu este deloc echivalentă cu alta, foarte asemănătoare: „Șansele de a crește conversia cu 20% sunt de 90%. Deci despre ce este vorba de fapt?

20% este o creștere pe care am înregistrat-o pe baza rezultatelor testelor pe una dintre probe. Dacă am începe să fantezim și să speculăm, ne-am putea imagina că această creștere ar putea persista permanent – ​​dacă am continua testarea la nesfârșit. Dar asta nu înseamnă că cu o probabilitate de 90% vom obține o creștere de douăzeci la sută a conversiei, sau o creștere de „cel puțin” 20%, sau „aproximativ” 20%.


90% este probabilitatea oricărei modificări a conversiei. Cu alte cuvinte, dacă am rulat zece teste A/B pentru a obține acest rezultat și am decis să rulăm toate cele zece la infinit, atunci unul dintre ele (deoarece probabilitatea de schimbare este de 90%, atunci rămâne 10% pentru rezultatul neschimbat) va probabil, ar ajunge să aducă rezultatul „post-test” mai aproape de conversia inițială – adică fără modificare. Dintre celelalte nouă teste, unele ar putea prezenta o creștere cu mult mai mică de 20%. În altele, rezultatul ar putea depăși acest bar.

Dacă interpretăm greșit aceste date, ne asumăm un mare risc prin „dezvoltarea” testului. Este ușor să fii entuziasmat atunci când un test arată rate de conversie ridicate cu un nivel de încredere de 95%, dar este înțelept să nu te aștepți la prea mult până când testul este dus la concluzia sa logică.

2. Când să utilizați

Cei mai evidenti candidati sunt testele separate A/B, dar sunt departe de a fi singurii. De asemenea, puteți testa diferențele semnificative statistic între segmente (de exemplu, vizitele din căutarea organică versus cea plătită) sau perioadele de timp (de exemplu, aprilie 2013 și aprilie 2014).

Cu toate acestea, este de remarcat faptul că această corelație nu implică cauzalitate. Când rulăm teste divizate, știm că putem atribui orice modificări ale rezultatelor elementelor care diferențiază paginile - deoarece atenție deosebită se are grijă să se asigure că restul paginilor sunt complet identice. Dacă comparați grupuri, cum ar fi vizitatorii care provin din căutarea organică și plătită, orice alți factori pot intra în joc - de exemplu, din căutarea organică pot fi multe vizite pe timp de noapte, iar rata de conversie în rândul vizitatorilor peste noapte este destul de mare. Testele de semnificație pot ajuta la determinarea dacă există un motiv pentru o schimbare, dar nu pot spune care este motivul.

3. Cum să testați modificările ratelor de conversie, ratelor de respingere și ratelor de ieșire

Când ne uităm la „indicatori”, ne uităm cu adevărat la mediile variabilelor binare – cineva fie a finalizat acțiunile țintă, fie nu. Dacă avem un eșantion de 10 persoane cu o rată de conversie de 40%, ne uităm de fapt la un tabel ca acesta:

Avem nevoie de acest tabel, împreună cu media, pentru a calcula abaterea standard, o componentă cheie a semnificației statistice. Cu toate acestea, faptul că fiecare valoare din tabel este fie un zero, fie unul, ne face mai ușor - putem evita să copiem o listă uriașă de numere folosind un calculator de încredere pentru testul A/B și pornind de la cunoașterea mediei și dimensiunile mostrelor. Acesta este un instrument de la KissMetrics.

(Important! Acest instrument ține cont doar de o parte a distribuției de probabilitate în calculele sale. Pentru a utiliza ambele părți și a converti rezultatul în semnificație cu două fețe, trebuie să dublați distanța de la 100% - de exemplu, unilateral 95 % devine cu două fețe 90%).

Deși descrierea spune „Instrument de validitate a testului A/B”, poate fi folosit și pentru orice altă comparație de valori - doar înlocuiți conversia cu rata de respingere sau de ieșire. În plus, poate fi folosit pentru a compara segmente sau perioade de timp - calculele vor fi aceleași.

Este, de asemenea, potrivit pentru testarea multivariată (MVT) - doar comparați fiecare modificare individual cu cea originală.

4. Cum să testați modificările în factura medie

Pentru a testa mijloacele variabilelor non-binare, avem nevoie de setul complet de date, așa că lucrurile devin puțin mai complicate aici. De exemplu, dorim să stabilim dacă există o diferență semnificativă în valoarea medie a comenzii pentru un test de împărțire A/B - acest punct este adesea omis în optimizarea conversiilor, deși pentru indicatorii de afaceri este la fel de important ca conversia în sine.

Primul lucru de care avem nevoie este să obținem de la Google Analytics lista completa tranzacții pentru fiecare opțiune de testare - pentru A și B (a fost, a devenit). Cel mai simplu mod Modul de a face acest lucru este să creați segmente personalizate bazate pe variabile personalizate pentru testul divizat și apoi să exportați raportul tranzacției într-o foaie de calcul Excel. Asigurați-vă că toate tranzacțiile sunt incluse acolo, nu doar cele 10 rânduri implicite.

Când aveți două liste de tranzacții, le puteți copia într-un instrument ca acesta:

În cazul de mai sus, nu avem un nivel de încredere la nivelul ales de 95%. De fapt, dacă ne uităm la scorul p de deasupra graficului de jos de 0,63, este clar că nu avem nici măcar 50% semnificație - există o șansă de 63% ca diferența dintre scorurile paginii să se datoreze exclusiv întâmplării.

5. Cum să preziceți durata necesară a unui test divizat A/B

Evanmiller.org are un alt instrument la îndemână pentru optimizarea conversiilor: un calculator pentru dimensiunea eșantionului.

Acest instrument vă permite să răspundeți la întrebarea „Cât timp va dura pentru a obține rezultate fiabile ale testelor?”, iar acest răspuns nu merită încercat să ghiciți.

Există câteva lucruri care merită remarcate. În primul rând, instrumentul are un comutator absolut/relativ - dacă doriți să aflați diferența dintre o rată de conversie de bază de 5% și o rată de conversie variabilă de 6%, aceasta va fi de 1% absolut (6-5=1) sau 20 % în termeni relativi (6/5=1,2). În al doilea rând, în partea de jos a paginii există două „cursoare”. Cel de jos este responsabil pentru nivelul necesar de semnificație - dacă obiectivul dvs. este să obțineți o semnificație de 95%, atunci glisorul ar trebui să fie setat la 5%. Glisorul de sus arată probabilitatea ca numărul de vizite necesare unei pagini să fie suficient - de exemplu, dacă doriți să aflați numărul de vizite necesare pentru a obține o șansă de optzeci la sută de a găsi o semnificație de 95%, setați glisorul de sus la 80% și glisorul de jos la 5%.

6. Ce să nu faci

Există mai multe moduri simple de a identifica inadecvarea unui test divizat, care, totuși, nu sunt întotdeauna evidente la prima vedere:

A) Testarea divizată a valorilor ordinale nebinare

De exemplu, scopul tău este să afli dacă diferenta semnificativa probabilitatea ca vizitatorii din grupurile „inițiale” și „după modificări” să cumpere anumite produse. Etichetați cele trei produse „1”, „2” și „3” și apoi introduceți aceste valori în câmpurile de testare a semnificației. Din păcate, această abordare nu va funcționa - produsul 2 nu este media produselor 1 și 3.

B) Setări de distribuție a traficului

La începutul testului, decideți să nu vă asumați riscuri și setați distribuția traficului la 90/10. După ceva timp, vedeți că modificarea nu a dus la o schimbare vizibilă a conversiei și mutați glisorul la 50/50. Dar vizitatorii care revin încă aparțin grupului lor inițial, așa că ajungeți într-o situație în care versiunea „pre-modificare” are o proporție mai mare de vizitatori care revin care prezintă o probabilitate mare de conversie. Lucrurile se complică foarte repede și singura modalitate simplă de a obține date pe care te poți baza este să te uiți separat la vizitatorii noi și cei care revin. Cu toate acestea, în acest caz, va dura mai mult pentru a obține rezultate semnificative. Și chiar dacă ambele subgrupuri arată rezultate semnificative, ce se întâmplă dacă unul dintre ei generează de fapt mai mulți vizitatori care revin? În general, nu este nevoie să faceți acest lucru și să schimbați distribuția traficului în timpul testului.

B) Planificare

Pare evident, dar nu compara datele colectate la aceeași oră a zilei cu datele colectate în timpul zilei sau în alte momente ale zilei. Dacă doriți să testați pentru un anumit moment al zilei, aveți două opțiuni.

1. Gestionați cererile vizitatorilor pe tot parcursul zilei ca de obicei, dar arătați-le versiunea originală a paginii într-un moment al zilei în care nu sunteți interesat.

2. Comparați mere cu mere – Dacă vă uitați doar la datele de modificare pentru prima jumătate a zilei, comparați-le cu datele originale pentru prima jumătate a zilei.

Sper că unele dintre cele de mai sus sunt utile în optimizarea ratelor de conversie. Dacă aveți propriile cunoștințe, vă rugăm să le împărtășiți în comentarii.

FIABILITATE STATISTICĂ

- engleză credibilitate/validitate, statistic; german Validitate, statistische. Consecvența, obiectivitatea și lipsa de ambiguitate într-un test statistic sau într-un q.l. set de măsurători. D. s. poate fi testat prin repetarea aceluiași test (sau chestionar) pe același subiect pentru a vedea dacă se obțin aceleași rezultate; sau prin compararea diferitelor părți ale unui test care ar trebui să măsoare același obiect.

antinazi. Enciclopedia Sociologiei, 2009

Vedeți ce înseamnă „FIABILITATE STATISTICĂ” în alte dicționare:

    FIABILITATE STATISTICĂ- engleză credibilitate/validitate, statistic; german Validitate, statistische. Consecvența, obiectivitatea și lipsa de ambiguitate într-un test statistic sau într-un q.l. set de măsurători. D. s. poate fi verificat prin repetarea aceluiași test (sau... Dicţionarîn Sociologie

    În statistică, o valoare este numită semnificativă din punct de vedere statistic dacă probabilitatea apariției ei întâmplătoare sau chiar valori mai extreme este scăzută. Aici, prin extremă, înțelegem gradul de abatere a statisticilor testului de la ipoteza nulă. Diferența se numește... ...Wikipedia

    Fenomenul fizic al stabilității statistice este că, pe măsură ce dimensiunea eșantionului crește, frecvența unui eveniment aleatoriu sau valoarea medie mărime fizică tinde spre un număr fix. Fenomenul statisticilor... ... Wikipedia

    FIABILITATEA DIFERENȚELOR (Asemănări)- procedură statistică analitică de stabilire a nivelului de semnificație a diferențelor sau asemănărilor dintre eșantioane în funcție de indicatorii (variabilele) studiați... Modern proces educațional: concepte și termeni de bază

    RAPORTARE, STATISTICĂ Marele dicţionar de contabilitate

    RAPORTARE, STATISTICĂ- o formă de observație statistică de stat, în care autoritățile relevante primesc de la întreprinderi (organizații și instituții) informațiile de care au nevoie sub forma unor documente de raportare legal stabilite ( rapoarte statistice) pentru... Dicționar economic mare

    Știința care studiază tehnicile de observare sistematică a fenomenelor de masă viata sociala oameni, alcătuind descrierile lor numerice și prelucrarea științifică a acestor descrieri. Astfel, statistica teoretică este o știință... ... Dicţionar Enciclopedic F. Brockhaus și I.A. Efron

    Coeficientul de corelare- (Coeficientul de corelație) Coeficientul de corelație este un indicator statistic al dependenței a doi variabile aleatoare Definirea coeficientului de corelație, tipuri de coeficienți de corelație, proprietăți ale coeficientului de corelație, calcul și aplicare... ... Enciclopedia investitorilor

    Statistici- (Statistică) Statistica este o știință teoretică generală care studiază schimbările cantitative în fenomene și procese. Statistica de stat, servicii de statistică, Rosstat (Goskomstat), date statistice, statistici interogări, statistici vânzări,... ... Enciclopedia investitorilor

    Corelaţie- (Corelație) Corelația este o relație statistică între două sau mai multe variabile aleatoare Conceptul de corelație, tipuri de corelație, coeficient de corelație. analiza corelației, corelație de preț, corelare perechi valutare pe Conținutul Forex... ... Enciclopedia investitorilor

Cărți

  • Cercetare în matematică și matematică în cercetare: Culegere metodologică privind activitățile de cercetare studenților, Borzenko V.I.. Colecția prezintă evoluții metodologice, aplicabil în organizarea activităților de cercetare a studenților. Prima parte a colecției este dedicată aplicării unei abordări de cercetare în...

Semnificația statistică sau nivelul p de semnificație este principalul rezultat al testului

ipoteza statistica. În termeni tehnici, aceasta este probabilitatea de a primi un dat

rezultatul unui studiu prin eșantion, cu condiția ca de fapt pentru general

În total, ipoteza statistică nulă este adevărată - adică nu există nicio legătură. Cu alte cuvinte, asta

probabilitatea ca relația detectată să fie aleatorie și nu o proprietate

totalitate. Este semnificația statistică, nivelul p de semnificație, adică

evaluarea cantitativă a fiabilității comunicării: cu cât această probabilitate este mai mică, cu atât conexiunea este mai fiabilă.

Să presupunem că, la compararea a două medii de eșantion, s-a obținut o valoare de nivel

semnificație statistică p=0,05. Aceasta înseamnă că testarea ipotezei statistice despre

egalitatea de mijloace în populație a arătat că dacă este adevărat, atunci probabilitatea

Apariția aleatorie a diferențelor detectate nu este mai mare de 5%. Cu alte cuvinte, dacă

două probe au fost extrase în mod repetat din aceeași populație, apoi în 1 din

20 de cazuri ar dezvălui aceeași diferență sau mai mare între mediile acestor eșantioane.

Adică există o șansă de 5% ca diferențele găsite să se datoreze întâmplării.

caracter și nu sunt o proprietate a agregatului.

Referitor la ipoteza stiintifica nivelul de semnificație statistică este unul cantitativ

un indicator al gradului de neîncredere în concluzia despre existența unei legături, calculat din rezultate

testarea selectivă, empirică a acestei ipoteze. Cum valoare mai mică p-level, cu atât mai mare

semnificația statistică a unui rezultat al cercetării care confirmă o ipoteză științifică.

Este util să știm ce influențează nivelul de semnificație. Nivel de semnificație, toate celelalte lucruri fiind egale

condițiile sunt mai mari (valoarea nivelului p este mai mică) dacă:

Mărimea conexiunii (diferența) este mai mare;

Variabilitatea trăsăturii (trăsăturii) este mai mică;

Dimensiunea(ele) eșantionului este mai mare.

Unilateral Teste de semnificație bilaterală

Dacă scopul studiului este de a identifica diferențele în parametrii a doi generali

agregate care corespund diverselor sale conditii naturale (condiţiile de viaţă,

vârsta subiecților etc.), atunci nu se știe adesea care dintre acești parametri va fi mai mare și

Care este mai mic?

De exemplu, dacă sunteți interesat de variabilitatea rezultatelor într-un test și

grupuri experimentale, atunci, de regulă, nu există încredere în semnul diferenței de varianțe sau

abaterile standard ale rezultatelor prin care se evaluează variabilitatea. În acest caz

ipoteza nulă este că varianțele sunt egale, iar scopul studiului este

demonstra contrariul, adică. prezența diferențelor între varianțe. Este permis ca

diferența poate fi de orice semn. Astfel de ipoteze se numesc cu două fețe.

Dar uneori provocarea este de a dovedi o creștere sau o scădere a unui parametru;

de exemplu, rezultatul mediu în grupul experimental este mai mare decât în ​​grupul martor. În același timp

Nu mai este permis ca diferența să fie de alt semn. Astfel de ipoteze se numesc

Unilateral.

Se numesc teste de semnificație utilizate pentru a testa ipotezele cu două fețe

Face-verso, iar pentru unilateral - unilateral.

Se pune întrebarea ce criteriu trebuie ales într-un caz dat. Răspuns

Această întrebare este dincolo de formală metode statistice si complet

Depinde de scopurile studiului. În niciun caz nu trebuie să alegeți unul sau altul criteriu după

Efectuarea unui experiment bazat pe analiza datelor experimentale, după caz

Duce la concluzii incorecte. Dacă, înainte de a efectua un experiment, se presupune că diferența

Parametrii comparați pot fi fie pozitivi, fie negativi, atunci ar trebui

Ipotezele sunt testate folosind analize statistice. Semnificația statistică este găsită folosind valoarea P, care corespunde probabilității unui eveniment dat presupunând că o afirmație (ipoteza nulă) este adevărată. Dacă valoarea P este mai mică decât un nivel specificat de semnificație statistică (de obicei 0,05), experimentatorul poate concluziona în siguranță că ipoteza nulă este falsă și poate continua să ia în considerare ipoteza alternativă. Folosind testul t al lui Student, puteți calcula valoarea P și puteți determina semnificația pentru două seturi de date.

Pași

Partea 1

Stabilirea experimentului

    Definiți-vă ipoteza. Primul pas în evaluarea semnificației statistice este să alegeți întrebarea la care doriți să răspundeți și să formulați o ipoteză. O ipoteză este o afirmație despre datele experimentale, distribuția și proprietățile lor. Pentru orice experiment, există atât o ipoteză nulă, cât și una alternativă. În general, va trebui să comparați două seturi de date pentru a determina dacă sunt similare sau diferite.

    • Ipoteza nulă (H 0) afirmă de obicei că nu există nicio diferență între două seturi de date. De exemplu: acei elevi care citesc materialul înainte de curs nu primesc note mai mari.
    • Ipoteza alternativă (H a) este opusul ipotezei nule și este o afirmație care trebuie susținută de date experimentale. De exemplu: acei elevi care citesc materialul înainte de oră obțin note mai mari.
  1. Setați nivelul de semnificație pentru a determina cât de mult trebuie să difere distribuția datelor față de normal pentru ca aceasta să fie considerată un rezultat semnificativ. Nivel de semnificație (numit șiα (\displaystyle \alpha)

    • -level) este pragul pe care îl definiți pentru semnificația statistică. Dacă valoarea P este mai mică sau egală cu nivelul de semnificație, datele sunt considerate semnificative statistic. Nivel de semnificație (numit și De regulă, nivelul de semnificație (valoarea
    • ) este considerată a fi 0,05, caz în care probabilitatea de a detecta o diferență aleatorie între diferite seturi de date este de numai 5%.
    • Cu cât nivelul de semnificație este mai mare (și, în consecință, cu cât valoarea P este mai mică), cu atât rezultatele sunt mai fiabile.
    • Dacă doriți rezultate mai fiabile, reduceți valoarea P la 0,01. De obicei, valorile P mai mici sunt utilizate în producție atunci când este necesar să se identifice defectele produselor. În acest caz, este necesară o fiabilitate ridicată pentru a vă asigura că toate piesele funcționează conform așteptărilor.
  2. Pentru majoritatea experimentelor de ipoteză, un nivel de semnificație de 0,05 este suficient. Decideți ce criteriu veți folosi: unilateral sau cu două fețe. Una dintre ipotezele testului t Student este că datele sunt distribuite în mod normal. Distribuția normală este o curbă în formă de clopot cu număr maxim

    • rezultă în mijlocul curbei. Testul t al lui Student este o metodă matematică de testare a datelor care vă permite să determinați dacă datele se încadrează în afara distribuției normale (mai mult, mai puțin sau în „cozile” curbei).
    • Dacă nu sunteți sigur dacă datele sunt deasupra sau sub valorile grupului de control, utilizați un test cu două cozi. Acest lucru vă va permite să determinați semnificația în ambele direcții.
  3. Dacă știți în ce direcție datele ar putea cădea în afara distribuției normale, utilizați un test cu o singură coadă. În exemplul de mai sus, ne așteptăm ca notele elevilor să crească, așa că poate fi folosit un test cu o singură coadă. Puterea statistică a unui studiu este probabilitatea ca, având în vedere dimensiunea eșantionului, să se obțină rezultatul așteptat. Un prag de putere comun (sau β) este de 80%. Analiza puterii statistice fără date anterioare poate fi o provocare, deoarece necesită unele informații despre mediile așteptate în fiecare grup de date și abaterile standard ale acestora. Utilizați un calculator online de analiză a puterii pentru a determina dimensiunea optimă a eșantionului pentru datele dvs.

    • De obicei, cercetătorii efectuează un mic studiu pilot care furnizează date pentru analiza statistică a puterii și determină dimensiunea eșantionului necesară pentru un studiu mai mare și mai complet.
    • Dacă nu puteți efectua un studiu pilot, încercați să estimați posibile medii pe baza literaturii de specialitate și a rezultatelor altor persoane. Acest lucru vă poate ajuta să determinați dimensiunea optimă a eșantionului.

    Partea 2

    Calcula abaterea standard
    1. Scrieți formula pentru abaterea standard. Abaterea standard arată cât de multă răspândire există în date. Vă permite să concluzionați cât de apropiate sunt datele obținute dintr-un anumit eșantion. La prima vedere, formula pare destul de complicată, dar explicațiile de mai jos vă vor ajuta să o înțelegeți. Formula este următoarea: s = √∑((x i – µ) 2 /(N – 1)).

      • s - abaterea standard;
      • semnul ∑ indică faptul că toate datele obținute din eșantion trebuie adăugate;
      • x i corespunde valorii i-a, adică un rezultat separat obţinut;
      • µ este valoarea medie pentru un grup dat;
      • N este numărul total de date din eșantion.
    2. Găsiți media în fiecare grupă. Pentru a calcula abaterea standard, trebuie mai întâi să găsiți media pentru fiecare grup de studiu. Valoarea medie este indicată cu litera greacă µ (mu). Pentru a găsi media, adunați pur și simplu toate valorile rezultate și împărțiți-le la cantitatea de date (dimensiunea eșantionului).

      • De exemplu, pentru a găsi nota medie pentru un grup de studenți care învață înainte de oră, luați în considerare un mic set de date. Pentru simplitate, folosim un set de cinci puncte: 90, 91, 85, 83 și 94.
      • Să adunăm toate valorile împreună: 90 + 91 + 85 + 83 + 94 = 443.
      • Să împărțim suma la numărul de valori, N = 5: 443/5 = 88,6.
      • Astfel, media pentru acest grup este de 88,6.
    3. Scădeți fiecare valoare obținută din medie. Următorul pas este de a calcula diferența (x i – µ). Pentru a face acest lucru, scădeți din găsit dimensiune medie fiecare valoare primită. În exemplul nostru, trebuie să găsim cinci diferențe:

      • (90 – 88,6), (91 – 88,6), (85 – 88,6), (83 – 88,6) și (94 – 88,6).
      • Ca rezultat, obținem următoarele valori: 1,4, 2,4, -3,6, -5,6 și 5,4.
    4. Patratează fiecare valoare obținută și adună-le. Fiecare dintre cantitățile tocmai găsite ar trebui să fie pătrată. La acest pas toată lumea va dispărea valori negative. Dacă după acest pas mai ai numere negative, ceea ce înseamnă că ai uitat să le pătrați.

      • Pentru exemplul nostru, obținem 1,96, 5,76, 12,96, 31,36 și 29,16.
      • Adunăm valorile rezultate: 1,96 + 5,76 + 12,96 + 31,36 + 29,16 = 81,2.
    5. Împărțiți la dimensiunea eșantionului minus 1.În formulă, suma se împarte la N – 1 datorită faptului că nu luăm în calcul populația generală, ci luăm un eșantion din toți elevii pentru evaluare.

      • Scăderea: N – 1 = 5 – 1 = 4
      • Împărțire: 81,2/4 = 20,3
    6. Elimina rădăcină pătrată. După ce împărțiți suma la dimensiunea eșantionului minus unu, luați rădăcina pătrată a valorii găsite. Acesta este ultimul pas în calcularea abaterii standard. Există programe statistice care, după introducerea datelor inițiale, efectuează toate calculele necesare.

      • În exemplul nostru, abaterea standard a notelor acelor elevi care citesc materialul înainte de oră este s =√20,3 = 4,51.

      Partea 3

      Determinați semnificația
      1. Calculați varianța dintre cele două grupuri de date.Înainte de acest pas, ne-am uitat la un exemplu pentru un singur grup de date. Dacă doriți să comparați două grupuri, ar trebui, evident, să luați date de la ambele grupuri. Calculați abaterea standard pentru al doilea grup de date și apoi găsiți varianța dintre cele două grupuri experimentale. Varianta se calculează folosind următoarea formulă: s d = √((s 1 /N 1) + (s 2 /N 2)).

Vizualizări