retipărită din https://blog.cloudera.com/blog/2015/12/common-probability-distributions-the-data-scientists-crib-sheet/
cercetătorii de date au sute de distribuții de probabilitate din care să aleagă. De unde să încep?
știința datelor, oricare ar fi ea, rămâne o afacere mare. „Un om de știință de date este mai bun la statistici decât orice inginer de software”, puteți auzi un pundit spunând, la întâlnirile și hackathoanele dvs. locale de tehnologie. Matematicienii aplicati s-au razbunat, pentru ca statistica nu s-a mai vorbit despre asta din anii ‘ 20., Ei au propria lor legitimare Venn diagrama de care oamenii nu fac haz. Dintr-o dată e vorba de tine, inginer, a plecat din chat despre intervalele de încredere în loc de reprosuri de la analiștii care nu au auzit niciodată de Apache Bikeshed proiect pentru distribuit comentariu de formatare. Pentru a vă integra, pentru a fi din nou viața și sufletul acelei petreceri, aveți nevoie de un curs intensiv în statistici. Nu suficient pentru a obține dreptul, dar suficient pentru a suna ca ai putea, făcând observații de bază.distribuțiile de probabilitate sunt fundamentale pentru statistici, la fel cum structurile de date sunt pentru informatică., Ei sunt locul pentru a începe studierea dacă vrei să vorbești ca un om de știință de date. Uneori poți scăpa cu o simplă analiză folosind R sau scikit-învăț fără înțelegere destul de distribuții, doar ca tine poate gestiona un program Java, fără a înțelege funcțiile hash. Dar se va termina în curând în lacrimi, bug-uri, rezultate false sau mai rău: suspine și ochi-rulare din statistici majore.există sute de distribuții de probabilitate, unele sunând ca monștri din legenda medievală, cum ar fi Muth sau Lomax. Doar aproximativ 15 distribuții apar în mod constant în practică., Ce sunt acestea și ce idei inteligente despre fiecare dintre ele ar trebui să memorați?
lucrurile se întâmplă tot timpul: zarurile sunt rulate, plouă, sosesc autobuzele. După fapt, rezultatele specifice sunt sigure: zarurile au venit 3 și 4, a existat o jumătate de inch de ploaie astăzi, autobuzul a luat 3 minute pentru a ajunge. Înainte, putem vorbi doar despre cât de probabile sunt rezultatele. Distribuțiile de probabilitate descriu ceea ce credem că probabilitatea fiecărui rezultat este, ceea ce este uneori mai interesant de știut decât pur și simplu care rezultat unic este cel mai probabil., Ele vin în mai multe forme, dar într-o singură dimensiune: probabilități într-o distribuție adăuga întotdeauna până la 1.de exemplu, răsturnarea unei monede corecte are două rezultate: aterizează capete sau cozi. (Presupunem că nu poate ateriza pe margine sau poate fi furat de un pescăruș în aer.) Înainte de flip, noi credem că există o șansă de 1 în 2, sau 0.5 probabilitate, de capete. Același lucru este valabil și pentru cozi. Aceasta este o distribuție de probabilitate pe cele două rezultate ale flip-ului, și dacă puteți urma această propoziție, ați stăpânit deja distribuția Bernoulli.,în ciuda denumirilor exotice, distribuțiile comune se referă între ele în moduri intuitive și interesante care le fac ușor de reamintit și de remarcat cu un aer de autoritate. Mai multe urmează în mod natural din distribuția Bernoulli, de exemplu. Este timpul pentru a descoperi o hartă a relațiilor.,
Fiecare distribuție este ilustrat de un exemplu de densitate de probabilitate (PDF). Acest post se ocupă numai cu distribuții de rezultate care sunt numere unice. Deci, axa orizontală din fiecare casetă este setul de rezultate numerice posibile. Axa verticală descrie probabilitatea rezultatelor., Unele distribuții sunt discrete, peste rezultatele care trebuie să fie întregi ca 0 sau 5. Acestea apar ca linii rare, câte una pentru fiecare rezultat, unde înălțimea liniei este probabilitatea acelui rezultat. Unele sunt continue, pentru rezultate care pot lua orice valoare numerică reală, cum ar fi -1.32 sau 0.005. Acestea apar ca curbe dense, unde zonele de sub secțiuni ale curbei dau probabilități. Sumele înălțimilor liniilor și zonele de sub curbe sunt întotdeauna 1.imprimați, tăiați de-a lungul liniei punctate și luați-o cu dvs. în portofel sau în geantă., Acesta este ghidul dvs. de teren pentru distribuțiile spotting și rudele lor.
Bernoulli și Uniform
ați întâlnit distribuția Bernoulli de mai sus, pe două rezultate discrete — cozi sau capete. Gândiți-vă, totuși, ca o distribuție peste 0 și 1, peste 0 capete (adică cozi) sau 1 capete. Mai sus, ambele rezultate au fost la fel de probabile și asta este ilustrat în diagramă. Bernoulli PDF are două linii de înălțime egală, reprezentând cele două rezultate la fel de probabile de 0 și 1 la fiecare capăt.,distribuția Bernoulli ar putea reprezenta rezultate care nu sunt la fel de probabile, cum ar fi rezultatul unei aruncări nedrepte a monedelor. Apoi, probabilitatea capetelor nu este 0.5, ci o altă valoare p, iar probabilitatea cozilor este 1-p.ca multe distribuții, este de fapt o familie de distribuții definite de parametri, cum ar fi p aici. Când crezi că „Bernoulli,” cred că doar „(eventual nedrept) moneda toss.”
este un salt scurt pentru a vă imagina o distribuție pe multe rezultate la fel de probabile: distribuția uniformă, caracterizată prin PDF-ul său plat. Imaginați-vă de rulare un mor echitabil., Rezultatele de la 1 la 6 sunt la fel de probabile. Acesta poate fi definit pentru orice număr de rezultate n sau chiar ca o distribuție continuă.
asociați distribuția uniformă cu ” rolling a fair die.”
Binomial și Hipergeometric
distribuția binomială poate fi considerată ca suma rezultatelor lucrurilor care urmează unei distribuții Bernoulli. Aruncați o monedă corectă de 20 de ori; de câte ori apare capul? Acest număr este un rezultat care urmează distribuția binomială. Parametrii săi sunt n, numărul de încercări și p, probabilitatea unui „succes” (aici: capete sau 1)., Fiecare flip este un rezultat distribuit de Bernoulli sau proces. Ajungeți la distribuția binomială atunci când numărați numărul de succese în lucrurile care acționează ca un flip de monede, unde fiecare flip este independent și are aceeași probabilitate de succes.sau, imaginați-vă o urnă cu un număr egal de bile albe și negre. Închideți ochii și trageți o minge și notați dacă este negru, apoi puneți-o înapoi. Repet. De câte ori ai desenat o bilă neagră? Acest număr urmează, de asemenea, o distribuție binomială.,
imaginarea acestei situații ciudate are un punct, deoarece face simplă explicarea distribuției hipergeometrice. Aceasta este distribuția aceluiași număr dacă bilele au fost extrase fără înlocuire. În mod incontestabil, este un văr al distribuției binomiale, dar nu același lucru, deoarece probabilitatea de succes se schimbă pe măsură ce bilele sunt eliminate. Dacă numărul de bile este mare în raport cu numărul de extrageri, distribuțiile sunt similare, deoarece șansa de succes se schimbă mai puțin cu fiecare extragere.,când oamenii vorbesc despre culesul bilelor din urne fără înlocuire, este aproape întotdeauna sigur să intervii, „distribuția hipergeometrică, da”, pentru că nu am întâlnit niciodată pe cineva care a umplut urnele cu bile și apoi le-a ales și le-a înlocuit sau altfel, în viața reală. (Nici măcar nu cunosc pe nimeni care deține o urnă.) Mai pe larg, ar trebui să vină în minte atunci când alegeți un subset semnificativ al unei populații ca eșantion.cum rămâne cu numărul de clienți care apelează o linie telefonică de asistență în fiecare minut?, Acesta este un rezultat a cărui distribuție sună binom, dacă vă gândiți la fiecare secundă ca la un proces Bernoulli în care un client nu sună (0) sau nu (1). Cu toate acestea, după cum știe compania de energie electrică, atunci când puterea se stinge, 2 sau chiar sute de oameni pot apela în aceeași secundă. Vizualizarea acestuia ca 60.000 de studii de dimensiuni milisecunde încă nu rezolvă problema — multe alte încercări, o probabilitate mult mai mică de apel 1, Să nu mai vorbim de 2 sau mai multe, dar încă nu este tehnic un proces Bernoulli. Cu toate acestea, luând acest lucru la concluzia sa infinită, logică funcționează., Lăsați n să meargă la infinit și lăsați p să meargă la 0 pentru a se potrivi, astfel încât np să rămână la fel. Acest lucru este ca și cum ne îndreptăm spre infinit de multe felii de timp infinitezimal mici, în care probabilitatea unui apel este infinitezimală. Rezultatul limitativ este distribuția Poisson.ca și distribuția binomială, distribuția Poisson este distribuția unui număr — numărul de ori sa întâmplat ceva. Este parametrizat nu printr-o probabilitate p și numărul de încercări n, ci printr-o rată medie λ, care în această analogie este pur și simplu valoarea constantă a np., Distribuția Poisson este ceea ce trebuie să vă gândiți atunci când încercați să numărați evenimentele într-un timp, având în vedere rata continuă a evenimentelor care apar.când lucruri precum pachetele ajung la routere sau clienții ajung la un magazin sau lucrurile așteaptă într-un fel de coadă, gândiți-vă „Poisson.”
binomul Geometric și negativ
Din studiile simple Bernoulli apare o altă distribuție. De câte ori o monedă răsturnată vine cozi înainte de a veni mai întâi capete? Acest număr de cozi urmează o distribuție geometrică., Ca și distribuția Bernoulli, este parametrizată de p, probabilitatea acelui succes final. Nu este parametrizat de n, un număr de încercări sau răsturnări, deoarece numărul de încercări de eșec este rezultatul în sine.dacă distribuția binomului este ” Câte succese?”atunci distribuția geometrică este” Câte eșecuri până la un succes?distribuția binomială negativă este o generalizare simplă. Este numărul de eșecuri până când au avut loc succese r, nu doar 1. Prin urmare, este parametrizat și de r. uneori este descris ca numărul de succese până la eșecurile R., După cum spune antrenorul meu de viață, succesul și eșecul sunt ceea ce le definiți a fi, deci acestea sunt echivalente, atâta timp cât vă păstrați drept dacă p este probabilitatea de succes sau eșec.
Dacă aveți nevoie de un spărgător de gheață, ați putea sublinia că distribuțiile binomiale și hipergeometrice sunt o pereche evidentă, dar distribuțiile binomiale geometrice și negative sunt, de asemenea, destul de similare și apoi spuneți: „Vreau să spun, cine numește aceste lucruri, am dreptate?”
exponențial și Weibull
înapoi la apelurile de asistență pentru clienți: cât timp până la următorul client sună?, Distribuția acestui timp de așteptare pare a fi geometrică, deoarece fiecare secundă pe care nimeni nu o sună este ca un eșec, până la o secundă în care în sfârșit apelează un client. Numărul de eșecuri este ca numărul secundelor pe care nimeni nu le-a sunat și acesta este aproape timpul de așteptare până la următorul apel, dar aproape că nu este suficient de aproape. Captura de data aceasta este că suma va fi întotdeauna în secunde întregi, dar acest lucru nu reușește să țină cont de așteptarea în acea secundă până când clientul a sunat în cele din urmă.,ca și înainte, luați distribuția geometrică la limită, spre felii de timp infinitezimale și funcționează. Obțineți distribuția exponențială, care descrie cu exactitate distribuția timpului până la un apel. Este o distribuție continuă, prima întâlnită aici, deoarece timpul de rezultat nu trebuie să fie secunde întregi. Ca și distribuția Poisson, este parametrizată de o rată λ.reiterând relația binomial-geometrică, Poisson ” câte evenimente pe timp?”se referă la exponențială” cât timp până la un eveniment?,”Având în vedere evenimentele al căror număr pe timp urmează o distribuție Poisson, atunci timpul dintre evenimente urmează o distribuție exponențială cu același parametru de rată λ. Această corespondență între cele două distribuții este esențială pentru a verifica numele atunci când se discută oricare dintre ele.distribuția exponențială ar trebui să vină în minte atunci când ne gândim la „timp până la eveniment”, poate „timp până la eșec.”De fapt, acest lucru este atât de important încât există distribuții mai generale pentru a descrie timpul până la eșec, cum ar fi distribuția Weibull., În timp ce distribuția exponențială este adecvată atunci când rata — de uzură sau eșec, de exemplu — este constantă, distribuția Weibull poate modela creșterea (sau scăderea) ratelor de eșec în timp. Exponențialul este doar un caz special.gândiți-vă la” Weibull ” atunci când chatul se transformă în timp până la eșec.
Normal, Log-Normal, Student ‘ s t și Chi-squared
distribuția normală sau distribuția Gaussiană este poate cea mai importantă dintre toate. Forma sa de clopot este recunoscută instantaneu., Ca și e, este o entitate ciudată care apare peste tot, din surse aparent simple. Luați o grămadă de valori urmând aceeași distribuție — orice distribuție — și însumați-le. Distribuția sumei lor urmează (aproximativ) distribuția normală. Cu cât sunt însumate mai multe lucruri, cu atât distribuția sumei lor se potrivește cu distribuția normală. (Avertismente: trebuie să fie o distribuție bine comportată, trebuie să fie independentă, tinde doar spre distribuția normală.) Faptul că acest lucru este adevărat, indiferent de distribuția de bază este uimitor.,aceasta se numește teorema limitei centrale și trebuie să știți că așa se numește și ce înseamnă, sau veți fi imediat heckled.în acest sens, se referă la toate distribuțiile. Cu toate acestea, este în special legată de distribuțiile de sume de lucruri. Suma studiilor Bernoulli urmează o distribuție binomială, și ca numărul de studii crește, că distribuția binomială devine mai mult ca distribuția normală. Vărul său distribuția hipergeometrică nu prea., Distribuția Poisson — o formă extremă de Binom — se apropie, de asemenea, de distribuția normală pe măsură ce crește parametrul ratei.
un rezultat care urmează o distribuție log-normal preia valori al căror logaritm este distribuit în mod normal. Sau: exponentierea unei valori distribuite în mod normal este distribuită în mod normal în jurnal. Dacă sumele de lucruri sunt distribuite în mod normal, amintiți-vă că produsele lucrurilor sunt distribuite în mod normal.distribuția t a studenților este baza testului t pe care mulți non-statisticieni îl învață în alte științe., Este folosit în raționamentul despre Media unei distribuții normale și, de asemenea, se apropie de distribuția normală pe măsură ce parametrul său crește. Caracteristica distinctivă a distribuției t sunt cozile sale, care sunt mai grase decât distribuția normală.
dacă anecdota cu coada grasă nu este suficient de fierbinte pentru a-ți uimi vecinul, du-te la povestea ei ușor interesantă cu privire la bere. Cu peste 100 de ani în urmă, Guinness folosea statistici pentru a face mai bine stout. Acolo, William Sealy Gosset a dezvoltat o teorie cu totul nouă a statisticilor doar pentru a crește orz mai bun., Gosset l-a convins pe șef că ceilalți producători de bere nu și-au dat seama cum să folosească ideile și astfel au primit permisiunea de a publica, dar numai sub numele de stilou „Student”. Cel mai cunoscut rezultat al lui Gosset este această distribuție t, care este numită după el.în cele din urmă, distribuția chi-pătrat este distribuția sumei pătratelor valorilor distribuite în mod normal. Este distribuția care stă la baza testului chi-pătrat, care se bazează pe suma pătratelor diferențelor, care se presupune că sunt distribuite în mod normal.,
Gamma și Beta
în acest moment, dacă vorbești despre ceva chi-pătrat, atunci conversația a devenit serioasă. Probabil că vorbiți cu statisticienii actuali și poate doriți să vă scuzați în acest moment, deoarece pot apărea lucruri precum distribuția gamma. Este o generalizare a distribuțiilor exponențiale și chi-pătrat. Mai mult ca distribuția exponențială, este folosit ca un model sofisticat de timpi de așteptare. De exemplu, distribuția gamma apare atunci când se modelează timpul până la apariția următoarelor evenimente N., Apare în învățarea automată ca „conjugat anterior” la o distribuție de cuplu.
nu intrați în acea conversație despre antecedentele conjugate, dar dacă o faceți, asigurați-vă că sunteți pe cale să vorbiți despre distribuția beta, deoarece este conjugatul înainte de majoritatea celorlalte distribuții menționate aici. În ceea ce privește oamenii de știință de date, pentru asta a fost construit. Menționați acest lucru ocazional și deplasați-vă spre ușă.
începutul înțelepciunii
distribuțiile de probabilitate sunt ceva despre care nu puteți ști prea multe., Cei cu adevărat interesați ar trebui să verifice această hartă incredibil de detaliată a tuturor distribuțiilor univariate. Sperăm că acest ghid anecdotic vă oferă încrederea de a apărea în cunoștință de cauză și cu ea în cultura tehnologică de astăzi. Sau cel puțin, o modalitate de a detecta, cu mare probabilitate, când ar trebui să găsești o petrecere de cocktail mai puțin tocilară.