Vanlige sannsynlighetsfordelinger: Data Forsker Crib Sheet

Gjengitt fra https://blog.cloudera.com/blog/2015/12/common-probability-distributions-the-data-scientists-crib-sheet/

Data som forskere har hundrevis av sannsynlighetsfordelinger som å velge. Hvor du skal begynne?

Data vitenskap, uansett hva det kan være, er en big deal. «En data forskeren er bedre på statistikken enn noen programvare ingeniør,» kan du høre en ekspert si, på ditt lokale tech sammenkomster og hackathons. Den anvendte matematikere har sin hevn, fordi statistikken ikke har vært snakket om siden den brølende 20s., De har sine egne legitimerer Venn-diagram for folk som ikke gjør det gøy. Plutselig er det du, ingeniør, venstre ut av chat-om konfidensintervallene i stedet for tutting ved analytikere som aldri har hørt om the Apache Bikeshed prosjekt for distribuert kommentar formatering. For å passe inn i, til å være liv og sjel i at partiet igjen, du trenger et lynkurs i statistikk. Ikke nok til å få det riktig, men nok til å høres ut som du kan, ved å gjøre grunnleggende observasjoner.

sannsynlighetsfordelinger er grunnleggende statistikk, akkurat som data strukturer er til computer science., De er stedet å begynne å studere hvis du mener å snakke som en data-forsker. Noen ganger kan du komme unna med enkle analyser ved hjelp av R-eller scikit-lære uten helt å forstå distribusjoner, akkurat som du kan administrere et Java-program uten å forstå hash-funksjoner. Men det skulle snart ende i tårer, bugs, falske resultater, eller enda verre: sukk og øye-rullende fra statistikk hovedfag.

Det er hundrevis av sannsynlighetsfordelinger, noen høres ut som monstre fra middelalderen legende som Muth eller Sikten. Bare om lag 15 distribusjoner slå opp konsekvent i praksis om., Hva er de, og hva smart innsikt om hver av dem bør du huske?

Ting skjer hele tiden: terningen er kastet, det regner, buss kommer. Etter det faktum, er de spesifikke resultatene er sikkert: dice kom opp 3 og 4, var det en halv tomme av regn i dag, bussen tok 3 minutter å komme. Før, vi kan bare snakke om hvor sannsynlig det er at resultatene er. Sannsynlighetsfordelinger for å beskrive det vi tror sannsynligheten for hvert utfall er, som noen ganger er mer interessant å vite enn bare som enkelt utfall er mest sannsynlig., De kommer i mange former, men bare i én størrelse: sannsynligheter i en fordeling alltid legge opp til 1.

For eksempel, å snu en rettferdig mynt har to utfall: den lander krone eller mynt. (Antar det kan ikke lande på kanten eller bli stjålet av en måke i luften.) Før de snur, tror vi det er en 1 i 2 sjansen, eller 0,5 sannsynlighet for hodet. Det samme er sant for mynt. Det er en sannsynlighetsfordeling over to utfall av klaffen, og hvis du kan følge den setningen, har du allerede mestret Bernoulli distribusjon.,

til Tross for eksotiske navn, er det vanlig å distribusjoner forholder seg til hverandre i intuitive og interessante måter som gjør dem lett å huske, og anmerkning på med en aura av autoritet. Flere følger naturlig fra Bernoulli distribusjon, for eksempel. Det er tid for å avsløre et kart over relasjoner.,

Vanlige sannsynlighetsfordelinger og noen viktige relasjoner

Hver fordelingen er illustrert ved et eksempel av sin sannsynlighetstetthetsfunksjonen (PDF). Dette innlegget omhandler bare med fordelingen av resultater som er enkle tall. Så, den horisontale aksen i hver boks er det sett av mulige numeriske resultater. Den vertikale aksen beskriver sannsynligheten for utfall., Noen distribusjoner er diskret, over utfall som må være heltall som 0 eller 5. Disse vises som spredte linjer, en for hvert utfall, hvor linje høyde er sannsynligheten for at utfallet. Noen er kontinuerlig, for resultater som kan ta på seg noen reell numerisk verdi som -1.32 eller 0.005. Disse vises som tette kurver, hvor det er områder under punkt på kurven som gir sannsynligheter. Det summer av høyder av linjer, og arealer under kurver, er alltid 1.

skriv Ut, klippe langs den stiplede linjen, og ta det med deg i lommeboken eller vesken., Dette er feltet guide til spotting-distribusjoner, og deres slektninger.

Bernoulli og Uniform

Du møtte Bernoulli distribusjon over, over to diskrete utfall — mynt eller krone. Tenk over det, men som en fordeling over 0 og 1, over 0 hoder (dvs. mynt) eller 1 krone. Ovenfor, både resultatet var like sannsynlige, og det er det som er illustrert i diagrammet. Den Bernoulli PDF har to linjer med lik høyde, som representerer to like sannsynlige utfall av 0 og 1 i hver ende.,

Bernoulli distribusjon vil kunne representere utfall som ikke er like sannsynlige, som følge av en urettferdig myntkast. Så sannsynligheten for at du får krone er ikke 0.5, men noen andre verdi p, og sannsynligheten for mynt er 1-p. Som mange distribusjoner, det er egentlig en familie av inntekt er definert av parametre, som p her. Når du tenker «Bernoulli,» tenk «(kanskje urettferdig) myntkast.»

Det er en kort hoppe å forestille seg en fordeling over mange like sannsynlig utfall: uniform fordeling, preget av sin flate PDF. Tenk deg å rulle en virkelig dø., Resultatene 1 til 6 er like sannsynlige. Det kan defineres for en rekke utfall n eller som en kontinuerlig fordeling.

Knytte jevn fordeling med «rolling en virkelig dø.»

Binomiske og Hypergeometric

Den binomiske fordelingen kan ses på som summen av utfallet av ting som følger en Bernoulli-distribusjon. Kast en mynt 20 ganger, hvor mange ganger kommer den opp hoder? Denne tellingen er et utfall som følger den binomiske fordelingen. Parametrene er n, antall studier, og p er sannsynligheten for en «suksess» (her: hoder, eller 1)., Hver vippe er en Bernoulli-fordelt utfallet, eller prøve. Nå for binominal distribusjon ved å telle antall suksesser i ting som fungerer som en mynt flip, hvor hver klaffen er selvstendig, og har den samme sannsynlighet for suksess.

Eller, tenk deg en urne med likt antall hvite og svarte kuler. Lukk øynene og trekke en ball og legg merke til om det er svart, og deretter sette den tilbake. Gjenta. Hvor mange ganger har du tegne en svart ball? Dette count følger også en binominal distribusjon.,

Forestille denne merkelige situasjonen har et poeng, fordi det gjør det enkelt å forklare hypergeometric distribusjon. Dette er fordelingen av den samme count hvis ballene ble trukket uten erstatning i stedet. Unektelig det er en fetter til den binomiske fordelingen, men ikke det samme, fordi sannsynligheten for suksess endringer som ballene er fjernet. Hvis antall baller som er stor i forhold til antall drag, den fordelingen er lik fordi sjansen for å lykkes mindre endringer med hver trekning.,

Når folk snakker om å plukke baller fra urner uten erstatning, er det nesten alltid trygt å skyte, «den hypergeometric distribusjon, ja,» fordi jeg har aldri møtt noen som faktisk fylt urner med baller og deretter plukket dem ut, og erstattet dem eller på annen måte, i det virkelige liv. (Jeg vet ikke engang alle som eier en urn.) Mer generelt, bør det kommer til tankene når plukke ut en betydelig undergruppe av en befolkning som et eksempel.

Poisson

Hva om antall kunder som ringer en støtte hotline hvert minutt?, Det er et utfall som distribusjon lyder binomial, hvis du tror at for hvert sekund som en Bernoulli-rettssaken der en kunde ikke ring (0) eller ikke (1). Men, som den makten selskapet vet, når strømmen går, 2 eller til og med hundrevis av folk kan ringe i samme sekund. Ser på det som 60,000 millisekund-størrelse studier fortsatt ikke komme rundt problemet — mange flere prøvelser, mye mindre sannsynlighet for 1 ring, la alene 2 eller mer, men fortsatt ikke teknisk sett en Bernoulli rettssaken. Imidlertid ta dette til det uendelige, logiske konklusjon fungerer., La n gå til infinity og la p gå til 0 til kamp slik at np forblir den samme. Dette er som går mot uendelig mange infinitesimally liten tid skiver som sannsynligheten for at en samtale er uendelig liten størrelse. Den begrensende resultatet er Poisson-fordelingen.

Som den binomiske fordeling, Poisson-distribusjon distribusjon av en ant — antall ganger skjedde det noe. Det er parameterized ikke med sannsynlighet p og antall forsøk n, men med en gjennomsnittlig pris λ, som i denne analogien er rett og slett den konstante verdien av np., Den Poisson-distribusjonen er hva du må tenke på når du prøver å telle hendelser over tid gitt kontinuerlig frekvensen av hendelser.

Når ting som pakker ankomme på rutere, eller kunder kommer til en butikk, eller ting vent i noen form for kø, tenker «Poisson.»

Geometriske og Negativ Binomial

Fra enkle Bernoulli forsøk oppstår en annen fordeling. Hvor mange ganger har snudd en mynt komme opp med halen før det første som kommer opp hoder? Denne telling av mynt følger en geometrisk distribusjon., Som Bernoulli distribusjon, det er parameterized av p, sannsynligheten for at endelige suksess. Det er ikke parameterized av n, en rekke studier eller vipper, fordi antall feil studier er resultatet selv.

Dersom den binomiske fordelingen er «Hvor mange suksesser?»da geometriske distribusjonen er «Hvor mange feil til en suksess?»

Den negative binomiske fordelingen er en enkel generalisering. Det er mange feil til r suksesser har skjedd, og ikke bare 1. Det er derfor parameterized også etter r. Noen ganger er det beskrevet som antall suksesser til r feil., Som min trener sier, suksess og fiasko er hva du definerer dem å være, slik disse er tilsvarende, så lenge du holde rett om p er sannsynligheten for suksess eller fiasko.

Hvis du trenger en ice-breaker, kan du peke på at den binomiske og hypergeometric utdelinger er en åpenbar par, men den geometriske og negative binomiske fordelingen er også ganske lik, og deretter si, «jeg mener, som navn på disse tingene, er jeg rett?»

Eksponential-og Weibull

Tilbake til kunden støtte anrop: hvor lenge før neste kunde ringer?, Fordelingen av denne ventetiden høres ut som det kunne være geometriske, fordi hvert sekund på at ingen samtaler er som en fiasko, til en ny som til slutt en kunde ringer. Antall feil er som antall sekunder som ingen ringte, og det er nesten ventetiden til neste anrop, men nesten er ikke nær nok. Fangst denne gangen er at summen vil alltid være i hele sekunder, men dette mislykkes å ta hensyn til de vente i den andre til kunden endelig kalt.,

Som før, ta den geometriske distribusjonen til grensen mot uendelige lite tid skiver, og det fungerer. Du får den eksponentielle fordelingen, som nøyaktig beskriver fordelingen av tid til en samtale. Det er en kontinuerlig fordeling, den først har oppstått her, fordi utfallet tid trenger ikke å være hele sekunder. Som Poisson-distribusjonen, det er parameterized av en pris λ.

som et Ekko av den binomiske-geometriske forhold, Poisson ‘ s «Hvor mange hendelser per time?»er knyttet til den eksponentielle er «Hvor lenge før et arrangement?,»Gitt hendelser som teller per gang, følger en Poisson-fordeling, så tiden mellom hendelser følger en eksponentiell fordeling med samme pris parameteren λ. Denne korrespondansen mellom de to fordelingene er viktig å nevne-sjekk når du diskuterer noen av dem.

Den eksponentielle fordelingen bør komme til tankene når du tenker på «tid til hendelsen», kanskje «tid til å mislykkes.»Faktisk, dette er så viktig at mer generelle distribusjoner eksisterer for å beskrive tid-til-feil, som Weibull fordeling., Mens den eksponentielle fordelingen er hensiktsmessig når pris — av slitasje, eller feil som for eksempel — er konstant, Weibull fordeling modellen kan øke (eller redusere) renter av svikt over tid. Den eksponentielle er bare en spesiell sak.

Tenk på «Weibull» når chat-blir til-tid-til-feil.

Normal, Log-Normal, Student t og Chi-squared

normal distribusjon, eller Gaussisk fordeling, er kanskje den viktigste av alle. Dens bell formen er gjenkjennelig., Som e, det er en merkelig bestemt enhet som dukker opp over alt, fra tilsynelatende enkle kilder. Ta en haug av verdiene etter samme fordeling — all distribusjon — og summerer dem. Fordelingen av deres sum følger (ca.) normal distribusjon. Jo flere ting som er summert, jo mer deres sum er fordelingen samsvarer med normal distribusjon. (Forbehold: det må være en veloppdragen distribusjon, må være uavhengige, bare har en tendens til normal fordeling.) Det faktum at dette er sant uavhengig av den underliggende fordelingen er fantastisk.,

Dette er såkalte sentralgrenseteoremet, og du må vite at dette er hva det heter, og hva det betyr, eller du vil umiddelbart bli heckled.

I denne forstand, det gjelder alle distribusjoner. Det er imidlertid særlig knyttet til fordelingen av summer av ting. Summen av Bernoulli forsøk følger en binominal distribusjon, og som de antall forsøk øker, at binomiske fordelingen blir mer normal distribusjon. Hans fetter hypergeometric distribusjon gjør også., Den Poisson-distribusjon — en ekstrem form for binominal — også tilnærminger normal distribusjon som pris parameteren øker.

Et utfall som følger en log-normal fordeling tar på verdier som logaritmen er normalfordelt. Eller: den exponentiation av en normalt-fordelt verdien log-normalfordelt. Hvis summer av ting er normalfordelt, så husk at produkter av ting log-normalfordelt.

Student t-fordelingen er grunnlaget for t-test at mange ikke-statistikere lære i andre fag., Det er brukt i resonnementet om gjennomsnittet av en normal fordeling, og også tilnærminger normal distribusjon som sin parameteren øker. Den kjennetegn ved t-distribusjon er dens hale, som er fetere enn den normale fordelingen er.

Hvis fett-tail anekdote er ikke varmt nok ta til wow dine venner, kan du gå til sin mildt-interessant tilbake-storyconcerning øl. Over 100 år siden, Guinness var å bruke statistikk for å gjøre bedre stout. Det, William Sealy Gosset utviklet noen helt ny statistikk teori bare til å vokse bedre bygg., Gosset overbevist om sjefen som de andre bryggere kunne ikke finne ut hvordan å bruke ideer, og så fikk tillatelse til å publisere, men bare under pseudonymet «Student». Gosset mest kjente resultatet er denne t-fordelingen, som er et slags oppkalt etter ham.

til Slutt, chi-kvadrat fordeling fordelingen av summen av kvadratene av normalt-fordelt verdier. Det er distribusjonen som underbygger chi-squared test som er i seg selv basert på summen av kvadratene av forskjeller, som er ment å være normalfordelt.,

Gamma og Beta

På dette punktet, hvis du snakker om chi-squared noe, så samtalen har fått alvorlige. Du er sannsynligvis snakker til faktiske statistikere, og det kan hende du ønsker å unnskylde deg selv på dette punktet, fordi ting som gamma-fordelingen kan komme opp. Det er en generalisering av både eksponential-og chi-squared distribusjoner. Mer som den eksponentielle fordelingen, den brukes som en avansert modell av ventetid. For eksempel, gamma-fordelingen kommer opp når modellering tid til neste n-hendelser oppstår., Det vises i maskinlæring som «konjugat før» til et par distribusjoner.

ikke komme inn i denne samtalen om konjugat priors, men hvis du gjør det, kan du være sikker på at du er i ferd med å snakke om beta-fordelingen, fordi det er den konjugat før nesten alle andre distribusjon som er nevnt her. Så langt data som forskere er bekymret, det er hva det var bygget for. Nevne denne tilfeldig, og beveger seg mot døren.

Begynnelsen til Visdom

sannsynlighetsfordelinger er noe du kan ikke vite for mye om., De som virkelig er interessert bør sjekke ut dette utrolig detaljert kart av alle univariate fordelinger. Forhåpentligvis, dette anekdotiske guide gir deg selvtillit til å vises kunnskapsrik og med det i dagens tech kultur. Eller i det minste, en måte å oppdage, med stor sannsynlighet, når du bør finne en mindre nerdete cocktail party.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Hopp til verktøylinje