Common sandsynlighedsfordelinger: Data Scientist ‘ s Crib Ark

Genoptrykt fra https://blog.cloudera.com/blog/2015/12/common-probability-distributions-the-data-scientists-crib-sheet/

Data forskere har hundredvis af sandsynlighedsfordelinger, hvorfra man kan vælge. Hvor skal man starte?

datavidenskab, uanset hvad det måtte være, forbliver en big deal. “En dataforsker er bedre til statistik end nogen soft .areingeniør,” kan du høre en pundit sige på dine lokale tech sammenkomster og hackathons. De anvendte matematikere har deres hævn, fordi statistikker ikke har været så omtalte siden de brølende 20 ‘ ere., De har deres eget legitimerende Venn-diagram, hvor folk ikke gør det sjovt. Pludselig er det dig, ingeniøren, udeladt af chatten om konfidensintervaller i stedet for at tutting hos de analytikere, der aldrig har hørt om Apache Bikeshed-projektet til distribueret kommentarformatering. For at passe ind, for at være partiets liv og sjæl igen, har du brug for et lynkursus i statistik. Ikke nok til at få det rigtigt, men nok til at lyde som du kunne, ved at lave grundlæggende observationer.sandsynlighedsfordelinger er grundlæggende for statistikker, ligesom datastrukturer er datalogi., De er stedet at begynde at studere, hvis du mener at tale som en dataforsker. Du kan undertiden slippe af sted med simpel analyse ved hjælp af R eller scikit-lær uden helt at forstå distributioner, ligesom du kan administrere et Java-program uden at forstå hash-funktioner. Men det ville snart ende i tårer, bugs, falske resultater, eller værre: sukker og øje-rullende fra statistik majors.

Der er hundredvis af sandsynlighedsfordelinger, nogle lyder som monstre fra middelalderlig legende som Muth eller Loma.. Kun omkring 15 distributioner dukker op konsekvent i praksis., Hvad er de, og hvilke kloge indsigter om hver af dem skal du huske?

ting sker hele tiden: terninger rulles, det regner, busser ankommer. Efter det faktum, de specifikke resultater er sikre: terningerne kom op 3 og 4, der var en halv tomme regn i dag, bussen tog 3 minutter at ankomme. Før kan vi kun tale om, hvor sandsynligt resultaterne er. Sandsynlighedsfordelinger beskriver, hvad vi synes sandsynligheden for hvert resultat er, hvilket undertiden er mere interessant at vide end blot hvilket enkelt resultat der er mest sandsynligt., De kommer i mange former, men i kun sizen størrelse: sandsynligheder i en fordeling altid tilføje op til 1.for eksempel har flipping af en fair mønt to resultater: den lander plat eller krone. (Antag, at det ikke kan lande på kanten eller blive stjålet af en måge i luften.) Før flip, mener vi, at der er en 1 i 2 chance, eller 0,5 Sandsynlighed, af hoveder. Det samme gælder for haler. Det er en sandsynlighedsfordeling over de to resultater af flip, og hvis du kan følge den sætning, har du allerede mestret Bernoulli-distributionen.,

På trods af eksotiske navne, de fælles distributioner vedrører hinanden på intuitive og interessante måder, der gør dem nemme at huske, og bemærkning om med en luft af autoritet. Flere følger naturligt fra Bernoulli-distributionen, for eksempel. Det er på tide at afsløre et kort over relationerne.,

Common sandsynlighedsfordelinger, og nogle vigtige relationer

Hver fordeling er illustreret med et eksempel i sin sandsynlighedstæthedsfunktionen (PDF). Dette indlæg omhandler kun distributioner af resultater, der er enkelte tal. Så den vandrette akse i hver boks er sæt af mulige numeriske resultater. Den lodrette akse beskriver sandsynligheden for resultater., Nogle distributioner er diskrete, løbet resultater, der skal være heltal som 0 eller 5. Disse vises som sparsomme linjer, en for hvert resultat, hvor linjehøjde er sandsynligheden for dette resultat. Nogle er kontinuerlige, for resultater, der kan påtage sig en reel numerisk værdi som -1.32 eller 0.005. Disse vises som tætte kurver, hvor det er områder under sektioner af kurven, der giver sandsynligheder. Summen af højderne af linjer, og områder under kurverne, er altid 1.

Udskriv, skær langs den stiplede linje, og tag den med dig i din tegnebog eller pung., Dette er dit felt guide til spotting distributioner og deres pårørende.

Bernoulli og ensartet

du mødte Bernoulli — distributionen ovenfor over to diskrete resultater-haler eller hoveder. Tænk på det dog som en fordeling over 0 og 1, over 0 hoveder (dvs.haler) eller 1 hoveder. Ovenfor var begge resultater lige sandsynlige, og det er det, der er illustreret i diagrammet. Bernoulli PDF har to linjer af samme højde, repræsenterer de to lige sandsynlige resultater af 0 og 1 i hver ende.,

Bernoulli-distributionen kan repræsentere resultater, der ikke er lige sandsynlige, som resultatet af en urimelig møntkast. Derefter er sandsynligheden for hoveder ikke 0.5, men en anden værdi p, og sandsynligheden for haler er 1-p. ligesom mange distributioner er det faktisk en familie af distributioner defineret af parametre, som p Her. Når du tænker ” Bernoulli, “tænk bare” (muligvis uretfærdig) møntkast.”

det er et kort spring at forestille sig en distribution over mange lige sandsynlige resultater: den ensartede fordeling, kendetegnet ved sin flade PDF. Forestil dig at rulle en retfærdig dø., Resultaterne 1 til 6 er lige så sandsynlige. Det kan defineres for et vilkårligt antal resultater n eller endda som en kontinuerlig fordeling.

Tilknyt den ensartede fordeling med “rullende en retfærdig matrice.”

Binomial og Hypergeometrisk

Binomialfordelingen kan betragtes som summen af resultater af ting, der følger en Bernoulli-distribution. Kaste en fair mønt 20 gange; hvor mange gange kommer det op hoveder? Dette antal er et resultat, der følger Binomialfordelingen. Dens parametre er n, antallet af forsøg og p, sandsynligheden for en “succes” (her: hoveder eller 1)., Hver flip er en Bernoulli-distribueret resultat, eller retssag. Nå til Binomialfordelingen, når du tæller antallet af succeser i ting, der fungerer som en møntflip, hvor hver flip er uafhængig og har samme sandsynlighed for succes.

eller forestil dig en urne med lige mange hvide og sorte bolde. Luk øjnene og træk en bold og bemærk, om den er sort, og sæt den derefter tilbage. Gentage. Hvor mange gange har du tegnet en sort bold? Dette antal følger også en binomial fordeling.,Imagining denne ulige situation har et punkt, fordi gør det nemt at forklare den hypergeometriske fordeling. Dette er fordelingen af den samme tæller, hvis kuglerne blev trukket uden udskiftning i stedet. Unægtelig er det en fætter til binomial distribution, men ikke det samme, fordi sandsynligheden for succes ændres som bolde fjernes. Hvis antallet af bolde er stort i forhold til antallet af trækninger, er fordelingerne ens, fordi chancen for succes ændres mindre med hver trækning.,

Når folk taler om at plukke bolde fra urner uden erstatning, det er næsten altid sikkert at indskyde, “hypergeometric distribution, ja,” fordi jeg har aldrig mødt nogen, der rent faktisk fyldt urner med bolde og derefter plukket dem ud, og erstattet dem eller på anden måde, i det virkelige liv. (Jeg kender ikke engang nogen, der ejer en urne.) Mere bredt bør det komme til at tænke på, når man vælger en betydelig delmængde af en befolkning som en prøve.

Poisson

hvad med antallet af kunder, der ringer til en support-hotline hvert minut?, Det er et resultat, hvis distribution lyder binomial, hvis du tænker på hvert sekund som en Bernoulli-prøve, hvor en kunde ikke ringer (0) eller gør (1). Men som elselskabet ved, når strømmen går ud, kan 2 eller endda hundredvis af mennesker ringe i samme sekund. At se det som 60,000 millisekundstore forsøg kommer stadig ikke rundt om problemet — mange flere forsøg, meget mindre sandsynlighed for 1 opkald, endsige 2 eller mere, men stadig ikke teknisk en Bernoulli-prøve. Men at tage dette til dets uendelige, logiske konklusion virker., Lad n gå til uendelig og lad p gå til 0 for at matche, så np forbliver den samme. Det er ligesom på vej mod uendeligt mange uendelig lille tid skiver, hvor sandsynligheden for et opkald er uendelig lille. Det begrænsende resultat er Poisson-distributionen.

ligesom Binomialfordelingen er Poissonfordelingen fordelingen af en tælling — antallet af gange skete der noget. Det parametriseres ikke af en sandsynlighed p og antal forsøg n, men med en gennemsnitlig sats λ, Som i denne analogi simpelthen er den konstante værdi af NP., Poisson distribution er, hvad du skal tænke på, når de forsøger at tælle begivenheder over en tid i betragtning af den kontinuerlige sats af begivenheder, der finder sted.

Når ting som pakker ankommer til routere, eller kunder ankommer til en butik, eller ting venter i en slags kø, skal du tænke “Poisson.”

geometrisk og negativ Binomial

fra simple Bernoulli forsøg opstår en anden fordeling. Hvor mange gange kommer en vendt mønt op haler, før den først kommer op hoveder? Dette antal haler følger en geometrisk fordeling., Ligesom Bernoulli-distributionen parametriseres den af p, sandsynligheden for den endelige succes. Det parametriseres ikke af n, et antal forsøg eller flips, fordi antallet af fejlforsøg er selve resultatet.

Hvis Binomialfordelingen er “hvor mange succeser?”så er den geometriske fordeling “hvor mange fejl indtil en succes?”

den negative binomiale distribution er en simpel generalisering. Det er antallet af fejl, indtil r succeser har fundet sted, ikke bare 1. Det parametriseres derfor også af r. nogle gange beskrives det som antallet af succeser indtil r-fejl., Som my life coach siger, succes og fiasko er det, du definerer dem til at være, så disse er ækvivalente, så længe du holder dig lige, om p er sandsynligheden for succes eller fiasko.

Hvis du har brug for en isbryder, kan du påpege, at de binomiale og hypergeometriske distributioner er et indlysende par, men de geometriske og negative binomiale distributioner er også temmelig ens, og så siger: “jeg mener, hvem navngiver disse ting, har jeg ret?”

eksponentiel og Exponeibull

Tilbage til kundesupport opkald: hvor længe, indtil den næste kunde ringer?, Fordelingen af denne ventetid lyder som om den kunne være geometrisk, for hvert sekund, som ingen kalder, er som en fiasko, indtil et sekund, hvor en kunde endelig ringer. Antallet af fejl er som antallet af sekunder, som ingen ringede til, og det er næsten ventetiden indtil næste opkald, men er næsten ikke tæt nok. Fangsten denne gang er, at summen altid vil være i hele sekunder, men dette undlader at tage højde for ventetiden inden for det sekund, indtil kunden endelig ringede.,

som før skal du tage den geometriske fordeling til grænsen, mod uendelige tidsskiver, og det fungerer. Du får den eksponentielle fordeling, som præcist beskriver fordelingen af tid, indtil et opkald. Det er en kontinuerlig fordeling, den første stødt her, fordi resultatet tid behøver ikke være hele sekunder. Ligesom Poisson-distributionen parametriseres den af en hastighed λ.

ekko det binomiale-geometriske forhold, Poissons “hvor mange begivenheder pr.”vedrører eksponentielle s” Hvor længe indtil en begivenhed?,”I betragtning af begivenheder, hvis antal pr. gang følger en Poisson-distribution, følger tiden mellem begivenheder en eksponentiel fordeling med den samme hastighedsparameter λ. Denne korrespondance mellem de to distributioner er afgørende for navnekontrol, når man diskuterer en af dem.

den eksponentielle distribution skal tænke på, når man tænker på “tid indtil begivenhed”, måske “tid indtil fiasko.”Faktisk er dette så vigtigt, at der findes mere generelle distributioner for at beskrive tid til fiasko, som distributioneibull-distributionen., Mens den eksponentielle fordeling er passende, når hastigheden-af slid, eller fiasko for eksempel-er konstant, Weieibull fordeling kan model stigende (eller faldende) satser for fiasko over tid. Eksponentiel er blot et specielt tilfælde.

tænk på “Weieibull”, når chatten bliver til tid til fiasko.

Normal, Log-Normal, studerendes t og Chi-kvadrat

den normale fordeling eller Gaussisk distribution er måske den vigtigste af alle. Dens klokkeform er øjeblikkeligt genkendelig., Ligesom e, det er en nysgerrig bestemt enhed, der dukker op overalt, fra tilsyneladende enkle kilder. Tag en masse værdier efter den samme distribution — enhver distribution — og summere dem. Fordelingen af deres sum følger (Ca.) den normale fordeling. Jo flere ting, der summeres, jo mere svarer deres sum distribution til den normale distribution. (Forbehold: skal være en velopdragen fordeling, skal være uafhængig, har kun tendens til den normale fordeling.) Det faktum, at dette er sandt uanset den underliggende fordeling er forbløffende.,

dette kaldes central limit theorem, og du skal vide, at dette er, hvad det hedder, og hvad det betyder, Eller du vil straks blive heckled.

i denne forstand vedrører det alle distributioner. Men det er især relateret til fordelinger af summer af ting. Summen af Bernoulli forsøg følger en binomial fordeling, og som antallet af forsøg stiger, at binomial fordeling bliver mere som den normale fordeling. Dens fætter den hypergeometriske distribution gør også., Poisson-distributionen — en ekstrem form for binomial-nærmer sig også den normale fordeling, når hastighedsparameteren øges.

et resultat, der følger en log-normal distribution, antager værdier, hvis logaritme normalt distribueres. Eller: eksponentieringen af en normalt distribueret værdi er log-normalt distribueret. Hvis summen af ting normalt distribueres, så husk at produkter af ting er log – normalt distribueret.

studerendes t-distribution er grundlaget for den t-test, som mange ikke-statistikere lærer i andre videnskaber., Det bruges i ræsonnement om gennemsnittet af en normal fordeling, og også nærmer sig den normale fordeling som dens parameter stiger. Det kendetegnende ved t-distributionen er dens haler, som er federe end den normale distribution.

Hvis fedthale-anekdoten ikke er en varm nok tage for at Wowo.din nabo, skal du gå til sin mildt interessante baghistorieom øl. For over 100 år siden brugte Guinness statistikker for at gøre det bedre. Der, developedilliam Sealy Gosset udviklet nogle helt nye statistik teori bare for at vokse bedre byg., Gosset overbeviste chefen om, at de andre bryggerier ikke kunne finde ud af at bruge ideerne, og så fik tilladelse til at offentliggøre, men kun under pennavnet “Student”. Gosset mest kendte resultat er denne t-distribution, som er slags opkaldt efter ham.

endelig er chi-kvadreret fordeling fordelingen af summen af kvadrater af normalt fordelte værdier. Det er fordelingen, der ligger til grund for chi-s .uared testen, som i sig selv er baseret på summen af kvadrater af forskelle, som normalt skal fordeles.,

Gamma og Beta

På dette tidspunkt, hvis du taler om chi-s .uared noget, så er samtalen blevet alvorlig. Du taler sandsynligvis med faktiske statistikere, og du vil måske undskylde dig selv på dette tidspunkt, fordi ting som gamma-distributionen kan komme op. Det er en generalisering af både den eksponentielle og chi-kvadreret distributioner. Mere som den eksponentielle fordeling bruges den som en sofistikeret model af ventetider. For eksempel kommer gamma-distributionen op, når man modellerer tiden, indtil de næste n-hændelser opstår., Det vises i machine learning som “konjugatet før” til et par distributioner.

kom ikke ind i den samtale om konjugerede priorer, men hvis du gør det, skal du være sikker på at du er ved at tale om beta-distributionen, fordi det er konjugatet før de fleste andre distributioner nævnt her. Hvad angår dataforskere, er det det, det blev bygget til. Nævn dette tilfældigt, og bevæg dig mod døren.

begyndelsen af visdom

sandsynlighedsfordelinger er noget, du ikke kan vide for meget om., De virkelig interesserede bør tjekke dette utroligt detaljerede kort over alle univariate distributioner. Forhåbentlig, denne anekdotiske guide giver dig tillid til at fremstå vidende og med-it i dagens tech kultur. Eller i det mindste en måde at opdage med høj sandsynlighed, når du skal finde et mindre nørdet cocktailparty.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *

Videre til værktøjslinje