gemeenschappelijke kansverdelingen: het Wiegblad van de Data Scientist

herdrukt van https://blog.cloudera.com/blog/2015/12/common-probability-distributions-the-data-scientists-crib-sheet/

gegevenswetenschappers hebben honderden kansverdelingen waaruit zij kunnen kiezen. Waar te beginnen?

Data science, wat het ook mag zijn, blijft een groot probleem. “Een data scientist is beter in statistieken dan welke software engineer dan ook,” kan je een expert horen zeggen, op uw lokale tech bijeenkomsten en hackathons. De toegepaste wiskundigen hebben hun wraak, omdat statistieken niet meer zo besproken zijn sinds de brullende jaren ‘ 20., Ze hebben hun eigen legitimerende Venn-diagram waar mensen niet mee lachen. Plotseling ben jij het, de ingenieur, buiten het gesprek gelaten over betrouwbaarheidsintervallen in plaats van de analisten die nog nooit gehoord hebben van het Apache Bikeshed project voor gedistribueerde commentaaropmaak. Om erbij te horen, om weer het leven en de ziel van dat feest te zijn, heb je een spoedcursus statistieken nodig. Niet genoeg om het goed te doen, maar genoeg om te klinken zoals je zou kunnen, door het maken van basis observaties.

kansverdelingen zijn fundamenteel voor de statistiek, net als datastructuren voor de informatica., Ze zijn de plek om te studeren als je wilt praten als een data wetenschapper. U kunt soms wegkomen met eenvoudige analyse met behulp van R of sikit-leren zonder heel begrip distributies, net zoals u een Java-programma kunt beheren zonder begrip hash functies. Maar het zou al snel eindigen in tranen, bugs, nep resultaten, of erger: Zuchten en eye-rolling van statistieken majors.

Er zijn honderden kansverdelingen, sommige klinken als monsters uit middeleeuwse legendes zoals de Muth of Lomax. Slechts ongeveer 15 distributies verschijnen consequent in de praktijk., Wat zijn ze, en welke slimme inzichten over elk van hen moet je onthouden?

dingen gebeuren de hele tijd: dobbelstenen worden gegooid, het regent, bussen komen aan. Na het feit, de specifieke resultaten zijn zeker: de dobbelstenen kwamen 3 en 4, Er was een halve centimeter regen vandaag, de bus duurde 3 minuten om aan te komen. Voorheen kunnen we alleen praten over hoe waarschijnlijk de uitkomsten zijn. Kansverdelingen beschrijven wat we denken dat de waarschijnlijkheid van elke uitkomst is, wat soms interessanter is om te weten dan simpelweg welke uitkomst het meest waarschijnlijk is., Ze komen in vele vormen, maar in slechts één grootte: waarschijnlijkheden in een verdeling altijd oplopen tot 1.

bijvoorbeeld, het omgooien van een eerlijke munt heeft twee uitkomsten: het landt kop of munt. (Neem aan dat het niet kan landen op rand of worden gestolen door een meeuw in de lucht.) Voor de flip, geloven we dat er een 1 in 2 kans, of 0.5 kans, van hoofden. Hetzelfde geldt voor staarten. Dat is een kansverdeling over de twee uitkomsten van de flip, en als je die zin kunt volgen, heb je de Bernoulli-verdeling al onder de knie.,

ondanks exotische namen, hebben de gemeenschappelijke distributies op intuã tieve en interessante manieren met elkaar te maken, waardoor ze gemakkelijk te herinneren zijn en met een sfeer van autoriteit kunnen worden opgemerkt. Verschillende volgen natuurlijk uit de Bernoulli distributie, bijvoorbeeld. Het is tijd om een kaart van de relaties te onthullen.,

Common kansverdelingen en een aantal belangrijke relaties

Elke uitkering wordt geïllustreerd door een voorbeeld van de kansdichtheidsfunctie (PDF). Dit bericht behandelt alleen distributies van resultaten die enkele getallen zijn. Dus, de horizontale as in elk kader is de set van mogelijke numerieke uitkomsten. De verticale as beschrijft de waarschijnlijkheid van uitkomsten., Sommige distributies zijn discreet, over uitkomsten die gehele getallen moeten zijn zoals 0 of 5. Deze verschijnen als schaarse lijnen, een voor elke uitkomst, waar lijnhoogte is de waarschijnlijkheid van die uitkomst. Sommige zijn continu, voor uitkomsten die een echte numerieke waarde kunnen aannemen zoals -1,32 of 0,005. Deze verschijnen als dichte krommen, waar het zijn gebieden onder delen van de kromme die waarschijnlijkheden geven. De som van de hoogten van lijnen, en gebieden onder de krommen, zijn altijd 1.

Print, knip langs de stippellijn en neem deze mee in uw portemonnee of portemonnee., Dit is uw veldgids voor het spotten van distributies en hun familieleden.

Bernoulli en Uniform

u hebt de Bernoulli-verdeling hierboven ontmoet, over twee afzonderlijke uitkomsten-staarten of koppen. Zie het echter als een verdeling over 0 en 1, over 0 kop (staarten) of 1 kop. Hierboven waren beide uitkomsten even waarschijnlijk, en dat is wat in het diagram wordt geïllustreerd. De Bernoulli PDF heeft twee lijnen van gelijke hoogte, die de twee even waarschijnlijke uitkomsten van 0 en 1 Aan beide uiteinden vertegenwoordigen.,

De verdeling van Bernoulli kan resultaten voorstellen die niet even waarschijnlijk zijn, zoals het resultaat van een oneerlijke toss. Dan is de kans op heads niet 0.5, maar een andere waarde p, en de kans op staarten is 1-p. zoals veel distributies, is het eigenlijk een familie van distributies gedefinieerd door parameters, zoals p hier. Als je denkt “Bernoulli,” gewoon denken ” (mogelijk oneerlijk) toss.”

Het is een korte sprong Om een distributie voor te stellen over vele even waarschijnlijke uitkomsten: de uniforme distributie, gekenmerkt door zijn platte PDF. Stel je voor dat je een eerlijke Dobbelsteen rolt., De uitkomsten 1 tot 6 zijn even waarschijnlijk. Het kan worden gedefinieerd voor een aantal uitkomsten n of zelfs als een continue verdeling.

Associate the uniform distribution with ” rolling a fair die.”

binomiale en hypergeometrische

de binomiale verdeling kan worden gezien als de som van de uitkomsten van dingen die volgen op een Bernoulli-verdeling. Gooi een eerlijke munt 20 keer; hoe vaak komt het kop omhoog? Deze telling is een resultaat dat de binomiale verdeling volgt. De parameters zijn n, het aantal proeven, en p, de kans op een” succes ” (hier: heads, of 1)., Elke flip is een Bernoulli-verdeeld resultaat, of proces. Bereik voor de binomiale verdeling bij het tellen van het aantal successen in dingen die fungeren als een munt flip, waarbij elke flip is onafhankelijk en heeft dezelfde kans op succes.

of stel je een urn voor met gelijke aantallen witte en zwarte ballen. Sluit je ogen en trek een bal en noteer of het zwart is, leg hem dan terug. Herhalen. Hoe vaak heb je een zwarte bal getrokken? Deze telling volgt ook een binomiale verdeling.,

Het inbeelden van deze vreemde situatie heeft een punt, omdat het eenvoudig is om de hypergeometrische verdeling te verklaren. Dit is de verdeling van dezelfde telling als de ballen werden getrokken zonder vervanging in plaats. Ontegenzeggelijk is het een neef van de binomiale verdeling, maar niet hetzelfde, omdat de kans op succes verandert als ballen worden verwijderd. Als het aantal ballen groot is ten opzichte van het aantal draws, zijn de distributies vergelijkbaar omdat de kans op succes met elke draw minder verandert.,

wanneer mensen praten over het plukken van ballen uit urnen zonder vervanging, is het bijna altijd veilig om te interjecteren, “de hypergeometrische distributie, ja,” omdat ik nog nooit iemand heb ontmoet die urnen met ballen gevuld heeft en ze vervolgens uitpakte, en ze of anderszins in het echte leven heeft vervangen. (Ik ken niet eens iemand die een urn bezit.) Meer in het algemeen, zou het voor de geest moeten komen bij het uitkiezen van een significante subset van een bevolking als steekproef.

Poisson

hoe zit het met het aantal klanten dat elke minuut een ondersteuningshotline belt?, Dat is een resultaat waarvan de distributie binomiaal klinkt, als je denkt aan elke seconde als een Bernoulli trial waarin een klant niet belt (0) of doet (1). Echter, zoals het energiebedrijf weet, wanneer de stroom uitvalt, 2 of zelfs honderden mensen kunnen bellen in dezelfde seconde. Het bekijken van het als 60.000 milliseconde-sized proeven nog steeds niet rond het probleem — veel meer proeven, veel kleinere kans op 1 oproep, laat staan 2 of meer, maar, nog steeds niet technisch een Bernoulli proef. Echter, het nemen van dit tot zijn oneindige, logische conclusie werkt., Laat n naar oneindig gaan en laat p naar 0 gaan zodat np hetzelfde blijft. Dit is als op weg naar oneindig veel infinitesimaal kleine tijdschijfjes waarin de kans op een aanroep oneindig klein is. Het beperkende resultaat is de poisson distributie.

net als de binomiale distributie is de Poisson distributie de verdeling van een telling — de telling van tijden dat er iets gebeurde. Het wordt niet geparametreerd door een waarschijnlijkheid p en aantal proeven n maar door een gemiddelde snelheid λ, die in deze analogie gewoon de constante waarde van np is., De Poisson verdeling is wat je moet denken van wanneer het proberen om gebeurtenissen te tellen over een tijd gegeven de continue snelheid van gebeurtenissen die zich voordoen.

wanneer dingen zoals pakketten aankomen bij routers, of klanten aankomen bij een winkel, of dingen wachten in een soort van wachtrij, denk ” Poisson.”

geometrische en negatieve binomiale

uit eenvoudige Bernoulli-proeven ontstaat een andere verdeling. Hoe vaak komt een getoonde munt op munt voor het eerst op kop komt? Deze telling van staarten volgt een geometrische verdeling., Net als de Bernoulli distributie, wordt het geparametreerd door p, de kans op dat uiteindelijke succes. Het wordt niet geparametreerd door n, een aantal proeven of salto ‘ s, omdat het aantal mislukkingen de uitkomst zelf is.

als de binomiale verdeling ” hoeveel successen? dan is de geometrische verdeling hoeveel mislukkingen tot een succes?”

de negatieve binomiale verdeling is een eenvoudige generalisatie. Het is het aantal mislukkingen totdat r successen zijn opgetreden, niet slechts 1. Het wordt daarom ook geparametreerd door r. soms wordt het beschreven als het aantal successen tot r mislukkingen., Zoals mijn levenscoach zegt, succes en falen zijn wat je definieert als ze zijn, dus deze zijn gelijkwaardig, zolang je maar weet of p de kans op succes of mislukking is.

als je een ijsbreker nodig hebt, zou je erop kunnen wijzen dat de binomiale en hypergeometrische distributies een duidelijk paar zijn, maar de geometrische en negatieve binomiale distributies zijn ook vrij gelijkaardig, en dan zeggen, ” Ik bedoel, wie noemt deze dingen, heb ik gelijk?”

Exponential and Weibull

terug naar customer support calls: hoe lang duurt het voordat de volgende klant belt?, De verdeling van deze wachttijd klinkt alsof het geometrisch zou kunnen zijn, want elke seconde dat niemand belt is als een mislukking, tot een seconde waarin uiteindelijk een klant belt. Het aantal storingen is als het aantal seconden dat niemand belde, en dat is bijna de wachttijd tot de volgende oproep, maar bijna is niet dicht genoeg. De vangst deze keer is dat de som zal altijd in hele seconden, maar dit niet om rekening te houden met het wachten binnen die seconde tot de klant uiteindelijk belde.,

neem Zoals eerder, de geometrische verdeling tot de limiet, naar infinitesimale tijdschijfjes,en het werkt. Je krijgt de exponentiële verdeling, die nauwkeurig de verdeling van de tijd tot een oproep beschrijft. Het is een continue verdeling, de eerste die hier wordt aangetroffen, omdat de uitkomsttijd niet hele seconden hoeft te zijn. Net als de poissondistributie wordt deze geparametreerd door een snelheid λ.

echo van de binomiaal-geometrische relatie, Poissons ” hoeveel gebeurtenissen per tijd?”heeft betrekking op de exponentiële’ s ” Hoe lang tot een gebeurtenis?,”Gegeven gebeurtenissen waarvan de telling per tijd een Poisson-verdeling volgt, dan volgt de tijd tussen gebeurtenissen een exponentiële verdeling met dezelfde snelheid parameter λ. Deze overeenkomst tussen de twee distributies is essentieel om de naam te controleren bij het bespreken van een van hen.

de exponentiële verdeling zou in gedachten moeten komen bij het denken aan “tijd tot gebeurtenis”, misschien “tijd tot mislukking.”In feite is dit zo belangrijk dat er meer algemene distributies bestaan om time-to-failure te beschrijven, zoals de Weibull distributie., Terwijl de exponentiële verdeling passend is wanneer de snelheid — van slijtage, of mislukking bijvoorbeeld-constant is, kan de Weibull distributie toenemende (of dalende) percentages van mislukking in de tijd modelleren. Het exponentiële is slechts een speciaal geval.

denk aan “Weibull” wanneer de chat verandert in time-to-failure.

normaal, Log-normaal, Student ‘ S t, en Chi-kwadraat

de normale verdeling, of Gaussiaanse verdeling, is misschien wel de belangrijkste van allemaal. De vorm van de Bel is direct herkenbaar., Net als e, het is een vreemd specifieke entiteit die overal opduikt, uit ogenschijnlijk eenvoudige bronnen. Neem een aantal waarden die dezelfde distributie volgen-elke distributie-en Som ze op. De verdeling van hun som volgt (ongeveer) de normale verdeling. Hoe meer dingen worden opgeteld, hoe meer de verdeling van hun som overeenkomt met de normale verdeling. (Kanttekeningen: moet een welgemanierde distributie zijn, moet onafhankelijk zijn, neigt alleen naar de normale distributie.) Het feit dat dit waar is, ongeacht de onderliggende verdeling is verbazingwekkend.,

Dit wordt de centrale limietstelling genoemd, en u moet weten dat dit is wat het wordt genoemd en wat het betekent, anders wordt u onmiddellijk gestoord.

in deze zin heeft het betrekking op alle distributies. Maar het is vooral gerelateerd aan de verdeling van sommen dingen. De som van Bernoulli-onderzoeken volgt een binomiale verdeling, en naarmate het aantal proeven toeneemt, wordt die binomiale verdeling meer als de normale verdeling. Zijn neef de hypergeometrische verdeling doet dat ook., De Poissondistributie — een extreme vorm van binomiaal-benadert ook de normale verdeling naarmate de tariefparameter toeneemt.

een resultaat dat volgt op een log-normale verdeling neemt waarden aan waarvan de logaritme normaal wordt verdeeld. Of: de exponentiatie van een normaal-gedistribueerde waarde is log-normaal gedistribueerd. Als sommen van dingen normaal worden verdeeld, onthoud dan dat producten van dingen log zijn-normaal verdeeld.

De T-verdeling van de Student is de basis van de T-test die veel niet-statistici in andere wetenschappen leren., Het wordt gebruikt in het redeneren over het gemiddelde van een normale verdeling, en benadert ook de normale verdeling als de parameter toeneemt. Het onderscheidende kenmerk van de T-distributie zijn de staarten, die dikker zijn dan die van de normale distributie.

als de vetstaartanekdote niet warm genoeg is om je buurman te verbazen, ga dan naar zijn licht-interessante achtergrond-verhaal betreffende bier. Meer dan 100 jaar geleden gebruikte Guinness statistieken om beter stout te maken. Daar ontwikkelde William Sealy Gosset een hele nieuwe statstheorie om betere gerst te kweken., Gosset overtuigde de baas dat de andere brouwers niet konden achterhalen hoe de ideeën te gebruiken, en kreeg dus toestemming om te publiceren, maar alleen onder het pseudoniem “Student”. Gossets bekendste resultaat is deze T-distributie, die naar hem is vernoemd.

ten slotte is de chi-kwadraatverdeling de verdeling van de kwadratensom van normaal verdeelde waarden. Het is de verdeling die ten grondslag ligt aan de chi-kwadraat test die zelf gebaseerd is op de som van de kwadraten van verschillen, die normaal verdeeld zouden moeten zijn.,

Gamma en Beta

Op dit punt, als je het over chi-kwadraat iets hebt, dan is het gesprek serieus geworden. Je praat waarschijnlijk met echte statistici, en je wilt jezelf misschien excuseren op dit punt, omdat dingen als de gamma distributie kunnen komen. Het is een generalisatie van zowel de exponentiële als chi-kwadraat distributies. Meer zoals de exponentiële verdeling, wordt het gebruikt als een geavanceerd model van wachttijden. Bijvoorbeeld, de gammadistributie komt bij het modelleren van de tijd tot de volgende n gebeurtenissen optreden., Het verschijnt in machine learning als de “conjugate voorafgaand” aan een paar distributies.

ga niet in dat gesprek over conjugate priors, maar als je dat doet, zorg er dan voor dat je over de beta distributie gaat praten, want het is het conjugaat voorafgaand aan de meeste andere distributie die hier wordt genoemd. Wat datawetenschappers betreft, daar is het voor gebouwd. Noem dit terloops, en ga naar de deur.

het begin van Wijsheid

kansverdelingen zijn iets waar je niet veel over Weet., De echt geÃ nteresseerden moeten eens kijken op deze ongelooflijk gedetailleerde kaart van alle univariate distributies. Hopelijk, deze anekdotische gids geeft u het vertrouwen om deskundig en met-IT verschijnen in de hedendaagse tech cultuur. Of op zijn minst, een manier om te detecteren, met grote waarschijnlijkheid, wanneer je een minder nerdy cocktail party zou moeten vinden.

Avenir

Condominium

gemeenschappelijke kansverdelingen: het Wiegblad van de Data Scientist