vanliga sannolikhetsfördelningar: Dataforskarens spjälsäng blad

omtryckt frånhttps://blog.cloudera.com/blog/2015/12/common-probability-distributions-the-data-scientists-crib-sheet/

Dataforskare har hundratals sannolikhetsfördelningar att välja mellan. Var ska man börja?

datavetenskap, oavsett vad det kan vara, är fortfarande en stor sak. ”En Dataforskare är bättre på statistik än någon mjukvaruingenjör”, kan du höra en pundit säga, på dina lokala tekniska möten och hackathons. De tillämpade matematikerna har sin hämnd, för statistiken har inte varit så här pratad sedan 20-talet., De har sin egen legitimering Venn diagram som människor inte gör kul. Plötsligt är det du, ingenjören, utelämnad av chatten om konfidensintervall istället för att undervisa hos analytikerna som aldrig har hört talas om Apache Bikeshed-projektet för distribuerad kommentarformatering. För att passa in, för att vara livet och själen i den festen igen, behöver du en kraschkurs i statistik. Inte tillräckligt för att få det rätt, men tillräckligt för att låta som du kan, genom att göra grundläggande observationer.

sannolikhetsfördelningar är grundläggande för statistiken, precis som datastrukturer är för datavetenskap., De är stället att börja studera om man vill prata som en Dataforskare. Du kan ibland komma undan med enkel analys med hjälp av R eller scikit-lär dig utan att förstå distributioner, precis som du kan hantera ett Java-program utan att förstå hashfunktioner. Men det skulle snart sluta i tårar, buggar, falska resultat eller värre: suckar och ögonrullning från stats majors.

det finns hundratals sannolikhetsfördelningar, vissa låter som monster från medeltida legend som Muth eller Lomax. Endast cirka 15 distributioner dyker upp konsekvent i praktiken men., Vad är de, och vilka smarta insikter om var och en av dem bör du memorera?

saker händer hela tiden: tärningarna rullas, det regnar, bussar anländer. Efter det faktum är de specifika resultaten säkra: tärningarna kom upp 3 och 4, Det var en halv tum regn idag, bussen tog 3 minuter att komma fram. Innan kan vi bara prata om hur sannolikt resultaten är. Sannolikhetsfördelningar beskriver vad vi tror sannolikheten för varje resultat är, vilket ibland är mer intressant att veta än bara vilket enskilt resultat som är mest sannolikt., De finns i många former, men i bara en storlek: sannolikheter i en distribution lägger alltid till upp till 1.

till exempel har vända ett rättvist mynt två resultat: det landar huvuden eller svansar. (Anta att den inte kan landa på kanten eller bli stulen av en mås i luften.) Innan luckan tror vi att det finns en 1 i 2 chans, eller 0.5 Sannolikhet, av huvuden. Detsamma gäller för svansar. Det är en sannolikhetsfördelning över de två resultaten av flip, och om du kan följa den meningen har du redan behärskat Bernoulli-distributionen.,

trots exotiska namn relaterar de gemensamma distributionerna till varandra på intuitiva och intressanta sätt som gör dem lätta att återkalla och kommentera med en auktoritetsluft. Flera följer naturligt från Bernoulli-distributionen, till exempel. Det är dags att avslöja en karta över relationerna.,

vanliga sannolikhetsfördelningar och vissa nyckelrelationer

varje distribution illustreras med ett exempel på dess sannolikhetsdensitetsfunktion (pdf). Det här inlägget handlar bara om distributioner av resultat som är enstaka nummer. Så den horisontella axeln i varje ruta är uppsättningen möjliga numeriska resultat. Den vertikala axeln beskriver sannolikheten för resultat., Vissa distributioner är diskreta, över resultat som måste vara heltal som 0 eller 5. Dessa visas som glesa linjer, en för varje resultat, där linjens höjd är sannolikheten för det resultatet. Vissa är kontinuerliga, för resultat som kan ta på sig något verkligt numeriskt värde som -1.32 eller 0.005. Dessa visas som täta kurvor, där det är områden under sektioner av kurvan som ger sannolikheter. Summan av linjens höjder och områden under kurvorna är alltid 1.

Skriv ut, klippa längs den streckade linjen och ta den med dig i din plånbok eller handväska., Detta är din fältguide till spotting distributioner och deras släktingar.

Bernoulli och Uniform

du träffade Bernoulli — distributionen ovan, över två diskreta resultat-svansar eller huvuden. Tänk på det, men som en fördelning över 0 och 1, över 0 huvuden (dvs svansar) eller 1 huvuden. Ovan var båda resultaten lika troliga, och det är vad som illustreras i diagrammet. Bernoulli PDF har två rader med samma höjd, som representerar de två lika sannolika resultaten av 0 och 1 i vardera änden.,

Bernoulli-distributionen kan representera resultat som inte är lika troliga, som resultatet av en orättvis myntkastning. Då är sannolikheten för huvuden inte 0,5, men något annat värde p, och sannolikheten för svansar är 1-p. liksom många distributioner är det faktiskt en familj av distributioner som definieras av parametrar, som p här. När du tänker ”Bernoulli,” just think ” (eventuellt orättvist) mynt kasta.”

det är ett kort hopp att föreställa sig en fördelning över många lika troliga resultat: den enhetliga fördelningen, som kännetecknas av sin platta PDF. Tänk dig att rulla en rättvis dö., Resultaten 1-6 är lika troliga. Det kan definieras för valfritt antal resultat n eller ens som en kontinuerlig fördelning.

associera den enhetliga fördelningen med ”rullande en rättvis dö.”

Binomial och Hypergeometrisk

binomialfördelningen kan ses som summan av utfall av saker som följer en Bernoullifördelning. Kasta ett rättvist Mynt 20 gånger; hur många gånger kommer det upp huvuden? Detta antal är ett resultat som följer binomialfördelningen. Dess parametrar är n, antalet försök och p, sannolikheten för en ”framgång” (här: huvuden eller 1)., Varje flip är ett Bernoulli-distribuerat resultat, eller rättegång. Nå för binomialfördelningen när man räknar antalet framgångar i saker som fungerar som en mynt flip, där varje flip är oberoende och har samma sannolikhet för framgång.

eller föreställ dig en urna med lika många vita och svarta bollar. Stäng dina ögon och dra en boll och notera om det är svart, lägg sedan tillbaka det. Upprepa. Hur många gånger har du ritat en svart boll? Detta antal följer också en binomialfördelning.,

att föreställa sig denna udda situation har en punkt, eftersom det gör det enkelt att förklara den hypergeometriska fördelningen. Detta är fördelningen av samma räkning om bollarna drogs utan ersättning istället. Onekligen är det en kusin till binomialfördelningen, men inte detsamma, eftersom sannolikheten för framgång förändras som bollar tas bort. Om antalet bollar är stort i förhållande till antalet dragningar, är fördelningarna liknande eftersom chansen att lyckas förändras mindre med varje dragning.,

När folk pratar om att plocka bollar från urnor utan ersättning, är det nästan alltid säkert att interject, ”den hypergeometriska fördelningen, ja,” eftersom jag aldrig har träffat någon som faktiskt fyllde urnor med bollar och sedan plockade ut dem och ersatte dem eller på annat sätt, i det verkliga livet. (Jag känner inte ens någon som äger en urna.) Mer allmänt bör det komma ihåg när man väljer ut en betydande delmängd av en befolkning som ett urval.

Poisson

hur är det med antalet kunder som ringer en support hotline varje minut?, Det är ett resultat vars distribution låter binomial, om du tänker på varje sekund som en Bernoulli-rättegång där en kund inte ringer (0) eller gör (1). Men som kraftbolaget vet, när strömmen går ut, kan 2 eller till och med hundratals människor ringa i samma sekund. Att se det som 60,000 millisekundstora försök kommer fortfarande inte runt problemet-många fler försök, mycket mindre sannolikhet för 1-samtal, än mindre 2 eller mer, men fortfarande inte tekniskt en Bernoulli-rättegång. Men att ta detta till sin oändliga, logiska slutsats fungerar., Låt n gå till oändligheten och låt p gå till 0 för att matcha så att np förblir densamma. Detta är som på väg mot oändligt många oändligt små tidsskivor där sannolikheten för ett samtal är oändligt. Det begränsande resultatet är Poisson-fördelningen.

liksom binomialdistributionen är Poisson-distributionen fördelningen av en räkning-antalet gånger något hände. Det är parametriserat inte med en sannolikhet p och antal försök n men med en genomsnittlig hastighet λ, vilket i denna analogi helt enkelt är det konstanta värdet av np., Poisson-distributionen är vad du måste tänka på när du försöker räkna händelser över en tid med tanke på den kontinuerliga händelsehastigheten.

När saker som paket anländer till routrar, eller kunder anländer till en butik, eller saker väntar i någon form av kö, tänk ”Poisson.”

geometrisk och negativ Binomial

från enkla Bernoulli-prövningar uppstår en annan fördelning. Hur många gånger kommer ett vänt mynt upp svansar innan det först kommer upp huvuden? Detta antal svansar följer en geometrisk fördelning., Liksom Bernoulli-distributionen är den parametrerad av p, sannolikheten för den slutliga framgången. Det är inte parametrerat av n, ett antal försök eller flips, eftersom antalet misslyckade försök är resultatet i sig.

om binomialdistributionen är ”hur många framgångar?”då är den geometriska fördelningen” hur många misslyckanden tills en framgång?”

den negativa binomialfördelningen är en enkel generalisering. Det är antalet misslyckanden tills r framgångar har inträffat, inte bara 1. Det är därför parametriserat också av r. ibland beskrivs det som antalet framgångar tills r-misslyckanden., Som min life coach säger, framgång och misslyckande är vad du definierar dem att vara, så dessa är likvärdiga, så länge du håller rakt om p är sannolikheten för framgång eller misslyckande.

om du behöver en isbrytare kan du påpeka att binomiala och hypergeometriska fördelningar är ett uppenbart par, men de geometriska och negativa binomiala fördelningarna är också ganska lika och säger sedan: ”jag menar, vem namnger dessa saker, har jag rätt?”

exponentiell och Weibull

tillbaka till kundsupportsamtal: hur länge till nästa kundsamtal?, Fördelningen av denna väntetid låter som det kan vara geometrisk, eftersom varje sekund som ingen ringer är som ett misslyckande, tills en sekund där äntligen en kund ringer. Antalet misslyckanden är som antalet sekunder som ingen ringde, och det är nästan väntetiden till nästa samtal, men nästan inte tillräckligt nära. Fångsten den här gången är att summan alltid kommer att vara i hela sekunder, men detta misslyckas med att redogöra för väntan inom den andra tills kunden äntligen ringde.,

som tidigare, ta den geometriska fördelningen till gränsen, mot infinitesimal tidsskivor, och det fungerar. Du får exponentiell distribution, som exakt beskriver fördelningen av tid tills ett samtal. Det är en kontinuerlig fördelning, den första stött här, eftersom utfallstiden inte behöver vara hela sekunder. Liksom Poisson-distributionen är den parametrerad av en hastighet λ.

Eko binomial-geometrisk relation, Poissons ” hur många händelser per tid?”relaterar till exponentialens” hur länge tills en händelse?,”Givna händelser vars antal per tid följer en Poisson-fördelning följer tiden mellan händelserna en exponentiell fördelning med samma hastighetsparameter λ. Denna korrespondens mellan de två distributionerna är nödvändig för att namnkontrollera när man diskuterar någon av dem.

exponentiell distribution bör komma ihåg när man tänker på ”time until event”, kanske ”time until failure.”Det är faktiskt så viktigt att det finns mer allmänna distributioner för att beskriva tid till misslyckande, som Weibull-distributionen., Medan exponentiell fördelning är lämplig när graden-av slitage, eller fel till exempel-är konstant, Weibull distribution kan modellera ökande (eller minskande) fel över tiden. Exponentiellt är bara ett specialfall.

Tänk på ”Weibull” när chatten vänder sig till time-to-failure.

Normal, Log-Normal, Studentens t och Chi-squared

den normala fördelningen, eller Gaussisk distribution, är kanske den viktigaste av alla. Dess klockform är omedelbart igenkännlig., Som e, det är en nyfiket särskild enhet som dyker upp överallt, från till synes enkla källor. Ta en massa värden efter samma fördelning – någon fördelning-och summera dem. Fördelningen av deras summa följer (ungefär) den normala fördelningen. Ju fler saker som summeras desto mer matchar deras Sums fördelning den normala fördelningen. (Varning: måste vara en väluppfostrad fördelning, måste vara oberoende, bara tenderar att den normala fördelningen.) Det faktum att detta är sant oavsett den underliggande fördelningen är fantastiskt.,

detta kallas central limit theorem, och du måste veta att det här är vad det kallas och vad det betyder, eller du kommer omedelbart att häcklas.

i den meningen gäller det alla distributioner. Men det är särskilt relaterat till utdelningar av summor av saker. Summan av Bernoulli-studier följer en binomialfördelning, och när antalet försök ökar blir binomialfördelningen mer som den normala fördelningen. Dess kusin den hypergeometriska fördelningen gör också., Poisson-distributionen — en extrem form av binomial-närmar sig också den normala fördelningen när hastighetsparametern ökar.

ett resultat som följer en log-normal fördelning tar på värden vars logaritm normalt distribueras. Eller: exponentieringen av ett normalt distribuerat värde är log – normalt fördelat. Om summor av saker fördelas normalt, kom ihåg att produkter av saker är log – normalt fördelade.

Studentens t-distribution är grunden för t-testet som många icke-statistiker lär sig i andra vetenskaper., Det används i resonemang om medelvärdet av en normal fördelning, och närmar sig också den normala fördelningen när dess parameter ökar. Det utmärkande för t-distributionen är dess svansar, som är fetare än den normala distributionens.

om fat-tail anekdot inte är en tillräckligt varm för att wow din granne, gå till sin mildt intressanta Back-storyconcerning öl. För över 100 år sedan använde Guinness statistik för att göra bättre stout. Där utvecklade William Sealy Gosset någon helt ny statistikteori bara för att växa bättre korn., Gosset övertygade chefen att de andra bryggerierna inte kunde räkna ut hur man använder idéerna, och så fick tillstånd att publicera, men bara under pennnamnet ”Student”. Gossets mest kända resultat är denna t-distribution, som är typ av uppkallad efter honom.

slutligen är chi-kvadratfördelningen fördelningen av summan av kvadrater av normalt fördelade värden. Det är fördelningen som ligger till grund för chi-squared-testet som i sig bygger på summan av kvadrater av skillnader, som normalt ska fördelas.,

Gamma och Beta

Vid denna tidpunkt, om du pratar om chi-squared någonting, har konversationen blivit allvarlig. Du talar sannolikt med faktiska statistiker, och du kanske vill ursäkta dig själv vid denna tidpunkt, eftersom saker som gammafördelningen kan komma upp. Det är en generalisering av både exponentiella och chi-kvadrerade distributioner. Mer som den exponentiella distributionen används den som en sofistikerad modell av väntetider. Till exempel kommer gammafördelningen upp när du modellerar tiden tills nästa n-händelser inträffar., Det visas i maskininlärning som” konjugat före ” till ett par distributioner.

kom inte in i den konversationen om konjugerade priors, men om du gör det, se till att du håller på att prata om betadistributionen, eftersom det är konjugatet före de flesta andra distributioner som nämns här. När det gäller Dataforskare är det vad det byggdes för. Nämna detta nonchalant, och gå mot dörren.

visdomens början

sannolikhetsfördelningar är något du inte kan veta för mycket om., Den verkligt intresserade bör kolla in denna otroligt detaljerad karta över alla univariate distributioner. Förhoppningsvis ger denna anekdotiska guide dig förtroendet att verka kunnig och med-det i dagens teknikkultur. Eller åtminstone ett sätt att upptäcka, med stor sannolikhet, när du ska hitta en mindre nördig cocktailparty.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *

Hoppa till verktygsfältet