közös valószínűségi eloszlások: az Adattudós kiságy lapja

https://blog.cloudera.com/blog/2015/12/common-probability-distributions-the-data-scientists-crib-sheet/

adatok a tudósok több száz valószínűségi eloszlást választanak. Hol kezdjem?

Az adatok tudománya, bármi is legyen, továbbra is nagy ügy. “Az adattudós jobb a statisztikában, mint bármelyik szoftvermérnök” – hallhatja a pundit a helyi tech összejöveteleken és hackathonokon. Az alkalmazott matematikusok bosszút állnak, mert a statisztikákról a 20-as évek óta nem beszéltek., Van saját legitimáló Venn diagramjuk, amelyből az emberek nem viccelnek. Hirtelen te vagy, a mérnök, kihagyta a csevegést a bizalmi intervallumokról, ahelyett, hogy az elemzőkre támaszkodna, akik még soha nem hallottak az Apache Bikeshed projektről az elosztott megjegyzésformázáshoz. Ahhoz, hogy beilleszkedj, hogy újra a párt életévé és lelkévé válj, szükség van egy gyorstalpalóra a statisztikákban. Nem elég ahhoz, hogy ez jobb, de elég ahhoz, hogy úgy hangzik, mint te, azáltal, hogy az alapvető megfigyelések.

a valószínűségi eloszlások alapvetőek a statisztikákhoz, csakúgy, mint az adatstruktúrák a számítástechnikához., Ők az a hely, ahol elkezdhet tanulni, ha úgy akarsz beszélni, mint egy adattudós. Néha megúszhatja az egyszerű elemzést R vagy scikit segítségével-tanuljon anélkül, hogy megértené a disztribúciókat, csakúgy, mint egy Java programot a hash funkciók megértése nélkül. De hamarosan könnyek, bogarak, hamis eredmények, vagy ami még rosszabb: sóhajok és szemforgatás a statisztikákból.

több száz valószínűségi eloszlás létezik, néhány olyan középkori legenda szörnyeként hangzik, mint a Muth vagy a Lomax. Csak körülbelül 15 a disztribúciók következetesen jelennek meg a gyakorlatban., Mik ezek, és milyen okos meglátásokat kell megjegyezned mindegyikről?

a dolgok mindig történnek: kockákat dobnak, esik az eső, buszok érkeznek. A konkrét eredmények azonban biztosak: a kocka 3-4-re állt fel, ma fél centis eső volt, a busz 3 perc alatt érkezett meg. Korábban csak arról beszélhetünk, hogy milyen valószínűek az eredmények. A valószínűségi eloszlások leírják, hogy mit gondolunk az egyes eredmények valószínűségéről, ami néha érdekesebb tudni, mint egyszerűen melyik eredmény a legvalószínűbb., Jönnek a sok formában, de csak egy méret: valószínűségek eloszlása mindig összeadódik 1.

például egy tisztességes érme megfordításának két eredménye van:fej vagy írás. (Tegyük fel, hogy nem tud leszállni szélén, vagy ellopják egy sirály a levegőben.) A flip előtt úgy gondoljuk, hogy van egy 1 Az 2 esélye, vagy 0.5 valószínűsége a fejeknek. Ugyanez igaz a farokra is. Ez egy valószínűségi eloszlás a flip két kimenetele felett, és ha követed ezt a mondatot, már elsajátítottad a Bernoulli eloszlást.,

az egzotikus nevek ellenére a közös disztribúciók intuitív és érdekes módon kapcsolódnak egymáshoz, amelyek megkönnyítik a visszahívást,és a hatalom levegőjével foglalkoznak. Sokan természetesen követik például a Bernoulli eloszlást. Itt az ideje, hogy felfedje a kapcsolatok térképét.,

Közös valószínűségi eloszlások esetén néhány fő kapcsolatok

Minden eloszlását szemlélteti egy példa a sűrűségfüggvényt (PDF). Ez a bejegyzés csak az eredmények eloszlásával foglalkozik, amelyek egyetlen számok. Tehát az egyes dobozok vízszintes tengelye a lehetséges numerikus eredmények halmaza. A függőleges tengely leírja az eredmények valószínűségét., Néhány disztribúció diszkrét, olyan eredményekkel szemben, amelyeknek egész számoknak kell lenniük, mint például 0 vagy 5. Ezek ritka vonalakként jelennek meg, mindegyik eredményhez egy, ahol a vonalmagasság az eredmény valószínűsége. Néhány folyamatos, az eredmények, hogy vehet bármilyen valós numerikus érték, mint a -1.32 vagy 0.005. Ezek sűrű görbékként jelennek meg, ahol a görbe szakaszai alatti területek valószínűségeket adnak. A vonalak magasságának és a görbék alatti területeknek az összege mindig 1.

nyomtasson, vágja le a pontozott vonal mentén, majd vigye magával a pénztárcájába vagy a pénztárcájába., Ez a terepi útmutató pecsételő disztribúciók és a rokonok.

Bernoulli és Uniform

a fenti Bernoulli-eloszlással találkozott, két különálló kimenetel felett-farok vagy fej. Gondolj rá azonban úgy, mint egy 0 és 1, több mint 0 fej (azaz farok) vagy 1 fej feletti Eloszlás. Fent mindkét eredmény egyformán valószínű volt, és ez az, amit az ábra szemléltet. A Bernoulli PDF két sor egyenlő magasságú, ami a két egyformán valószínű eredmények 0 és 1 mindkét végén.,

a Bernoulli-Eloszlás olyan eredményeket jelenthet, amelyek nem egyformán valószínűek, mint egy tisztességtelen pénzfeldobás eredménye. Ezután a fejek valószínűsége nem 0,5, hanem egy másik p érték, a farok valószínűsége 1-p. mint sok disztribúció, ez valójában a paraméterek által meghatározott eloszlások családja, mint például a p itt. Ha úgy gondolja, “Bernoulli, “csak úgy gondolja” (esetleg tisztességtelen) pénzfeldobás.”

rövid ugrás elképzelni egy eloszlást sok egyenlően valószínű eredmény felett: az egyenletes eloszlást, amelyet lapos PDF jellemez. Képzelj el egy tisztességes halált., Az eredmények 1-6 egyaránt valószínű. Meg lehet határozni tetszőleges számú kimenetelek n vagy akár egy folyamatos elosztás.

társítsa az egységes eloszlást a “tisztességes kocka gördítésével”.”

binomiális és hipergeometrikus

a binomiális eloszlást a Bernoulli-eloszlást követő dolgok eredményeinek összegeként lehet értelmezni. Dobj egy tisztességes érmét 20 alkalommal;hányszor jön fel a fej? Ez a szám olyan eredmény, amely követi a binomiális eloszlást. Paraméterei n, a kísérletek száma, p, a “siker” valószínűsége (itt: fej vagy 1)., Minden flip egy Bernoulli-elosztott eredmény, vagy tárgyalás. Érje el a binomiális eloszlást, amikor számolja a sikerek számát olyan dolgokban, amelyek úgy viselkednek, mint egy érmefeldobás, ahol minden flip független, ugyanolyan valószínűséggel jár a sikerhez.

vagy képzeljünk el egy urnát egyenlő számú fehér és fekete golyóval. Csukja be a szemét, rajzoljon egy labdát, vegye figyelembe, hogy fekete-e, majd tegye vissza. Ismétlem. Hányszor rajzoltál egy fekete labdát? Ez a szám egy binomiális eloszlást is követ.,

a furcsa helyzet elképzelésének van egy pontja, mert egyszerűvé teszi a hipergeometrikus eloszlás magyarázatát. Ez ugyanaz a szám eloszlása, ha a golyókat csere nélkül húzták. Tagadhatatlanul a binomiális eloszlás unokatestvére, de nem ugyanaz, mert a siker valószínűsége megváltozik, amikor a golyókat eltávolítják. Ha a golyók száma nagy a húzások számához képest, akkor az eloszlások hasonlóak, mivel a siker esélye minden egyes sorsolással kevésbé változik.,

Amikor az emberek beszélnek veszi labdákat urnák csere nélkül, majdnem mindig biztonságban közbevágni, “a hypergeometric engedély, igen”, mert én még soha nem találkoztam senkivel, aki valójában tele urnák a golyókat, aztán választotta ki őket, s helyébe őket, vagy más módon, a valós életben. (Nem is ismerek senkit, akinek urna van.) Tágabb értelemben a populáció egy jelentős részhalmazának mintaként történő kiválasztásánál kell eszébe jutnia.

Poisson

mi a helyzet azon ügyfelek számával, akik percenként támogatási forródrótot hívnak?, Ez egy olyan eredmény, amelynek eloszlása binomiálisnak hangzik, ha minden másodpercet Bernoulli-próbának tekintünk, amelyben az ügyfél nem hívja (0) vagy nem (1). Amint azonban az áramszolgáltató tudja, amikor a hatalom kialszik, 2 vagy akár több száz ember hívhat ugyanabban a másodpercben. A 60,000 milliszekundumos méretű próbáknak való megtekintés még mindig nem érinti a problémát — még sok más próba, sokkal kisebb az 1 hívás valószínűsége, nem is beszélve 2 vagy több, de technikailag még mindig nem Bernoulli próba. Ennek végtelen, logikus következtetése azonban működik., Let n go to infinity and let p go to 0 to match, so that np stays the same. Ez olyan, mintha végtelenül sok végtelenül kis időszelet felé haladna, amelyben a hívás valószínűsége végtelen. A korlátozó eredmény a Poisson eloszlás.

mint a binomiális eloszlás, a Poisson eloszlás egy szám eloszlása — az idők száma valami történt. Ezt nem egy P valószínűség és az n kísérletek száma paraméterezi, hanem egy λ átlagsebesség, ami ebben az analógiában egyszerűen az NP állandó értéke., A Poisson-eloszlás az, amire gondolnia kell, amikor megpróbálja számolni az eseményeket egy idő alatt, figyelembe véve az események folyamatos sebességét.

amikor olyan dolgok érkeznek, mint a csomagok az útválasztókhoz, vagy az ügyfelek megérkeznek egy boltba, vagy a dolgok valamilyen sorban várnak, gondoljon “Poisson.”

geometriai és negatív binomiális

az egyszerű Bernoulli-kísérletekből egy másik Eloszlás keletkezik. Hányszor fordul elő egy tükrözött érme írás előtt, mielőtt először jön fel a fej? Ez a farok szám geometriai eloszlást követ., Mint a Bernoulli-Eloszlás, úgy a P is, a végső siker valószínűsége. Ez nem paraméterezett n, számos kísérlet vagy fejtetőre, mert a kudarc kísérletek száma maga az eredmény.

Ha a binomiális eloszlás ” hány siker?”akkor a geometriai eloszlás” hány kudarc, amíg a siker?”

a negatív binomiális eloszlás egy egyszerű általánosítás. Ez a hibák száma, amíg r sikerek történtek, nem csak 1. Ezért paraméterezett is r. néha le, mint a sikerek száma, amíg r hibák., Ahogy a life coach mondja, a siker és a kudarc az, aminek te definiálod őket, tehát ezek egyenértékűek, mindaddig, amíg egyenesen tartod, hogy p a siker vagy a kudarc valószínűsége.

ha kell egy jégtörő, lehet rámutatni, hogy a binomiális és hipergeometrikus eloszlások egy nyilvánvaló pár, de a geometriai és negatív binomiális eloszlások is elég hasonló, majd azt mondják, “Úgy értem, ki nevezi ezeket a dolgokat, igazam van?”

Exponenciális és Weibull

vissza az ügyfélszolgálati hívásokhoz: meddig tart a következő ügyfélhívás?, Ennek a várakozási időnek a megoszlása úgy hangzik, mintha geometriai lenne, mert minden másodperc, amelyet senki sem hív, olyan, mint egy hiba, amíg egy másodperc, amelyben végül egy ügyfél hív. A hibák száma olyan, mint azoknak a másodperceknek a száma, amelyeket senki sem hívott, és ez majdnem a várakozási idő a következő hívásig, de szinte nem elég közel. A fogás ezúttal az, hogy az összeg mindig teljes másodpercben lesz, de ez nem veszi figyelembe a másodpercen belüli várakozást, amíg az ügyfél végül nem hívott.,

mint korábban, vigye a geometriai eloszlást a határig, a végtelenített időszeletek felé, és működik. Megkapja az exponenciális eloszlást, amely pontosan leírja az idő eloszlását egy hívásig. Ez egy folyamatos eloszlása, az első találkozott itt, mert az eredmény idő nem kell egész másodperc. Mint a Poisson eloszlás, ez paraméterezett sebességgel λ.

a binomiális-geometriai összefüggés visszhangja, Poisson ” hány esemény egy időben?”kapcsolódik az exponenciális” mennyi ideig, amíg egy esemény?,”Adott események, amelyek száma idő után következik Poisson eloszlás, akkor az idő az események között következik exponenciális eloszlás azonos sebességgel paraméter λ. A két disztribúció közötti levelezés elengedhetetlen a névellenőrzéshez, amikor bármelyikről beszélünk.

Az exponenciális eloszlásnak eszébe kell jutnia, amikor az “idő az eseményig”, talán “idő a kudarcig.”Valójában ez annyira fontos, hogy általánosabb eloszlások léteznek az idő-kudarc leírására, mint például a Weibull Eloszlás., Míg az exponenciális eloszlás akkor megfelelő, ha például a kopás vagy a meghibásodás aránya állandó, a Weibull Eloszlás az idő múlásával növekvő (vagy csökkenő) meghibásodási arányokat modellezhet. Az exponenciális csupán egy különleges eset.

Gondolj a “Weibull”-ra, amikor a csevegés időről időre meghibásodik.

Normal, Log-Normal, Student ‘ s t, and Chi-squared

a normal distribution, or Gaussian distribution, is maybe the most important of all. Harang alakja azonnal felismerhető., Mint e, ez egy kíváncsian különleges entitás, amely felbukkan az egész, látszólag egyszerű forrásokból. Vegyünk egy csomó értéket ugyanazt az eloszlást-bármilyen eloszlást-követve, és összegezzük őket. Összegük eloszlása (megközelítőleg) a normál eloszlást követi. Minél több dolgot összegeznek, annál nagyobb az összeg eloszlása megegyezik a normál eloszlással. (Figyelmeztetések: jól viselkedő eloszlásnak kell lennie, függetlennek kell lennie, csak a normál eloszlásra hajlamos.) Az a tény, hogy ez igaz, függetlenül a mögöttes eloszlástól, elképesztő.,

ezt nevezik a központi limit tételnek, és tudnod kell, hogy ezt hívják, és mit jelent, vagy azonnal le leszel nyűgözve.

ebben az értelemben minden disztribúcióra vonatkozik. Ez azonban különösen a dolgok összegeinek elosztásával kapcsolatos. A Bernoulli-kísérletek összege egy binomiális eloszlást követ, és ahogy a kísérletek száma növekszik, a binomiális eloszlás egyre inkább hasonlít a normál eloszlásra. Unokatestvére a hipergeometrikus eloszlás is., A Poisson-eloszlás-a binomiális szélsőséges formája-szintén megközelíti a normál eloszlást, mivel a sebességparaméter növekszik.

egy log-normál eloszlást követő eredmény olyan értékeket vesz fel, amelyek logaritmusa általában eloszlik. Vagy: egy normálisan elosztott érték exponenciája log-általában eloszlik. Ha a dolgok összegeit általában elosztják, akkor ne feledje, hogy a dolgok termékei naplóban vannak elosztva.

A hallgató t-eloszlása a T-teszt alapja, amelyet sok nem statisztikus tanul más tudományokban., A normál eloszlás átlagának értelmezésére használják, és a paraméter növekedésével megközelíti a normál eloszlást is. A T-Eloszlás megkülönböztető jellemzője a farka, amely kövérebb, mint a normál eloszlás.

Ha a kövér farok anekdota nem elég forró ahhoz, hogy a szomszédod wow, menj az enyhén érdekes hátsó storyconcerning söréhez. Több mint 100 évvel ezelőtt a Guinness statisztikákat használt, hogy jobb legyen. Ott, William Sealy Gosset kifejlesztett egy teljesen új statisztikai elméletet, csak hogy jobb árpát termeljen., Gosset meggyőzte a főnököt, hogy a többi sörfőző nem tudta kitalálni, hogyan kell használni az ötleteket, így engedélyt kapott a közzétételre, de csak a “Student”tollnév alatt. Gosset legismertebb eredménye ez a T-Eloszlás, amelyet egyfajta elneveztek róla.

végül a chi-négyzetes Eloszlás a normálisan elosztott értékek négyzeteinek összegének eloszlása. Ez a chi-négyzetes teszt alapját képező Eloszlás, amely önmagában a különbségek négyzeteinek összegén alapul, amelyeket általában el kell osztani.,

Gamma és béta

Ezen a ponton, ha beszélünk chi-négyzet semmit, akkor a beszélgetés ütött komoly. Valószínűleg tényleges statisztikusokkal beszélget, és talán most is elnézést szeretne kérni, mert felmerülhetnek olyan dolgok, mint a gamma-eloszlás. Ez mind az exponenciális, mind a chi-négyzetes eloszlások általánosítása. Inkább az exponenciális eloszláshoz hasonlóan a várakozási idők kifinomult modelljeként használják. Például a gamma-eloszlás akkor jön létre, amikor modellezi a következő N események bekövetkezéséig eltelt időt., Úgy tűnik, a gépi tanulás, mint a “konjugált előtt” egy pár eloszlások. nem a beszélgetés konjugált priusza, de ha mégis, biztos, hogy arról beszélni, hogy a béta-eloszlás, mert a konjugált előtt, hogy a legtöbb minden más terjesztési itt említett. Ami az adatokat illeti a tudósok, erre építették. Említsd meg ezt véletlenül, és menj az ajtó felé.

A bölcsesség kezdete

a valószínűségi eloszlások olyan dolgok, amelyekről nem tudhatsz túl sokat., Az igazán érdekeltnek ellenőriznie kell ezt a hihetetlenül részletes térképet az összes univariate disztribúcióról. Remélhetőleg, ez anekdotikus útmutató megadja a bizalmat, hogy úgy tűnik, tájékozott és vele-ez a mai tech kultúra. Vagy legalábbis egy módja annak, hogy nagy valószínűséggel észleljük, mikor kell találni egy kevésbé idétlen koktélpartit.

Avenir

Condominium

közös valószínűségi eloszlások: az Adattudós kiságy lapja