Uusintapainos https://blog.cloudera.com/blog/2015/12/common-probability-distributions-the-data-scientists-crib-sheet/
Tietojen tutkijat ovat satoja todennäköisyys jakaumat, joista valita. Mistä aloittaa?
Datatiede, oli se mikä tahansa, on edelleen iso juttu. ”Data scientist on parempia tilastoja kuin mikään ohjelmistosuunnittelija,” saatatte kuulla asiantuntija sanoa, paikalliselta tech illanviettoja ja hackathons. Sovelletut matemaatikot saavat kostonsa, koska tilastot eivät ole olleet näin puhuttuja 20-luvun jälkeen., Heillä on oma legitimoiva Venn-kaavio, josta ihmiset eivät pidä hauskaa. Yhtäkkiä se on sinun, insinööri, vasen ulos chat noin luottamusvälit sijaan tutting klo analyytikot, jotka eivät ole koskaan kuulleet Apache Bikeshed hanke jaetaan kommentti muotoilua. Mahtuaksesi joukkoon, ollaksesi taas sen puolueen sielu, tarvitset syöksykurssin tilastoissa. Ei tarpeeksi, että saisi sen oikein, mutta tarpeeksi kuulostaakseen siltä, että voisi, tekemällä perushavaintoja.
todennäköisyysjakaumat ovat tilastolle olennaisia, aivan kuten Tietorakenteet ovat tietojenkäsittelytieteelle., Siellä voi aloittaa opiskelun, jos aikoo puhua kuin datatutkija. Voit joskus päästä eroon yksinkertaisesta analyysistä käyttämällä R – tai scikit-oppia ilman varsin ymmärrystä jakaumia, aivan kuten voit hallita Java-ohjelmaa ymmärtämättä hash-toimintoja. Mutta se olisi pian päättyy kyyneliin, vikoja, vääriä tuloksia, tai vielä pahempaa: huokaa ja silmä-liikkuvan alkaen tilastot suuret yhtiöt.
todennäköisyysjakaumia on satoja, joista osa kuulostaa keskiaikaisen legendan, kuten Muthin tai Lomaxin, hirviöiltä. Vain noin 15 jakaumaa ilmestyy johdonmukaisesti käytännössä kuitenkin., Mitä ne ovat, ja mitä näppäriä oivalluksia niistä jokaisesta kannattaa opetella ulkoa?
asioita tapahtuu koko ajan: Nopat rullataan, sataa, bussit saapuvat. Jälkeenpäin, erityisiä tuloksia on varma: noppaa tuli 3 ja 4, siellä on puoli tuumaa sadetta tänään, bussi kesti 3 minuuttia saapua. Aiemmin voidaan puhua vain siitä, kuinka todennäköisiä tulokset ovat. Todennäköisyysjakaumat kuvaavat sitä, mitä pidämme kunkin tuloksen todennäköisyytenä, mikä on joskus kiinnostavampaa tietää kuin yksinkertaisesti se, mikä yksittäinen tulos on todennäköisin., Niitä on monia muotoja, mutta vain yhdessä koossa: todennäköisyydet jakaumassa ovat aina 1.
esimerkiksi reilun kolikon kääntelyllä on kaksi lopputulosta: se laskeutuu kruunaan tai häntään. (Oleta, ettei lokki voi laskeutua reunalle tai varastaa sitä ilmassa.) Ennen volttia uskomme, että päiden todennäköisyys on 1 2 tai 0,5. Sama pätee häntiin. Se on todennäköisyysjakauma voltin kahdesta tuloksesta, ja jos voit seurata tuota lausetta, hallitset jo Bernoullin jakauman.,
Huolimatta eksoottisia nimiä, yhteisen jakaumat liittyvät toisiinsa intuitiivinen ja mielenkiintoisia tapoja, joilla ne on helppo muistaa, ja huomautus ilmaa viranomainen. Useat seuraavat luonnollisesti esimerkiksi Bernoullin levinneisyydestä. On aika paljastaa parisuhdekartta.,
Jokainen jakelu on havainnollistaa esimerkiksi sen todennäköisyystiheysfunktio (PDF). Tämä viesti käsittelee vain jakaumia tuloksia, jotka ovat yksittäisiä numeroita. Joten, vaaka-akseli kussakin laatikossa on joukko mahdollisia numeerisia tuloksia. Pystyakseli kuvaa tulosten todennäköisyyttä., Jotkut jakaumat ovat diskreettejä, yli tuloksia, joiden on oltava kokonaislukuja kuten 0 tai 5. Nämä esiintyvät harvalukuisina viivoina, yksi jokaiselle tulokselle, jossa viivan korkeus on tuon tuloksen todennäköisyys. Jotkut ovat jatkuvia, sillä tulokset voivat ottaa minkä tahansa todellisen numeerisen arvon, kuten -1.32 tai 0.005. Nämä näkyvät tiheinä käyrinä, joissa käyrän osien alla olevat alueet antavat todennäköisyyksiä. Linjojen korkeuksien ja käyrien alla olevien alueiden summat ovat aina 1.
tulosta, leikkaa pisteviivaa pitkin ja ota se mukaasi lompakkoon tai käsilaukkuun., Tämä on kenttäopas bongaamaan jakeluita ja niiden sukulaisia.
Bernoulli ja Yhtenäinen
Olet tavannut Bernoulli-jakauma edellä, yli kaksi erillisiä tuloksia — klaava tai kruuna. Ajattele sitä kuitenkin jakaumana yli 0 ja 1, Yli 0 päätä (eli hännät) tai 1 Päätä. Edellä, molemmat tulokset olivat yhtä todennäköisiä, ja se on mitä havainnollistetaan kaaviossa. Bernoullin PDF on kaksi riviä yhtä suuri korkeus, joka edustaa kaksi yhtä todennäköistä tulokset 0 ja 1 kummassakin päässä.,
Bernoullin jakauma voisi edustaa tuloksia, jotka eivät ole yhtä todennäköisiä, kuten epäreilun kolikonheiton tulos. Niin, todennäköisyys päät on 0,5, mutta jokin muu arvo, p, ja todennäköisyys klaava on 1-p. Kuten monet jakaumat, se on oikeastaan perhe jakaumat määritellään parametrit, kuten p täällä. Kun ajattelee ”Bernoulli,” vain ajatella ” (mahdollisesti epäreilua) kolikonheitto.”
Se on lyhyt hyppy kuvitella jakelu monta yhtä todennäköisesti tuloksia: yhtenäinen jakelu, jolle on ominaista tasainen PDF. Kuvittele, että kuolet reilusti., Tulokset 1-6 ovat yhtä todennäköisiä. Se voidaan määritellä minkä tahansa määrän tuloksia n tai jopa jatkuva jakauma.
yhdistää yhdenmukaisen jakauman ”rolling a fair dieen.”
Binomisen ja Hypergeometrinen
binomijakauman voi olla ajatellut kuin summa tuloksia asioita, joka noudattaa Bernoulli-jakauma. Heitä reilu kolikko 20 kertaa; kuinka monta kertaa se tulee päihin? Tämä luku on tulos, joka seuraa binomijakaumaa. Sen parametrit ovat n, kokeiden lukumäärä, ja p, todennäköisyys ”menestys” (tässä: päätä, tai 1)., Jokainen voltti on Bernoullin jakama tulos eli oikeudenkäynti. Tavoitella binomijakauman kun laskee useita onnistumisia, asioita, jotka toimivat kuin kolikon flip, jossa jokainen flip on riippumaton ja sillä on sama todennäköisyys menestys.
tai, kuvitelkaa uurna, jossa on yhtä monta valkoista ja mustaa palloa. Sulje silmäsi ja piirrä pallo ja huomaa, onko se musta, sitten laita se takaisin. Toista. Montako kertaa vedit mustan pallon? Tämä luku seuraa myös binomijakaumaa.,
Kuvittele tätä outoa tilannetta on järkeä, koska se tekee helppo selittää hypergeometrinen jakelu. Tämä on jako sama määrä, jos pallot arvottiin ilman korvaavia sijaan. Kieltämättä se on serkku binomijakauman, mutta ei ole sama, koska onnistumisen todennäköisyys muuttuu, kun pallot poistetaan. Jos pallojen määrä on suuri suhteessa arvontojen määrään, jakaumat ovat samanlaisia, koska onnistumisen mahdollisuus muuttuu vähemmän jokaisen arvonnan myötä.,
Kun ihmiset puhuvat poiminta palloja uurnat ilman vaihto, se on lähes aina turvallista sanoa, ”hypergeometrinen jakauma, kyllä,” koska en ole koskaan tavannut ketään, joka todella täynnä palloja uurnat ja sitten noutaa ne pois, ja korvata ne tai muuten tosielämässä. (En edes tunne ketään, joka omistaa uurnan.) Laajemmin, se pitäisi tulla mieleen, kun valitaan merkittävä osajoukko väestöstä otoksena.
Poisson
Entä kreivi asiakkaita soittamalla tuki hotline jokainen minuutti?, Se on tulos, jonka jakelu kuulostaa binomisen, jos luulet jokainen sekunti kuin Bernoulli oikeudenkäynnin, jossa asiakas ei soita (0) tai ei (1). Kuitenkin, kuten sähköyhtiö tietää, kun virta sammuu, 2 tai jopa satoja ihmisiä voi soittaa samalla sekunnilla. Katselu se 60000 millisekunnin-kokoinen tutkimuksissa ei vieläkään kiertää ongelma — paljon enemmän kokeita, paljon pienempi todennäköisyys 1 soittaa, saati sitten 2 tai enemmän, mutta vielä ei ole teknisesti Bernoulli oikeudenkäynnin. Tämän vieminen äärettömään, loogiseen johtopäätökseen kuitenkin toimii., Let n mennä äärettömään ja anna mennä p 0 vastaamaan niin, että np pysyy samana. Tämä on kuin suuntaisi äärettömän monta infinitesimaalisen pientä aikaviipaletta, joissa puhelun todennäköisyys on äärettömän pieni. Rajoittava tulos on Poissonin jakauma.
Kuten binomijakauma, Poisson-jakauma on jakauma on count — määrä kertaa jotain tapahtui. Se on parametroituja ei todennäköisyys p ja kokeiden lukumäärä n, mutta keskimäärin nopeudella λ, joka tässä vertauksessa on yksinkertaisesti vakio arvo np., Poisson-jakauma on mitä sinun täytyy ajatella, kun yrittää laskea tapahtumien aikaan, koska jatkuva määrä tapahtumia.
kun reitittimiin saapuu esimerkiksi paketteja tai asiakkaat saapuvat kauppaan tai asiat odottavat jonkinlaisessa jonossa, tuumii ”Poisson.”
Geometrinen ja negatiivinen binomi
yksinkertaisista Bernoulli-tutkimuksista syntyy toinen jakauma. Montako kertaa kolikko nousee hännille, ennen kuin se nousee pää edellä? Tämä häntien lukumäärä noudattaa geometrista jakaumaa., Kuten Bernoullin jakauma, se on parametrisoitu p, todennäköisyys, että lopullinen menestys. Se ei ole parametrisoitu n, useita kokeita tai voltteja, koska määrä epäonnistuminen kokeet on tulos itse.
Jos binomijakauma on ” kuinka monta onnistumista?”sitten geometrinen jakauma on” kuinka monta epäonnistumista kunnes menestys?”
negatiivinen binomijakauma on yksinkertainen yleistys. Se on epäonnistumisten määrä, kunnes R-onnistumisia on tullut, ei vain 1. Se on siis parametrisoitu myös R. joskus se on kuvattu useita onnistumisia kunnes r epäonnistumisia., Kuten elämäni valmentaja sanoo, menestys ja epäonnistuminen ovat sitä, mitä määrittelet ne olevan, joten nämä ovat vastaavia, kunhan pysyt suorassa, onko p onnistumisen tai epäonnistumisen todennäköisyys.
Jos tarvitset ice-breaker, saatat huomauttavat, että binomisen ja hypergeometrinen jakaumat ovat ilmiselvä pari, mutta geometrinen ja negative binomial jakaumat ovat myös melko samanlaisia, ja sitten sanoa, ”kuka nimet nämä asiat, olenko oikeassa?”
Eksponentti-ja Weibull
Takaisin asiakastuki puhelut: kuinka kauan kunnes seuraava asiakas soittaa?, Tämän odotusajan jakaminen kuulostaa siltä, että se voisi olla geometrinen, koska jokainen sekunti, jota kukaan ei soita, on kuin epäonnistuminen, kunnes sekunti, johon lopulta asiakas soittaa. Vikojen määrää on kuin monta sekuntia, että kukaan ei soittanut, ja se on lähes odotusaika, kunnes seuraava puhelun, mutta melkein ei ole tarpeeksi lähellä. Saalis tällä kertaa on se, että summa on aina koko sekunnissa, mutta tämä ei ota huomioon odottaa sisällä, että toinen, kunnes asiakas lopulta kutsutaan.,
kuten ennenkin, vie geometrinen jakauma äärirajoille, kohti äärettömän pieniä aikaviipaleita, ja se toimii. Saat eksponentiaalisen jakauman, joka kuvaa tarkasti ajan jakautumista puheluun asti. Se on jatkuva jakelu, ensimmäinen kohtasi täällä, koska tulosajan ei tarvitse olla kokonaisia sekunteja. Poissonin jakauman tavoin se parametrisoidaan nopeudella λ.
kaikuu binominen-geometrinen suhde, Poissonin ”kuinka monta tapahtumaa per aika?”liittyy eksponentiaalin ”” kuinka kauan ennen tapahtumaa?,”Koska tapahtumia, joiden määrä per aika noudattaa Poisson-jakaumaa, niin aika välillä tapahtumia seuraa eksponentiaalisen jakauman kanssa samaan tahtiin parametri λ. Tämä kirjeenvaihto kahden jakaumat on välttämätöntä nimi-tarkista, kun keskustelemme kumpaakaan.
eksponentiaalinen jakauma tulee mieleen ajateltaessa ”aikaa tapahtumaan asti”, ehkä ”aikaa epäonnistumiseen asti.”Itse asiassa tämä on niin tärkeää, että on olemassa yleisempiä jakaumia kuvaamaan aikaa epäonnistumiseen, kuten Weibullin jakauma., Ottaa huomioon, että eksponenttijakauma on sopiva, kun korko — kulumista, tai epäonnistuminen esimerkiksi — on vakio, Weibull-jakauma voidaan mallintaa lisäämällä (tai vähentämällä) hinnat epäonnistumisen ajan. Eksponentiaali on vain erikoistapaus.
ajattele ”Weibullia”, kun chat kääntyy aika-ajo-epäonnistumiseen.
Normaali, Log-Normaali, Student t, ja Chi-squared
normaalijakaumaa, tai Gaussin jakauma, on ehkä kaikkein tärkein. Sen kellomuoto on heti tunnistettavissa., Kuten e, se on omituisen erityinen kokonaisuus, joka ilmestyy joka puolelle, näennäisesti yksinkertaisista lähteistä. Ota joukko arvoja, jotka seuraavat samaa jakaumaa — mitä tahansa jakaumaa-ja summaa ne. Niiden summan jakauma seuraa (suunnilleen) normaalijakaumaa. Mitä enemmän asioita summataan, sitä enemmän niiden summa jakautuu normaaliin jakaumaan. (Varoitukset: on oltava hyvin käyttäytyviä jakelu, on oltava riippumaton, vain yleensä normaalijakaumaa.) Se, että tämä on totta riippumatta taustalla jakauma on hämmästyttävä.,
Tätä kutsutaan keski-raja-lause, ja sinun täytyy tietää, että tämä on mitä se on nimeltään ja mitä se tarkoittaa, tai olet heti kiusaamaan.
tässä mielessä se liittyy kaikkiin jakaumiin. Se liittyy kuitenkin erityisesti summien jakamiseen. Bernoullin kokeiden summa seuraa binomijakaumaa, ja kokeiden määrän kasvaessa binomijakauma muistuttaa enemmän normaalijakaumaa. Sen serkku hypergeometrinen Jakelu tekee samoin., Poisson-jakauma — äärimmäinen binomimuoto-lähestyy myös normaalijakaumaa, kun nopeusparametri kasvaa.
log-normaalijakaumaa seuraava tulos saa arvot, joiden logaritmi on normaalisti jakautunut. Tai: normaalisti jaetun arvon eksponentti on log-normaalisti jakautunut. Jos summat asioista jaetaan normaalisti, niin muista, että tuotteiden asiat ovat loki – normaalisti jaetaan.
opiskelijan t-jakelu on perusta t-testille, jonka monet ei-tilastotieteilijät oppivat muissa tieteissä., Sitä käytetään päättelyssä normaalijakauman keskiarvosta ja lähestytään myös normaalijakaumaa sen parametrin kasvaessa. Erottava piirre t-jakelu ovat sen hännät, jotka ovat lihavampia kuin normaalijakauma on.
Jos rasva-pyrstö anekdootti ei ole tarpeeksi kuuma kestää wow lähimmäistäsi, mennä sen lievästi-mielenkiintoinen back-storyconcerning olutta. Yli 100 vuotta sitten Guinness käytti tilastoja parantaakseen stoutia. Siellä William Sealy Gosset kehitti uuden stats-teorian vain kasvattaakseen parempaa ohraa., Gosset vakuuttunut, pomo, että muut panimot voinut selvittää, miten käyttää ideoita, ja niin sai luvan julkaista, mutta vain nimimerkillä ”Student”. Gossetin tunnetuin tulos on tämä t-jakelu, joka on tavallaan nimetty hänen mukaansa.
lopulta chi-neliöjakauma on normaalisti jaettujen arvojen neliösumman jakauma. Se on jakauma, joka tukee chi-squared testi, joka itse perustuu summa neliöt eroja, jotka on tarkoitus jakaa normaalisti.,
Gamma ja Beta
tässä vaiheessa, jos puhut chi-squared mitään, niin keskustelu on saanut vakavia. Puhut todennäköisesti varsinaisille tilastotieteilijöille, ja haluat ehkä tässä vaiheessa puolustella itseäsi, koska gammajakauman kaltaiset asiat saattavat nousta esiin. Se on sekä eksponentiaalisten että chi-neliöisten jakaumien yleistys. Pikemminkin eksponenttijakaumaa käytetään hienostuneena odotusaikojen mallina. Esimerkiksi gammajakauma tulee esiin mallinnettaessa aikaa, kunnes seuraavat n-tapahtumat tapahtuvat., Se esiintyy koneoppimisessa ”konjugaattina ennen” paria jakoa.
Älä päästä, että keskustelua konjugaatti tuomioita, mutta jos et, varmista, että olet puhua siitä, beta-jakauma, koska se on konjugaatti ennen useimmat joka toinen jakelu mainittu täällä. Mitä datatutkijoihin tulee, sitä varten se on rakennettu. Mainitse tämä rennosti ja liiku kohti ovea.
Viisauden Alku
Todennäköisyys jakaumat ovat jotain et voi tietää liikaa., Todella kiinnostunut pitäisi tarkistaa tämä uskomattoman yksityiskohtainen kartta kaikista univariate jakelut. Toivottavasti tämä empiirisiä opas antaa sinulle luottamusta näkyvät asiantunteva ja kanssa-se nykypäivän tech kulttuuria. Tai ainakin tapa havaita, suurella todennäköisyydellä, kun pitäisi löytää vähemmän nörtti cocktail.