Gemeinsame Wahrscheinlichkeitsverteilungen: Das Data Scientist ’s Crib Sheet

Nachgedruckt von https://blog.cloudera.com/blog/2015/12/common-probability-distributions-the-data-scientists-crib-sheet/

Datenwissenschaftler haben Hunderte von Wahrscheinlichkeitsverteilungen zur Auswahl. Wo soll ich anfangen?

Data science, was immer es auch sein mag, bleibt eine große Sache. „Ein Data Scientist ist besser in der Statistik als jeder Software-Ingenieur“, können Sie einen Experten sagen hören, bei Ihrem lokalen Tech-Treffen und Hackathons. Die angewandten Mathematiker haben ihre Rache, weil Statistik seit den brüllenden 20er Jahren nicht mehr so besprochen wurde., Sie haben ihr eigenes legitimierendes Venn-Diagramm, über das sich die Leute nicht lustig machen. Plötzlich sind Sie es, der Ingenieur, der aus dem Chat über Vertrauensintervalle ausgelassen hat, anstatt sich die Analysten anzusehen, die noch nie von dem Apache Bikeshed-Projekt für verteilte Kommentarformatierung gehört haben. Um fit zu sein, um wieder das Leben und die Seele dieser Partei zu sein, brauchst du einen Crashkurs in Statistiken. Nicht genug, um es richtig zu machen, aber genug, um so zu klingen, als könnten Sie grundlegende Beobachtungen machen.

Wahrscheinlichkeitsverteilungen sind grundlegend für Statistiken, genau wie Datenstrukturen für die Informatik., Sie sind der richtige Ort, um mit dem Studium zu beginnen, wenn Sie wie ein Datenwissenschaftler sprechen möchten. Sie können manchmal mit einfachen Analysen mit R oder scikit-learn davonkommen, ohne Distributionen zu verstehen, genau wie Sie ein Java-Programm verwalten können, ohne Hash-Funktionen zu verstehen. Aber es würde bald in Tränen enden, Fehler, falsche Ergebnisse, oder schlimmer noch: Seufzer und Augenrollen von Statistiken Majors.

Es gibt Hunderte von Wahrscheinlichkeitsverteilungen, einige klingen wie Monster aus mittelalterlichen Legenden wie der Muth oder Lomax. Nur etwa 15 Verteilungen tauchen in der Praxis jedoch konsistent auf., Was sind sie und welche klugen Einsichten über jeden von ihnen sollten Sie sich merken?

Es passiert die ganze Zeit: Würfel werden gerollt, es regnet, Busse kommen an. Nach der Tat sind die spezifischen Ergebnisse sicher: Die Würfel kamen 3 und 4, es gab heute einen halben Zoll Regen, der Bus brauchte 3 Minuten, um anzukommen. Zuvor können wir nur darüber sprechen, wie wahrscheinlich die Ergebnisse sind. Wahrscheinlichkeitsverteilungen beschreiben, was unserer Meinung nach die Wahrscheinlichkeit jedes Ergebnisses ist, was manchmal interessanter ist, als einfach zu wissen, welches einzelne Ergebnis am wahrscheinlichsten ist., Sie kommen in vielen Formen, aber in nur einer Größe: Wahrscheinlichkeiten in einer Verteilung summieren sich immer zu 1.

Zum Beispiel hat das Umdrehen einer fairen Münze zwei Ergebnisse: Sie landet Kopf oder Zahl. (Angenommen, es kann nicht am Rand landen oder von einer Möwe in der Luft gestohlen werden.), Bevor die flip, wir glauben, es ist eine 1 in 2 chance oder 0,5 Wahrscheinlichkeit von Köpfen. Gleiches gilt für Schwänze. Das ist eine Wahrscheinlichkeitsverteilung über die beiden Ergebnisse des Flip, und wenn Sie diesem Satz folgen können, haben Sie die Bernoulli-Verteilung bereits gemeistert.,

Trotz exotischer Namen beziehen sich die gängigen Distributionen auf intuitive und interessante Weise aufeinander, die sie leicht abzurufen und mit einem Hauch von Autorität zu versehen machen. Einige folgen natürlich aus der Bernoulli-Distribution, zum Beispiel. Es ist Zeit, eine Karte der Beziehungen zu enthüllen.,

Gemeinsame Wahrscheinlichkeitsverteilungen und einige Schlüsselbeziehungen

Jede Verteilung wird durch ein Beispiel ihrer Wahrscheinlichkeitsdichtefunktion (PDF) veranschaulicht. Dieser Beitrag befasst sich nur mit Verteilungen der Ergebnisse, die einzelne Zahlen sind. Die horizontale Achse in jedem Feld ist also die Menge möglicher numerischer Ergebnisse. Die vertikale Achse beschreibt die Wahrscheinlichkeit von Ergebnissen., Einige Verteilungen sind diskret, über Ergebnisse, die ganze Zahlen wie 0 oder 5 sein müssen. Diese erscheinen als spärliche Linien, eine für jedes Ergebnis, wobei die Zeilenhöhe die Wahrscheinlichkeit dieses Ergebnisses ist. Einige sind kontinuierlich, für Ergebnisse, die einen echten numerischen Wert wie -1.32 oder 0.005 annehmen können. Diese erscheinen als dichte Kurven, wobei es Bereiche unter Abschnitten der Kurve sind, die Wahrscheinlichkeiten ergeben. Die Summen der Linienhöhen und Flächen unter den Kurven sind immer 1.

Drucken, schneiden entlang der gepunkteten linie, und nehmen sie es mit ihnen in ihre brieftasche oder geldbörse., Dies ist Ihr Feldführer, um Verteilungen und ihre Verwandten zu erkennen.

Bernoulli und Uniform

Sie trafen die Bernoulli — Verteilung oben über zwei diskrete Ergebnisse-Schwänze oder Köpfe. Betrachten Sie es jedoch als eine Verteilung über 0 und 1, über 0 Köpfe (dh Schwänze) oder 1 Köpfe. Oben waren beide Ergebnisse gleich wahrscheinlich, und das ist, was im Diagramm dargestellt ist. Das Bernoulli-PDF hat zwei gleich hohe Zeilen, die die beiden gleich wahrscheinlichen Ergebnisse von 0 und 1 an beiden Enden darstellen.,

Die Bernoulli-Verteilung könnte Ergebnisse darstellen, die nicht gleich wahrscheinlich sind, wie das Ergebnis eines unfairen Münzwurfes. Dann ist die Wahrscheinlichkeit von Köpfen nicht 0,5, sondern ein anderer Wert p, und die Wahrscheinlichkeit von Schwänzen ist 1-p. Wie viele Verteilungen ist es tatsächlich eine Familie von Verteilungen, die durch Parameter definiert sind, wie p hier. Wenn Sie „Bernoulli“ denken, denken Sie einfach „(möglicherweise unfair) Münzwurf.“

Es ist ein kurzer Sprung, sich eine Verteilung über viele gleich wahrscheinliche Ergebnisse vorzustellen: die gleichmäßige Verteilung, die sich durch ihre flache Form auszeichnet. Stellen Sie sich vor, Sie rollen einen fairen Würfel., Die Ergebnisse 1 bis 6 sind gleichermaßen wahrscheinlich. Es kann für eine beliebige Anzahl von Ergebnissen n oder sogar als kontinuierliche Verteilung definiert werden.

Assoziieren Sie die gleichmäßige Verteilung mit „rolling a fair“.“

Binomial und hypergeometrisch

Die Binomialverteilung kann als die Summe der Ergebnisse von Dingen betrachtet werden, die einer Bernoulli-Verteilung folgen. Werfen Sie eine faire Münze 20 mal; wie oft kommt es Köpfe? Diese Zählung ist ein Ergebnis, das der Binomialverteilung folgt. Seine Parameter sind n, die Anzahl der Versuche und p, die Wahrscheinlichkeit eines „Erfolgs“ (hier: Köpfe oder 1)., Jeder Flip ist ein Bernoulli-verteiltes Ergebnis oder Versuch. Greifen Sie nach der Binomialverteilung, wenn Sie die Anzahl der Erfolge in Dingen zählen, die wie ein Münzwurf wirken, wobei jeder Flip unabhängig ist und die gleiche Erfolgswahrscheinlichkeit hat.

Oder stellen Sie sich eine Urne mit gleicher Anzahl weißer und schwarzer Kugeln vor. Schließe deine Augen und zeichne einen Ball und notiere, ob er schwarz ist, dann lege ihn zurück. Wiederholen. Wie oft hast du einen schwarzen Ball gezeichnet? Diese Zählung folgt auch einer Binomialverteilung.,

Sich diese seltsame Situation vorzustellen, hat einen Punkt, der es einfach macht, die hypergeometrische Verteilung zu erklären. Dies ist die Verteilung der gleichen Anzahl, wenn die Kugeln stattdessen ersatzlos gezogen wurden. Unbestreitbar ist es ein Cousin der Binomialverteilung, aber nicht dasselbe, da sich die Erfolgswahrscheinlichkeit ändert, wenn Bälle entfernt werden. Wenn die Anzahl der Bälle relativ zur Anzahl der Ziehungen groß ist, sind die Verteilungen ähnlich, da sich die Erfolgschance mit jeder Ziehung weniger ändert.,

Wenn Leute davon sprechen, Bälle aus Urnen ohne Ersatz zu pflücken, ist es fast immer sicher, „die hypergeometrische Verteilung, ja“ zu injizieren, weil ich noch nie jemanden getroffen habe, der tatsächlich Urnen mit Bällen gefüllt und sie dann herausgeholt und ersetzt hat oder sonst, im wirklichen Leben. (Ich kenne nicht einmal jemanden, der eine Urne besitzt.) Im weiteren Sinne sollte es in den Sinn kommen, eine signifikante Teilmenge einer Population als Stichprobe auszuwählen.

Poisson

Wie hoch ist die Anzahl der Kunden, die jede Minute eine Support-Hotline anrufen?, Das ist ein Ergebnis, dessen Verteilung binomial klingt, wenn Sie sich jede Sekunde als eine Bernoulli-Studie vorstellen, in der ein Kunde nicht (0) aufruft oder (1) tut. Wie das Energieunternehmen jedoch weiß, können 2 oder sogar Hunderte von Menschen in derselben Sekunde anrufen, wenn der Strom ausgeht. Wenn man es als 60.000 Millisekunden große Studien betrachtet, kommt man immer noch nicht um das Problem herum — viel mehr Studien, viel geringere Wahrscheinlichkeit von 1 Anruf, geschweige denn 2 oder mehr, aber technisch gesehen immer noch keine Bernoulli-Studie. Dies zu seiner unendlichen, logischen Schlussfolgerung zu bringen, funktioniert jedoch., Lass n unendlich gehen und lass p auf 0 gehen, damit np gleich bleibt. Dies ist wie in Richtung unendlich viele infinitesimal kleine Zeitscheiben, in denen die Wahrscheinlichkeit eines Anrufs infinitesimal ist. Das limitierende Ergebnis ist die Poisson-Verteilung.

Wie die Binomialverteilung ist die Poisson-Verteilung die Verteilung einer Zählung — die Anzahl der Male, in denen etwas passiert ist. Es wird nicht durch eine Wahrscheinlichkeit p und die Anzahl der Versuche n parametriert, sondern durch eine Durchschnittsrate λ, die in dieser Analogie einfach der konstante Wert von np ist., Die Poisson-Verteilung ist das, woran Sie denken müssen, wenn Sie versuchen, Ereignisse über einen Zeitraum zu zählen, wenn Sie die kontinuierliche Rate der auftretenden Ereignisse berücksichtigen.

Wenn Dinge wie Pakete bei Routern ankommen oder Kunden in einem Geschäft ankommen oder Dinge in einer Art Warteschlange warten, denken Sie an „Poisson.“

Geometrische und negative binomiale

Aus einfachen Bernoulli-Versuchen ergibt sich eine weitere Verteilung. Wie oft kommt eine umgedrehte Münze auf den Tisch, bevor sie zum ersten Mal auftaucht? Diese Anzahl der Schwänze folgt einer geometrischen Verteilung., Wie die Bernoulli-Verteilung wird sie durch p parametriert, die Wahrscheinlichkeit dieses endgültigen Erfolgs. Es wird nicht durch n, eine Anzahl von Versuchen oder Flips parametrisiert, da die Anzahl der Fehlerversuche das Ergebnis selbst ist.

Wenn die Binomialverteilung “ Wie viele Erfolge?“dann ist die geometrische Verteilung“ Wie viele Fehler bis zu einem Erfolg?“

Die negative Binomialverteilung ist eine einfache Verallgemeinerung. Es ist die Anzahl der Fehler, bis r Erfolge aufgetreten sind, nicht nur 1. Es wird daher auch von r parametrisiert. Manchmal wird es als die Anzahl der Erfolge bis zu r-Fehlern beschrieben., Wie mein Life Coach sagt, Erfolg und Misserfolg sind das, was Sie definieren, also sind diese gleichwertig, solange Sie gerade halten, ob p die Wahrscheinlichkeit von Erfolg oder Misserfolg ist.

Wenn Sie einen Eisbrecher benötigen, können Sie darauf hinweisen, dass die binomialen und hypergeometrischen Verteilungen ein offensichtliches Paar sind, aber die geometrischen und negativen Binomialverteilungen sind auch ziemlich ähnlich und sagen dann: „Ich meine, wer nennt diese Dinge, habe ich recht?“

Exponential und Weibull

Zurück zu Kunden-Support-Anrufen: Wie lange bis zum nächsten Kundenanruf?, Die Verteilung dieser Wartezeit klingt so, als könnte sie geometrisch sein, denn jede Sekunde, die niemand anruft, ist wie ein Fehler, bis zu einer Sekunde, in der endlich ein Kunde anruft. Die Anzahl der Fehler ist wie die Anzahl der Sekunden, die niemand angerufen hat, und das ist fast die Wartezeit bis zum nächsten Anruf, aber fast nicht nahe genug. Der Haken dieses Mal ist, dass die Summe immer in ganzen Sekunden sein wird, aber dies berücksichtigt nicht die Wartezeit innerhalb dieser Sekunde, bis der Kunde schließlich angerufen hat.,

Nach wie vor, nehmen Sie die geometrische Verteilung an die Grenze, in Richtung infinitesimale Zeitscheiben, und es funktioniert. Sie erhalten die Exponentialverteilung, die die Verteilung der Zeit bis zu einem Anruf genau beschreibt. Es ist eine kontinuierliche Verteilung, die hier zum ersten Mal angetroffen wird, da die Ergebniszeit nicht ganze Sekunden betragen muss. Wie die Poisson-Verteilung wird sie durch eine Rate λ parametriert.

Poissons „Wie viele Ereignisse pro Zeit?“ Spiegelt die binomial-geometrische Beziehung wider.“bezieht sich auf die exponentielle“ Wie lange bis zu einem Ereignis?,“Bei Ereignissen, deren Anzahl pro Zeit einer Poisson-Verteilung folgt, folgt die Zeit zwischen Ereignissen einer Exponentialverteilung mit demselben Ratenparameter λ. Diese Übereinstimmung zwischen den beiden Verteilungen ist wichtig, um bei der Diskussion über eine der beiden Verteilungen einen Namen zu überprüfen.

Die Exponentialverteilung sollte in den Sinn kommen, wenn man an „Zeit bis Ereignis“ denkt, vielleicht „Zeit bis Misserfolg.“In der Tat ist dies so wichtig, dass allgemeinere Distributionen existieren, um Time-to-Failure zu beschreiben, wie die Weibull-Distribution., Während die Exponentialverteilung angemessen ist, wenn beispielsweise die Verschleißrate oder die Ausfallrate konstant ist, kann die Weibull — Verteilung im Laufe der Zeit steigende (oder abnehmende) Ausfallraten modellieren. Das Exponential ist nur ein Sonderfall.

Denken Sie an „Weibull“, wenn der Chat zu Time-to-failure wird.

Normal, Log-Normal, Student ‚ s t und Chi-Quadrat

Die Normalverteilung oder Gaußsche Verteilung ist vielleicht die wichtigste von allen. Seine Glockenform ist sofort erkennbar., Wie e ist es eine seltsamerweise bestimmte Entität, die aus scheinbar einfachen Quellen auftaucht. Nehmen Sie eine Reihe von Werten, die derselben Verteilung folgen — jeder Verteilung-und summieren Sie sie. Die Verteilung ihrer Summe folgt (ungefähr) der Normalverteilung. Je mehr Dinge summiert werden, desto mehr stimmt die Verteilung ihrer Summe mit der Normalverteilung überein. (Vorbehalte: muss eine gut erzogene Verteilung sein, muss unabhängig sein, neigt nur zur Normalverteilung.) Die Tatsache, dass dies unabhängig von der zugrunde liegenden Verteilung zutrifft, ist erstaunlich.,

Dies wird als zentraler Grenzwertsatz bezeichnet, und Sie müssen wissen, dass dies das ist, was es heißt und was es bedeutet, oder Sie werden sofort gehackt.

In diesem Sinne bezieht es sich auf alle Verteilungen. Es hängt jedoch besonders mit der Verteilung von Summen der Dinge zusammen. Die Summe der Bernoulli-Versuche folgt einer Binomialverteilung, und wenn die Anzahl der Versuche zunimmt, ähnelt diese Binomialverteilung eher der Normalverteilung. Sein Cousin die hypergeometrische Verteilung tut es auch., Die Poisson-Verteilung — eine extreme Form des Binoms-nähert sich auch der Normalverteilung, wenn der Ratenparameter zunimmt.

Ein Ergebnis, das einer Log-Normalverteilung folgt, nimmt Werte an, deren Logarithmus normal verteilt ist. Oder: Die Exponentiation eines normalverteilten Werts ist log-normalverteilt. Wenn Summen von Dingen normalerweise verteilt werden, dann denken Sie daran, dass Produkte von Dingen log-normal verteilt sind.

Die T-Verteilung der Studierenden ist die Grundlage des T-Tests, den viele Nicht-Statistiker in anderen Wissenschaften lernen., Es wird verwendet, um über den Mittelwert einer Normalverteilung nachzudenken, und nähert sich auch der Normalverteilung, wenn sein Parameter zunimmt. Das Unterscheidungsmerkmal der T-Verteilung sind ihre Schwänze, die dicker sind als die der Normalverteilung.

Wenn die Fat-Tail-Anekdote nicht heiß genug ist, um Ihren Nachbarn zu begeistern, gehen Sie zu seiner mild-interessanten Hintergrundgeschichte mit Bier. Vor über 100 Jahren verwendete Guinness Statistiken, um bessere Ergebnisse zu erzielen. Dort entwickelte William Sealy Gosset eine ganz neue Statistiktheorie, nur um bessere Gerste anzubauen., Gosset überzeugte den Chef, dass die anderen Brauer nicht herausfinden konnten, wie sie die Ideen verwenden sollten, und erhielt so die Erlaubnis zu veröffentlichen, jedoch nur unter dem Pseudonym „Student“. Gossets bekanntestes Ergebnis ist diese T-Distribution, die irgendwie nach ihm benannt ist.

Schließlich ist die Chi-Quadrat-Verteilung die Verteilung der Summe der Quadrate normalverteilter Werte. Es ist die Verteilung, die den Chi-Quadrat-Test untermauert, der selbst auf der Summe der Quadrate von Unterschieden basiert, die normal verteilt sein sollen.,

Gamma und Beta

Wenn Sie zu diesem Zeitpunkt über Chi-Quadrat sprechen, ist das Gespräch ernst geworden. Sie sprechen wahrscheinlich mit tatsächlichen Statistikern, und Sie möchten sich vielleicht an dieser Stelle entschuldigen, weil Dinge wie die Gammaverteilung auftauchen können. Es ist eine Verallgemeinerung sowohl der exponentiellen als auch der Chi-Quadrat-Verteilungen. Mehr wie die Exponentialverteilung wird es als ein ausgeklügeltes Modell der Wartezeiten verwendet. Beispielsweise wird die Gammaverteilung angezeigt, wenn die Zeit bis zum Auftreten der nächsten n Ereignisse modelliert wird., Es erscheint im maschinellen Lernen als das „Konjugat vor“ zu einigen Verteilungen.

Kommen Sie nicht in dieses Gespräch über konjugierte Prioren, aber wenn Sie dies tun, stellen Sie sicher, dass Sie über die Beta-Verteilung sprechen werden, da dies das Konjugierte vor fast jeder anderen hier genannten Verteilung ist. Soweit Datenwissenschaftler betroffen sind, dafür wurde es gebaut. Erwähnen Sie dies beiläufig und bewegen Sie sich zur Tür.

Der Anfang der Weisheit

Wahrscheinlichkeitsverteilungen können Sie nicht zu viel wissen., Der wirklich Interessierte sollte sich diese unglaublich detaillierte Karte aller univariaten Distributionen ansehen. Hoffentlich gibt Ihnen dieser anekdotische Leitfaden das Vertrauen, in der heutigen Tech-Kultur sachkundig und damit vertraut zu sein. Oder zumindest eine Möglichkeit, mit hoher Wahrscheinlichkeit zu erkennen, wann Sie eine weniger nerdige Cocktailparty finden sollten.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Zur Werkzeugleiste springen