Distributions de probabilité courantes: la fiche de base du Data Scientist

réimprimée à partir dehttps://blog.cloudera.com/blog/2015/12/common-probability-distributions-the-data-scientists-crib-sheet/

Les data scientists ont des centaines de distributions de probabilité parmi lesquelles choisir. Par où commencer?

la science des Données, quelle qu’elle soit, reste une grosse affaire. ” Un Data scientist est meilleur en statistiques que n’importe quel ingénieur logiciel », vous pouvez entendre un expert dire, lors de vos réunions et hackathons technologiques locaux. Les mathématiciens appliqués ont leur revanche, car les statistiques n’ont pas été aussi parlées depuis les années 20 rugissantes., Ils ont leur propre diagramme de Venn légitimant dont les gens ne se moquent pas. Tout à coup, c’est vous, l’ingénieur, laissé de côté dans le chat sur les intervalles de confiance au lieu de tutoyer les analystes qui n’ont jamais entendu parler du projet Apache Bikeshed pour le formatage des commentaires distribués. Pour vous intégrer, pour être à nouveau la vie et l’âme de ce parti, vous avez besoin d’un cours intensif en statistiques. Pas assez pour bien faire les choses, mais assez pour sonner comme vous pourriez, en faisant des observations de base.

Les distributions de probabilité sont fondamentales pour les statistiques, tout comme les structures de données le sont pour l’informatique., Ils sont l’endroit pour commencer à étudier si vous voulez parler comme un scientifique des données. Vous pouvez parfois vous en sortir avec une analyse simple en utilisant R ou scikit-learn sans comprendre les distributions, tout comme vous pouvez gérer un programme Java sans comprendre les fonctions de hachage. Mais cela se terminerait bientôt par des larmes, des bugs, des résultats bidons, ou pire: des Soupirs et des yeux de stats majors.

Il existe des centaines de distributions de probabilités, certaines ressemblant à des monstres de la légende médiévale comme le Muth ou Lomax. Seulement environ 15 distributions apparaissent régulièrement dans la pratique cependant., Quels sont-ils, et quelles idées intelligentes sur chacun d’eux devriez-vous mémoriser?

Les choses se passent tout le temps: les dés sont jetés, il pleut, les bus arrivent. Après le fait, les résultats spécifiques sont certains: les dés sont venus 3 et 4, Il y avait un demi-pouce de pluie aujourd’hui, le bus a pris 3 minutes pour arriver. Avant, nous ne pouvons parler que de la probabilité des résultats. Les distributions de probabilité décrivent ce que nous pensons être la probabilité de chaque résultat, ce qui est parfois plus intéressant à savoir que simplement quel résultat unique est le plus probable., Ils se présentent sous de nombreuses formes, mais en une seule taille: les probabilités dans une distribution s’additionnent toujours à 1.

par exemple, retourner une pièce de monnaie équitable a deux résultats: elle atterrit tête ou queue. (Supposons qu’il ne puisse pas atterrir sur le bord ou être volé par une mouette en l’air.) Avant le retournement, nous pensons qu’il y a 1 chance sur 2, ou 0,5 Probabilité, de têtes. La même chose est vraie pour tails. C’est une distribution de probabilité sur les deux résultats du retournement, et si vous pouvez suivre cette phrase, vous avez déjà maîtrisé la distribution de Bernoulli.,

malgré les noms exotiques, les distributions communes se rapportent les unes aux autres de manière intuitive et intéressante qui les rendent faciles à rappeler, et à remarquer avec un air d’autorité. Plusieurs découlent naturellement de la distribution de Bernoulli, par exemple. Il est temps de révéler une carte des relations.,

Commune de distributions de probabilité et de certaines des principales relations

Chaque distribution est illustrée par un exemple de sa fonction de densité de probabilité (PDF). Cet article ne traite que des distributions de résultats qui sont des nombres uniques. Ainsi, l’axe horizontal dans chaque case le nombre de résultats chiffrés. L’axe vertical décrit la probabilité de résultats., Certaines distributions sont discrètes, sur les résultats qui doivent être des entiers comme 0 ou 5. Elles apparaissent comme éparses lignes, une pour chaque résultat, où la hauteur de la ligne est la probabilité de ce résultat. Certains sont continus, pour des résultats qui peuvent prendre n’importe quelle valeur numérique réelle comme -1.32 ou 0.005. Ceux-ci apparaissent comme des courbes denses, où ce sont les zones sous les sections de la courbe qui donnent des probabilités. Les sommes des hauteurs des lignes, et des zones sous les courbes, sont toujours 1.

Imprimez, coupez le long de la ligne pointillée et emportez-la avec vous dans votre portefeuille ou votre sac à main., Ceci est votre guide de terrain pour repérer les distributions et leurs proches.

Bernoulli et uniforme

Vous avez rencontré la distribution de Bernoulli ci — dessus, sur deux résultats discrets-queues ou têtes. Pensez-y, cependant, comme une distribution sur 0 et 1, sur 0 têtes (c.-à-d. queues) ou 1 têtes. Ci-dessus, les deux résultats étaient également probables, et c’est ce qui est illustré dans le diagramme. Le PDF de Bernoulli a deux lignes de hauteur égale, représentant les deux résultats également probables de 0 et 1 à chaque extrémité.,

la distribution de Bernoulli pourrait représenter des résultats qui ne sont pas aussi probables, comme le résultat d’un lancer de pièce injuste. Ensuite, la probabilité de heads n’est pas 0,5, mais une autre valeur p, et la probabilité de tails est 1-p. comme beaucoup de distributions, c’est en fait une famille de distributions définies par des paramètres, comme p ici. Quand vous pensez « Bernoulli », il suffit de penser  » (peut-être injuste) lancer de pièces. »

c’est un court saut d’imaginer une distribution sur de nombreux résultats tout aussi probables: la distribution uniforme, caractérisée par son PDF plat. Imaginez lancer un dé équitable., Résultats 1 à 6 sont également probables. Il peut être défini pour n’importe quel nombre de résultats n ou même comme une distribution continue.

associez la distribution uniforme à « lancer un dé équitable. »

binomiale et hypergéométrique

la distribution binomiale peut être considérée comme la somme des résultats des choses qui suivent une distribution de Bernoulli. Lancer une pièce juste 20 fois; combien de fois est-il venu têtes? Ce nombre est un résultat qui suit la loi binomiale. Ses paramètres sont: n, le nombre d’essais, et p, la probabilité d’un « succès” (ici: la tête, ou 1)., Chaque flip est un résultat distribué par Bernoulli, ou essai. Atteignez la distribution binomiale lorsque vous comptez le nombre de succès dans des choses qui agissent comme un retournement de pièce, où chaque retournement est indépendant et a la même probabilité de succès.

ou, imaginez une urne avec un nombre égal de boules blanches et noires. Fermez les yeux et dessinez une balle et notez si elle est noire, puis remettez-la. Répéter. Combien de fois avez-vous dessiné une boule noire? Ce nombre suit également une distribution binomiale.,

imaginer cette situation étrange a un point, car il est simple d’expliquer la distribution hypergéométrique. C’est la distribution de ce même nombre si les boules ont été tirées sans remplacement à la place. Indéniablement, c’est un cousin de la distribution binomiale, mais pas la même, car la probabilité de succès change à mesure que les balles sont supprimées. Si le nombre de balles est grand par rapport au nombre de tirages, les distributions sont similaires car les chances de succès changent moins à chaque tirage.,

quand les gens parlent de ramasser des balles dans des urnes sans remplacement, il est presque toujours sûr d’intervenir, « la distribution hypergéométrique, oui”, parce que je n’ai jamais rencontré quelqu’un qui a réellement rempli des urnes avec des balles, puis les a choisies, et les a remplacées ou autrement, dans la vraie vie. (Je ne connais même personne qui possède une urne.) Plus généralement, il devrait venir à l’esprit lors du choix d’un sous-ensemble significatif d’une population comme échantillon.

Poisson

Qu’en est-il du nombre de clients appelant une hotline d’assistance chaque minute?, C’est un résultat dont la distribution semble binomiale, si vous considérez chaque seconde comme un essai de Bernoulli dans lequel un client n’appelle pas (0) ou ne fait pas (1). Cependant, comme le sait la compagnie d’électricité, lorsque le courant est coupé, 2 ou même des centaines de personnes peuvent appeler dans la même seconde. Le voir comme des essais de 60 000 millisecondes ne permet toujours pas de contourner le problème — beaucoup plus d’Essais, une probabilité beaucoup plus faible de 1 appel, encore moins de 2 ou plus, mais toujours pas techniquement un essai de Bernoulli. Cependant, prendre cela à sa conclusion infinie et logique fonctionne., Laissez n aller à l’infini et laissez p aller à 0 pour correspondre afin que np reste le même. C’est comme se diriger vers une infinité de tranches de temps infiniment petites dans lesquelles la probabilité d’un appel est infinitésimale. Le résultat limite est la distribution de Poisson.

comme la distribution binomiale, la distribution de Poisson est la distribution d’un nombre — le nombre de fois où quelque chose s’est passé. Il est paramétré non pas par une probabilité p et un nombre d’essais n mais par un taux moyen λ, Qui dans cette analogie est simplement la valeur constante de np., La distribution de Poisson est ce à quoi vous devez penser lorsque vous essayez de compter les événements sur un temps donné le taux continu d’événements se produisant.

lorsque des choses comme les paquets arrivent sur les routeurs, ou les clients arrivent dans un magasin, ou les choses attendent dans une sorte de file d’attente, pensez « Poisson. »

binôme géométrique et négatif

de simples essais de Bernoulli surgit une autre distribution. Combien de fois une pièce retournée arrive-t-elle en queue avant qu’elle ne monte en tête? Ce nombre de queues suit une distribution géométrique., Comme la distribution de Bernoulli, elle est paramétrée par p, la probabilité de ce succès final. Il n’est pas paramétré par n, un certain nombre d’essais ou de retournements, car le nombre d’essais d’échec est le résultat lui-même.

Si la distribution binomiale est « Combien de réussites? »alors la distribution géométrique est « combien d’Échecs jusqu’à un succès?”

la distribution binomiale négative est une simple généralisation. C’est le nombre d’Échecs jusqu’à ce que r réussisse, pas seulement 1. Il est donc paramétré également par R. parfois, il est décrit comme le nombre de succès jusqu’à ce que r échoue., Comme le dit Mon coach de vie, le succès et l’échec sont ce que vous les définissez, donc ceux-ci sont équivalents, tant que vous restez droit si p est la probabilité de succès ou d’échec.

Si vous avez besoin d’un brise-glace, vous pourriez souligner que les distributions binomiales et hypergéométriques sont une paire évidente, mais les distributions binomiales géométriques et négatives sont également assez similaires, puis dire: « je veux dire, qui nomme ces choses, ai-je raison? »

Exponential and Weibull

retour aux appels du support client: combien de temps avant le prochain appel du client?, La répartition de ce temps d’attente semble être géométrique, car chaque seconde que personne n’appelle est comme un échec, jusqu’à une seconde où finalement un client appelle. Le nombre d’échecs est comme le nombre de secondes que personne n’a appelé, et c’est presque le temps d’attente jusqu’au prochain appel, mais n’est presque pas assez proche. Le hic cette fois est que la somme sera toujours en secondes entières, mais cela ne tient pas compte de l’attente dans cette seconde jusqu’à ce que le client ait finalement appelé.,

comme précédemment, prenez la distribution géométrique à la limite, vers des tranches de temps infinitésimales, et cela fonctionne. Vous obtenez la distribution exponentielle, qui décrit avec précision la distribution du temps jusqu’à un appel. C’est une distribution continue, la première rencontrée ici, car le temps de résultat n’a pas besoin d’être des secondes entières. Comme la distribution de Poisson, elle est paramétrée par un taux λ.

faisant écho à la relation binomiale-géométrique, Poisson « combien d’événements par temps? »se rapporte à l’exponentielle de » combien de temps jusqu’à un événement?, »Étant donné les événements dont le nombre par temps suit une loi de Poisson, alors le temps entre les événements suit une loi exponentielle avec le même paramètre de vitesse λ. Cette correspondance entre les deux distributions est essentielle pour la vérification des noms lors de la discussion de l’une ou l’autre.

la distribution exponentielle devrait venir à l’esprit en pensant au « temps jusqu’à l’événement”, peut-être au « temps jusqu’à l’échec.” En fait, c’est si important que des distributions plus générales existent pour décrire le délai d’échec, comme la distribution de Weibull., Alors que la distribution exponentielle est appropriée lorsque le taux d’usure, ou de défaillance par exemple, est constant, la distribution de Weibull peut modéliser des taux de défaillance croissants (ou décroissants) au fil du temps. L’exponentielle est simplement un cas particulier.

Pense à « Weibull” quand le chat se transforme de temps à l’échec.

Normal, Log-Normal, T de Student et Chi-carré

la distribution normale, ou distribution gaussienne, est peut-être la plus importante de toutes. Sa forme de cloche est immédiatement reconnaissable., Comme e, c’est une entité curieusement particulière qui apparaît partout, à partir de sources apparemment simples. Prenez un tas de valeurs suivant la même répartition — distribution — et d’une synthèse. La distribution de leur somme suit (approximativement) la distribution normale. Plus il y a de choses additionnées, plus la distribution de leur somme correspond à la distribution normale. (Mises en garde: doit être une distribution bien comportée, doit être indépendante, ne tend qu’à la distribution normale.) Le fait que cela soit vrai quelle que soit la distribution sous-jacente est étonnant.,

cela s’appelle le théorème central limite, et vous devez savoir que c’est ce qu’il s’appelle et ce que cela signifie, sinon vous serez immédiatement chahuté.

en ce sens, elle concerne toutes les distributions. Cependant, il est particulièrement lié aux distributions de sommes de choses. La somme des essais de Bernoulli suit une distribution binomiale, et à mesure que le nombre d’essais augmente, cette distribution binomiale devient plus semblable à la distribution normale. Sa cousine la distribution hypergéométrique fait aussi., La distribution de Poisson — une forme extrême de binôme — s’approche également de la distribution normale à mesure que le paramètre de vitesse augmente.

un résultat qui suit une distribution log-normale prend des valeurs dont le logarithme est normalement distribué. Ou: l’exponentiation d’une valeur normalement distribuée est log-normalement distribuée. Si les sommes de choses sont normalement distribuées, rappelez-vous que les produits de choses sont normalement distribués.

la distribution T de L’étudiant est la base du test t que de nombreux Non-statisticiens apprennent dans d’autres sciences., Il est utilisé dans le raisonnement sur la moyenne d’une distribution normale, et s’approche également de la distribution normale à mesure que son paramètre augmente. La caractéristique distinctive de la distribution t sont ses queues, qui sont plus grosses que celles de la distribution normale.

Si l’anecdote de la grosse queue n’est pas assez chaude pour épater votre voisin, allez à sa bière légèrement intéressante. Il y a plus de 100 ans, Guinness utilisait les statistiques pour faire une meilleure stout. Là, William Sealy Gosset a développé une toute nouvelle théorie des statistiques juste pour cultiver une meilleure orge., Gosset a convaincu le patron que les autres brasseurs ne pouvaient pas comprendre comment utiliser les idées, et a donc obtenu la permission de publier, mais seulement sous le nom de plume « Student”. Le résultat le plus connu de Gosset est cette distribution t, qui porte en quelque sorte son nom.

enfin, la distribution du chi carré est la distribution de la somme des carrés de valeurs normalement distribuées. C’est la distribution sous-jacente au test du chi-carré qui est elle-même basée sur la somme des carrés des différences, qui sont censés être normalement distribués.,

Gamma et bêta

à ce stade, si vous parlez de quelque chose de chi-carré, alors la conversation est devenue sérieuse. Vous parlez probablement à des statisticiens réels, et vous voudrez peut-être vous excuser à ce stade, parce que des choses comme la distribution gamma peuvent apparaître. C’est une généralisation des distributions exponentielle et chi-carré. Plus comme la distribution exponentielle, il est utilisé comme un modèle sophistiqué de temps d’attente. Par exemple, la distribution gamma apparaît lors de la modélisation du temps jusqu’à ce que les n événements suivants se produisent., Il apparaît dans l’apprentissage automatique comme le « conjugué antérieur » à quelques distributions.

n’entrez pas dans cette conversation sur les prieurs conjugués, mais si vous le faites, assurez-vous que vous êtes sur le point de parler de la distribution bêta, car c’est le conjugué avant la plupart des autres distributions mentionnées ici. En ce qui concerne les scientifiques des données, c’est pour cela qu’il a été construit. Mentionnez cela avec désinvolture et dirigez-vous vers la porte.

le début de la sagesse

Les distributions de probabilité sont quelque chose que vous ne pouvez pas trop savoir., Les vraiment intéressés devraient consulter cette carte incroyablement détaillée de toutes les distributions univariées. Espérons que ce guide anecdotique vous donne la confiance nécessaire pour paraître bien informé et avec-it dans la culture technologique d’aujourd’hui. Ou du moins, un moyen de détecter, avec une forte probabilité, quand vous devriez trouver un cocktail moins ringard.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Aller à la barre d’outils