一般的な確率分布:データサイエンティストのベビーベッドシート

https://blog.cloudera.com/blog/2015/12/common-probability-distributions-the-data-scientists-crib-sheet/

データサイエンティストは、選択する確率分布の数百を持っています。 どこから始めますか?

データサイエンスは、それが何であれ、大したことのままです。 “データサイエンティストは、どのソフトウェアエンジニアよりも統計に優れています”と、地元のハイテク集まりやハッカソンで評論家が言うのを耳にするかもしれません。 統計は轟音20年代以来、この話についてされていないので、応用数学者は、彼らの復讐を持っています。, 彼らは人々が楽しんでいないの彼ら自身の正当化ベン図を持っています。 突然、エンジニアのあなたは、分散コメントフォーマットのためのApache Bikeshedプロジェクトについて聞いたことがないアナリストにタットするのではなく、信頼区間についてのチャット そのパーティーの人生と魂になるためには、statsのクラッシュコースが必要です。 なので、探しも、予約も、支払も、全部へんな方におすすめなのが、基本観測。

確率分布は、データ構造がコンピュータサイエンスにあるように、統計の基礎となるものです。, データサイエンティストのように話すつもりなら、彼らは勉強を始める場所です。 ハッシュ関数を理解せずにJavaプログラムを管理できるように、分布を理解せずにRまたはscikit-learnを使用して簡単な分析を行うことができることがあ しかし、それはすぐに涙、バグ、偽の結果、または悪いことに終わるだろう:統計専攻からのため息と目の転がり。

何百もの確率分布があり、MuthやLomaxのような中世の伝説のモンスターのように聞こえるものもあります。 しかし、実際には約15の分布しか一貫して上がりません。, 佐村トミ】アクリルの心臓【オリ、味見について、それぞれだ記憶?

物事はいつも起こります:サイコロが転がり、雨が降り、バスが到着します。 事実の後、具体的な結果は確かです:サイコロは3と4を思い付いた、今日は雨の半分インチがあった、バスは到着するのに3分かかりました。 以前は、結果の可能性についてしか話すことができません。 確率分布は、各結果の確率がどのようなものであると考えるかを記述し、それは単にどの単一の結果が最も可能性が高いかよりも知ることが興味深, それらは多くの形で来ますが、唯一のサイズで:分布の確率は常に1まで加算されます。

たとえば、公正なコインを反転すると、二つの結果が得られます。 (それが端に着陸したり、空中でカモメによって盗まれたりすることはできませんと仮定します。)フリップの前に、我々は頭の1で2チャンス、または0.5確率があると信じています。 同じことが尾にも当てはまります。 これは、フリップの二つの結果の上に確率分布であり、あなたはその文に従うことができれば、あなたはすでにベルヌーイ分布を習得しています。,

エキゾチックな名前にもかかわらず、共通の分布は、それらがリコールしやすくする直感的で興味深い方法でお互いに関連し、権威の空気で上の発言。 いくつかは、例えばベルヌーイ分布から自然に従う。 それは関係の地図を明らかにする時間です。,

一般的な確率分布といくつかの重要な関係
iv id=”518b1584aa”各分布は、その確率密度関数(pdf)の例によって示されています。 この投稿では、単一の数値である結果の分布のみを扱います。 したがって、各ボックスの横軸は、可能な数値結果のセットです。 縦軸は、結果の確率を表します。, いくつかの分布は離散的であり、結果は0や5のような整数でなければなりません。 これらは疎な線として表示され、各結果に対して一つであり、行の高さはその結果の確率です。 -1.32や0.005のような実際の数値を取ることができる結果のために、いくつかは連続しています。 これらは、確率を与える曲線のセクションの下の領域である密な曲線として表示されます。 線の高さと曲線の下の面積の合計は常に1です。

印刷し、点線に沿ってカットし、財布や財布に入れて持って行きます。, これは分布とその親戚を見つけるためのフィールドガイドです。

ベルヌーイとユニフォーム

あなたは二つの離散結果—尾または頭の上に、上記のベルヌーイ分布を満たしました。 ただし、0と1の分布、0の頭(つまり尾)または1の頭の分布と考えてください。 上記では、両方の結果が同じように可能性があり、それが図に示されているものです。 ベルヌーイPDFは、どちらかの端に0と1の二つの等しく可能性の高い結果を表す、等しい高さの二つの線を持っています。,

ベルヌーイ分布は、不公平なコイン投げの結果のように、等しく起こりそうでない結果を表す可能性があります。 次に、ヘッドの確率は0.5ではなく、他の値pであり、テールの確率は1-pです。 あなたが”ベルヌーイ”と思うときは、”(おそらく不公平な)コイントス”と思うだけです。”

それは、多くの同じ可能性の高い結果にわたる分布を想像するのに短いジャンプです:そのフラットなPDFによって特徴付けられる一様分布、。 想像を転がしながら公正します。, 結果1から6も同様に可能性があります。 これは、任意の数の結果nに対して、あるいは連続分布として定義することができます。

一様分布を”公正なダイを転がす”と関連付けます。”

二項分布と超幾何学

二項分布は、ベルヌーイ分布に従うものの結果の合計と考えることができます。 公平な硬貨を20回投げなさい;何回それは頭部を上がるか。 このカウントは、二項分布に従う結果です。 そのパラメータは、n、試行回数、およびp、”成功”の確率(ここではheads、または1)です。, 各フリップは、ベルヌーイ分布の結果、または試行です。 各フリップは独立しており、成功の同じ確率を持っているコインフリップのように動作するものの成功の数を数えるときに二項分布に達します。

または、白と黒のボールが同じ数の壷を想像してみてください。 目を閉じ絵を描くと、ボールを注から黒に入れます。 繰り返す。 何回黒いボールを描いたのですか? このカウントは、二項分布にも従います。,

この奇妙な状況を想像すると、超幾何分布を簡単に説明できるため、ポイントがあります。 ボールが代わりに交換せずに描かれた場合、これは同じカウントの分布です。 紛れもなく、それは二項分布のいとこですが、ボールが取り除かれるにつれて成功の確率が変化するため、同じではありません。 ボールの数が引き分けの数に対して大きい場合、成功の確率は引き分けごとに変化するので、分布は似ています。,

人々が交換せずに壷からボールを拾うことについて話すとき、私は実際にボールで壷を満たし、それらを選んだ人に会ったことがないので、”超幾何分布、はい、”、interjectすることはほとんど常に安全です、そして、それらを交換したり、そうでなければ、実際の生活の中で。 (私は壷を所有している誰も知らない。)より広義には、母集団の重要なサブセットをサンプルとして選ぶときに頭に浮かぶはずです。

Poisson

毎分サポートホットラインを呼び出す顧客の数はどうですか?, これは、毎秒を顧客が(0)または(1)を呼び出さないBernoulli試行と考える場合、分布が二項に聞こえる結果です。 しかし、電力会社が知っているように、電源が切れたとき、2、あるいは何百人もの人々が同じ秒で呼び出すことができます。 60,000ミリ秒サイズの試行としてそれを見ることはまだ問題を回避することはできません-より多くの試行、1回の呼び出しのはるかに小さい確率、2 しかし、これを無限の論理的な結論に導くことはうまくいきます。, Nを無限大にし、pを0にしてnpが同じままになるように一致させます。 これは、呼び出しの確率が無限小である無限に多くの無限小のタイムスライスに向かうようなものです。 限界結果はポアソン分布です。

二項分布と同様に、ポアソン分布はカウントの分布であり、何かが起こった回数のカウントです。 これは、確率pと試行回数nではなく、平均速度λによってパラメータ化されています。, ポアソン分布は、イベントの連続発生率を考えると、ある時間にわたってイベントを数えようとするときに考える必要があります。

パケットのようなものがルータに到着したり、顧客が店に到着したり、何らかの待ち行列で待ったりするときは、”ポアソン”と考えてください。”

幾何学的および負の二項

単純なベルヌーイ試行から別の分布が発生します。 それが最初に頭を上げる前に、反転したコインが尾を上げるのは何回ですか? この裾の数は幾何分布に従います。, ベルヌーイ分布と同様に、最終的な成功の確率であるpによってパラメータ化されます。 失敗した試行の数は結果そのものであるため、n、試行回数または反転によってパラメータ化されません。

二項分布が”どのように多くの成功ですか?”その後、幾何分布は”成功するまでどのように多くの失敗ですか?”

負の二項分布は単純な一般化です。 これは、1だけでなく、rの成功が発生するまでの失敗の数です。 したがって、rによってもパラメータ化されます。, 私の人生のコーチが言うように、成功と失敗はあなたがそれらを定義するものなので、pが成功または失敗の確率であるかどうかをまっすぐに保つ限

アイスブレーカーが必要な場合は、二項分布と超幾何分布は明白なペアであることを指摘するかもしれませんが、幾何学的分布と負の二項分布もかなり似ていることを指摘してから、”誰がこれらのものに名前を付けるのでしょうか?”

指数とワイブル

カスタマーサポートの呼び出しに戻る:次の顧客が呼び出すまでどのくらいの時間?, この待ち時間の分布は、誰も呼び出さない毎秒は失敗のようなものであり、最終的に顧客が呼び出す秒までであるため、幾何学的である可能性があるように聞こえます。 失敗の数は、誰も呼び出さなかった秒数のようなものであり、それは次の呼び出しまでの待ち時間ですが、ほとんど十分に近くありません。 今回のキャッチは、合計が常に秒単位になることですが、顧客が最終的に呼び出されるまで、その秒以内の待機を考慮に入れることができません。,

前と同じように、幾何分布を極限まで、無限小の時間スライスに向かって取り、それが機能します。 あなたは正確に呼び出しまでの時間の分布を記述する指数分布を、取得します。 結果の時間は秒全体である必要はないため、ここで最初に遭遇した連続分布です。 ポアソン分布と同様に、速度λによってパラメータ化されます。

二項幾何学的関係をエコー、ポアソンの”時間あたりどのように多くのイベント?”イベントまでどのくらいの期間?”ということになりました。,”時間あたりのカウントがポアソン分布に従うイベントが与えられると、イベント間の時間は同じレートパラメータλを持つ指数分布に従います。 二つの分布の間のこの対応は、それらのいずれかを議論するときに名前チェックに不可欠です。

指数分布は、”イベントまでの時間”、おそらく”失敗までの時間”を考えるときに頭に浮かぶはずです。”実際、これは非常に重要であるため、ワイブル分布のように、障害までの時間を記述するためのより一般的な分布が存在します。, 指数分布は、摩耗または故障率が一定の場合に適切ですが、ワイブル分布は、時間の経過とともに故障率の増加(または減少)をモデル化できます。 指数は単なる特別な場合です。

チャットが失敗するまでの時間に変わったときに”Weibull”を考えてください。

正規、対数正規、学生のt、およびカイ二乗

正規分布、またはガウス分布は、おそらくすべての中で最も重要です。 その鐘の形は直ちに認識可能である。, Eのように、それは一見単純なソースから、すべての上に上がる不思議な特定のエンティティです。 同じ分布—任意の分布—に続く値の束を取り、それらを合計します。 それらの合計の分布は(おおよそ)正規分布に従います。 合計されるものが多いほど、それらの合計の分布は正規分布と一致します。 (注意点:行儀の良い分布でなければならない、独立していなければならない、唯一の正規分布に傾向があります。)これが根底にある分布にかかわらず真実であるという事実は驚くべきことです。,

これは中心極限定理と呼ばれ、これがそれが呼ばれているものであり、それが何を意味するのかを知る必要があります。

この意味で、それはすべての分布に関連します。 しかし、それは特に物事の合計の分布に関連しています。 ベルヌーイ試行の合計は二項分布に従い、試行回数が増えるにつれて、その二項分布は正規分布によく似ています。 そのいとこ超幾何分布もそうです。, ポアソン分布—二項の極端な形—は、レートパラメータが増加するにつれて正規分布にも近づきます。

対数正規分布に従う結果は、対数が正規分布している値を取ります。 または:正規分布値の累乗は対数正規分布です。 物事の合計が正規分布している場合は、物事の積が対数正規分布していることを覚えておいてください。

学生のt分布は、多くの非統計学者が他の科学で学ぶt検定の基礎です。, これは、正規分布の平均についての推論に使用され、そのパラメータが増加するにつれて正規分布にも近づきます。 T分布の際立った特徴は、正規分布のものよりも太い尾です。

太った尾の逸話があなたの隣人を驚かせるのに十分な熱いテイクではない場合は、その穏やかに興味深いバックストーリー関連のビールに行ってください。 100年以上前、ギネスはより良いスタウトを作るために統計を使用していました。 あるウィリアム-シーリー社製Gossetの開発の全く新しい統計理論だけで成り大麦., ゴセットは、他の醸造業者がアイデアの使い方を理解できないことを上司に確信させ、”学生”というペンネームでのみ公開する許可を得た。 Gossetの最もよく知られている結果は、彼にちなんで命名されたこのt分布です。

最後に、カイ二乗分布は、正規分布値の二乗和の分布です。 これは、正規分布されるはずの差の二乗和に基づいているカイ二乗検定を支える分布です。,

ガンマとベータ

この時点で、カイ二乗について話しているなら、会話は深刻になっています。 あなたは実際の統計学者と話している可能性が高く、ガンマ分布のようなものが出てくるかもしれないので、この時点で自分自身を言い訳したいか これは指数分布とカイ二乗分布の両方を一般化したものです。 指数分布のように、それは待ち時間の洗練されたモデルとして使用されます。 たとえば、ガンマ分布は、次のn個の事象が発生するまでの時間をモデル化するときに表示されます。, これは、機械学習では、いくつかの分布の”共役”として表示されます。

共役プリオールについてのその会話に入ることはできませんが、そうした場合は、ベータ分布について話をしようとしていることを確認してください。 限りデータ科学者が懸念しているように、それはそれがのために構築されたものです。 何気なくこれに言及して、ドアの方へ移動しなさい。

知恵の始まり

確率分布は、あなたがあまり知ることができないものです。, 本当に興味のある人は、すべての単変量分布のこの非常に詳細な地図をチェックする必要があります。 うまくいけば、この逸話的なガイドは、今日の技術文化の中で知識があり、それを持っているように見える自信を与えます。 または、少なくとも一方を検出し、高い確率が何をすべき未満のみのカクテルです。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

ツールバーへスキップ