6. 概率建模

数学建模

张瑞
中国科学技术大学数学科学学院

概率建模

此类模型的建模思想是:

  • 模型的因素通常具有不确定性,同时服从一定的概率分布,可用随机变量来表示;
  • 因素之间的联系可看作随机变量的函数;
  • 实际问题可转化为关于随机变量的数字特征问题,如均值方差的计算,参数的估计等。

概率论的基础知识

对自然现象进行一次观察或一次科学试验称为试验。如果试验可以在相同条件下重复进行多次,而且每次的试验结果是事前不可预知的,但可以知道所有可能出现的结果,则称之为随机试验。随机试验的结果为随机事件,记为 $A$ , $B$ , $\cdots$

随机事件 $A$ 发生的可能性的大小,称为事件 $A$概率,记为 $P ( A )$。 如果一次试验的结果,有 $n$ 种等可能的情形,其中有 $k$ 种情形事件 $A$ 会发生,则 $P(A)=\frac{k}{n}$

概率运算法则

  1. 逆事件(对立事件) $\bar A$ 的概率 $ P ( A )=1-P(\bar A)$
  2. 事件之和(表示事件$A$与事件$B$至少有一个发生) $A+B$($A\cup B$)的概率
    \[P( A+B )= P ( A ) + P ( B ) - P ( AB ) \]
    如果 $A$$B$ 互不相容(互斥)($A$$B$不可能同时发生),则
    \[P ( A + B ) = P ( A ) + P ( B ) \]
  3. 事件之差(表示$A$发生,而$B$不发生) $A-B$ ( $A \bar B$ )的概率
    \[P ( A - B ) = P ( A ) - P ( AB ) \]
    如果 $A \supset B$(表示$B$发生,则必有$A$发生) ,则
    \[P ( A - B ) = P ( A ) - P ( B ) \]
  1. 事件之积 $AB$($A\cap B$)($A$$B$同时发生)的概率
    \[P ( AB ) = P ( A ) P ( B A ) = P ( B ) P ( A B ) \]
    如果 $A$$B$ 相互独立,则
    \[P ( AB ) = P ( A ) P ( B ) \]
  2. 在已知事件 $A$ 发生的条件下,事件 $B$ 发生的概率(条件概率)
    \[P ( A|B ) =\frac{P(AB)}{P(B)} \]
    如果 $A \subset B$ ,则
    \[P ( A|B ) =\frac{P(A)}{P(B)} \]
  1. 全概率公式。设 $B_1 , B_2 , \cdots, B_n$ 互不相容, $A \subset \sum_{i=1}^n B_i$,则
    \[P ( A ) = \sum_{i=1}^n P ( B_i ) P ( A| B_i ) \]

用数值表示的随机事件的函数称为随机变量。实际中任何用数值表示的随机事件都是随机变量,记为$\xi$, $\eta$, $\cdots$, (或 $X$ , $Y$ , $\cdots$)

$\xi$为随机变量,对任意的实数$x$有函数

\[F ( x ) = P \{ \xi\leq x \} , -\infty < x < +\infty \]

称为随机变量$\xi$分布函数。 分布函数的主要性质:

  1. $P \{ a < \xi \leq b \} = F ( b ) - F ( a )$
  2. $F(x)$是不减函数
  3. $0\leq F(x)\leq 1$
  4. $F(x)$右连续

如果随机变量$\xi$的所有取值为有限个或可列无穷个数值,则这种随机变量为离散型随机变量。否则为连续型随机变量

离散型随机变量$\xi$可以取集合$\{x_1,x_2,\cdots\}$中的任何一个,同时$\xi=x_i$的概率是$p_i$,记为$P\{\xi=x_i\}=p_i$, 又称为分布列

$\xi$ $x_1$ $x_2$ $\cdots$ $x_i$ $\cdots$
$P\{\xi=x_i\}$ $p_1$ $p_2$ $\cdots$ $p_i$ $\cdots$

相应的分布函数为

\[F(x)=\sum_{x_k\leq x} P_k \]

$\xi$的平均值或期望值是所有可能值$x_i$的加权平均,权为$p_i$,即

\[E\xi=\sum_i x_ip_i \]

对于连续型随机变量$\xi$,如果有函数 $\phi(x)$, 使得对任何实数 $x$ ,都有

\[F ( x ) = P \{ \xi\leq x \} = \int_{-\infty}^x\phi(t)dt \]

则称$\phi(x)$$\xi$概率密度(分布密度,密度函数)。

此时,$\xi$的平均值或期望值定义为

\[E\xi=\int_{-\infty}^{+\infty}xf(x)dx \]

它的Riemann和与离散的情形是一样的。

概率密度的主要性质

\[\begin{aligned} &\phi(x)=\frac{d}{dx}F(x) \\ &\int_{-\infty}^{+\infty} \phi(x)dx=1 , \phi(x)\geq 0, -\infty<x<+\infty \\ &P\{a<\xi\leq b\}=\int_a^b \phi(x) dx \end{aligned} \]

随机变量的独立性

随机变量 $\xi$$\eta$ 的相互独立的充分必要条件是:

\[\begin{aligned} F ( x , y ) = P \{ \xi\leq x,\eta\leq y\} = P \{ \xi\leq x\} P \{ \eta\leq y\} = F_\xi( x ) F_\eta ( y ) , \\ -\infty< x,y <+\infty \end{aligned} \]

离散型随机变量 $\xi$$\eta$ 的相互独立的充分必要条件是:

\[P \{ \xi=x_i , \eta = y_j \} = P \{ \xi=x_i \} P \{ \eta=y_j \} , i , j = 1 , 2 , \cdots \]

连续型随机变量 $\xi$$\eta$ 的相互独立的充分必要条件是:

\[\begin{aligned} \phi(x,y)=\frac{\partial^2}{\partial x\partial y}F(x,y) =\frac{d}{dx}F_\xi(x)\frac{d}{dy}F_\eta(y) =\phi_\xi(x)\phi_\eta(y) ,\\ -\infty<x,y<+\infty \end{aligned} \]

数字特征——能够将随机变量分布的主要特征表达出来的数字。

  1. 随机变量 $\xi$数学期望(均值) $E\xi$
  2. 随机变量 $\xi$ 的函数$f(\xi)$数学期望(均值) $Ef(\xi)$
  3. 随机变量 $\xi$方差 $D\xi$ ( $Var \xi$ )
    \[D\xi=E(\xi-E\xi)^2=E(\xi^2)-(E\xi)^2 \]
  4. 随机变量 $\xi$标准差(均方差,根方差) $\sigma_\xi=\sqrt{D\xi}$
  5. 随机变量 $\xi$$\eta$协方差(相关矩) $Cov ( \xi, \eta)$
    \[Cov(\xi,\eta)=E[(\xi-E\xi)(\eta-E\eta)] =E(\xi\eta)-E(\xi)E(\eta) \]
  6. 随机变量 $\xi$$\eta$相关系数 $\rho_{\xi\eta}$ (或 $r_{\xi\eta}$ )
    \[\rho_{\xi\eta}=\frac{Cov(\xi,\eta)}{\sqrt{D\xi D\eta}} \]

离散型变量$\xi$的分布列为$P\{\xi=x_i\}$时,

\[E\xi= \sum_i x_i P \{\xi=x_i\} \]
\[Ef(\xi)= \sum_i f(x_i) P \{\xi=x_i\} \]
\[D\xi=\sum_i (x_i-E\xi)^2P \{\xi=x_i\} \]

连续型变量$\xi$的概率密度为$\phi(x)$时,

\[E\xi=\int_{-\infty}^{+\infty}x\phi(x)dx \]
\[Ef(\xi)=\int_{-\infty}^{+\infty}f(x)\phi(x)dx \]
\[D\xi=\int_{-\infty}^{+\infty}(x-E\xi)^2\phi(x)dx \]

运算法则($\xi$, $\eta$为随机变量,$a$,$b$为常数)

\[E(a\xi+b)=aE\xi+b , E(\xi\pm\eta)=E\xi\pm E\eta, D(a\xi+b)=a^2E\xi \]

$\xi$$\eta$相互独立,则

\[D(\xi\pm\eta)=D\xi+D\eta, E(\xi\eta)=E\xi E\eta, Cov(\xi,\eta)=0, \rho_{\xi\eta}=0 \]

常用分布包括

  1. 二项分布 $b(n,p)$
  2. Poisson分布 $P(\lambda)$
  3. 几何分布 $g(p)$
  4. 均匀分布 $U(a,b)$
  5. 指数分布 $E(\lambda)$
  6. 正态分布 $N(\mu,\sigma^2)$

产品检验(离散概率例子)

例 1. 工厂生产二极管。估计产品有$0.3\%$的次品。可以逐一检测,也可以同时串联多个进行厅成组检测。如果成组检测不通过,还需要逐一检验,找出次品。检验一个的费用是5分钱,同时检验$n$个费用是$4+n$分钱。确定检验的步骤,使得用于检验的花费最少。

分析

  1. $n$为成组检验时,二级管的个数。
  2. $C$为检验一组时的费用,
  3. $A$为平均检验费用

则,

  1. $n=1$时,$A=5$
  2. $n>1$时,若分组的二极管都是好的,则$C=4+n$;若有次品,则$C=(4+n)+5n$
  3. $A$为全部检验费用$/n$

目标: 求$n$的值,使$A$最小

可以看到,$C$是随机变量,取值为$4+n$$(4+n)+5n$。设$p$为所有二级管都是正品的概率,则剩下的概率为$1-p$,则$C$的期望值(或平均值)为

\[EC=(4+n)p+[(4+n)+5n](1-p) \]

已知次品率为$0.003$,那么$p$是多少?

一个二极管是正品的概率是$0.997$,则$n$个二极管都是正品的概率是$0.997^n$,即 $p=0.997^n$

这样,$C$的期望

\[\begin{aligned} EC=&(4+n)p+[(4+n)+5n](1-p) \\ =&4+6n-5n p^n=4+6n-5n (0.997^n) \end{aligned} \]

强大数定理知,平均检验费用

\[A=\frac{EC}n=\frac4n+6-5(0.997^n) \]

可求得,$n=17$时,$A=1.48$最小

最后的结果对$n$和次品率$q=0.03$的敏感程度如何?

  1. $n=10$$n=20$时, $A$是多少?
  2. $q$发生了变化(如,次品率下降了),应该如何调整$n$$A$会发生怎样的变化?

强大数定理:对于任何独立的、同分布的随机变量序列$X_1$, $X_2$, $\cdots$,如果$EX$是有限的,则有

\[\frac{X_1+X_2+\cdots+X_n}n\to EX \]

$n\to\infty$时,概率为$1$。也就是说,长期来看,期望值就是最终的极限。

彩票中的数学

例 2. 要求对各种彩票的设置方案,计算各个奖项的中奖概率、奖金额,以及对彩民的吸引力, 评价各种方案的合理性,设计一种“更好”的方案,给彩票管理部门提出建议。 目前流行的彩票主要有下列两种类型:

  1. 传统型”: (如“10 选 6+1”) 投注者从 0~9 这 10 个号码中选出 6 个基本号码(可重复),排列成一个 6 位数,再从 0~4 这 5 个号码中选出 1 个特别号码,构成一注。开奖时,根据投注号码与开奖号码相符的情况确定中奖等级,
  2. 乐透(lottery)型”: (如“36 选 6+1”) 投注者从 01~36 这 36 个号码中选出 7 个号码(无重复,不考虑排列次序),构成一注。开奖时,从 01~36 中摇出 6 个基本号码(无重复,不考虑排列次序)和 1 个特别号码,根据投注号码与开奖号码相符的情况确定中奖等级

传统型”,如下表所示(其中 abcdef 为摇出的基本号码,g为摇出的特别号码,X 为其他号码)

中奖等级 投注者选的基本号码 投注者选的特别号码
一等奖 abcdef g
二等奖 abcdef X
三等奖abcdeX Xbcdef g X
四等奖abcdXX XbcdeX XXcdef g X
五等奖abcXXX XbcdXX XbcXXX XXcdeX g X
六等奖abXXXX XXcdXX XXXdef XXXdeX XXXXef g X

投注者选的每个基本号码与摇出号码相符的概率都是$\frac1{10}$,不符的概率是$\frac{9}{10}$。 特别号码与摇出号码相符的概率是$\frac{1}{5}$,选错的概率是$\frac{4}{5}$。 因为各位号码的选对与否,是相互独立的,所以,一组投注号码中奖的概率,等于各位号码选对与否的概率的乘积,即有

\[\begin{aligned} P_1=&(\frac{1}{10})^6\times\frac15=0.0000002 \\ P_2=&(\frac{1}{10})^6\times\frac45=0.0000008 \\ P_3=&2\times(\frac{1}{10})^5\times\frac9{10}=0.000018 \\ P_4=&3\times(\frac{1}{10})^4\times(\frac9{10})^2=0.000243 \\ P_5=&4\times(\frac{1}{10})^3\times(\frac9{10})^3=0.002916 \\ P_6=&5\times(\frac{1}{10})^2\times(\frac9{10})^4=0.032805 \\ \end{aligned} \]

乐透(lottery)型”: 如下表所示(其中 O 为 摇出的基本号码,★为摇出的特别号码,X 为其他号码):

中奖等级 投注者选的号码 中奖概率
一等奖 OOOOOO★ 0 . 000000120
二等奖 OOOOOOX 0 . 000003474
三等奖 OOOOO★X 0 . 000020844
四等奖 OOOOOXX 0 . 000291817
五等奖 OOOO★XX 0 . 000729544
六等奖 OOOOXXX 0 . 006565896
七等奖 OOO★XXX 0 . 008754528

36 个号码可以分为 3 类:6 个基本号码、1 个特别号码和 29 个其他号码。 彩民投注时,从 36 个号码中任意选 7 个号码(无重复,不考虑排列次序),有 $C_{37}^7$ 种不同选法。 在彩民选出的 7 个号码中,恰好有 $i$ 个基本号码和 $j$ 个特别号码的情况,相当于先从 6 个基本号码中选 $i$ 个,再从 1 个特别号码中选 $j$ 个,再从 29 个其他号码中选 $7-i-j$ 个,共有 $C_6^iC_1^jC_{29}^{7-i-j}$种不同选法,所以,中奖概率为

\[P_k=\frac{C_6^iC_1^jC_{29}^{7-i-j}}{C_{37}^7} \]

彩民购买一注彩票的金额为 2 元,获得的奖金金额由下列表格和计算公式给出(以上面的“乐透型 36 选 6+1”为例):

中奖等级一等奖二等奖三等奖四等奖 五等奖 六等奖 七等奖
奖金额 500 元 100 元 10 元 5 元
奖金额在高项奖中所占的比例 75% 10%15%

其中,四等奖、五等奖、六等奖、七等奖称为“低项奖”,奖金额固定;一等奖、二等 奖、三等奖称为“高项奖”,奖金额不固定,

  • 高项奖奖金总数= 彩票销售总额$\times$ 50%-低项奖奖金总数 ,
  • 高项奖单项奖金总数= 高项奖奖金总数$\times$这一单项所占的比例 ,
  • 高项奖单项每注奖金额=高项奖单项奖金总数/这一项中奖的投注数

若总共的投注数是$M$,每一种奖的中奖概率为$P_k$,奖金是$A_i$。则

  • 彩票销售总额为$2M$
  • 低项奖金总数为$\sum_{k=4}^7A_kP_kM$
  • $r_k$为高项奖的分配比例,则高项奖每注奖金额为
    \[\begin{aligned} A_k=&\frac{(2M\times0.5-\sum_{k=4}^7A_kP_kM)\times r_k}{P_k M} \\ =&\frac{(1-\sum_{k=4}^7A_kP_k)\times r_k}{P_k} \end{aligned} \]
中奖等级 一等奖 二等奖 三等奖
奖金额 4205385 元 19335 元 4834 元
  • 设投注者每购买一注彩票可以得到的奖金额为随机变量 $\xi$ ,他能得到的平均奖金额就是 $\xi$ 的数学期望 $E\xi$ ,把上面求出的奖金额和中奖概率代入,可以求得

    \[E\xi=\sum x_iP\{\xi=x_i\}=1 \]
  • 得到这一结果是必然的,因为,投注者每购买一注彩票付出的金额为 2 元,按照规定, 返回给彩民的奖金总数为彩票销售总额的 $50\%$,所以平均每注彩票的奖金额显然应该就是 $2\times 0.5=1$

保单

例 3. (人寿保险): 假设一家人寿保险公司打算销售一年期250000元的保单给49岁的女性,保费550元。若这个年龄的女性一年的存活率0.99791,计算这个保单给公司带来的期望收益。

. 假定所有客户都付550元买这个保险,则(1-0.99791)的客户可以得到250000元,则期望值

\[E=550\times 0.99791-250000\times(1-0.99791)=25.201 \]

也就是说,保险公司每卖出一份保单,可以得到25元。

高尔夫球场

例 4. 一家建筑公司要在竞标改建现有的高尔夫球场项目还是新建球场项目之间做出选择。如果从长期看二者均能获益,则选择收益大的;如果均不能获益,公司就不做。费用和收益如下

新建(NC) 改建(R)
赢得合同,净利润 50000 40000
未赢利合同 -1000 -500
赢得合同的概率 0.20 0.25

对于新建,期望值是

\[E(NC)=50000*0.2+(-1000)*0.8=9200 \]

对于改建,期望值是

\[E(R)=40000*0.25+(-500)*0.75=9625 \]

长期看,改建更赚钱

对数据的敏感性

  1. 新建球场的中标概率为$p$,它变得多大,会使得NC更赚钱?

    \[E(NC)=50000p-1000(1-p)\geq 9625 \]

    可以得到 $p\geq 20.83\%$

  2. 中标概率不变,如果利润变化到多少,会使得NC更赚钱?

    \[E(NC)=0.2x-1000*0.8\geq 9625 \]

    可得$x\geq 52125$,比$50000$多4.25%

指纹问题

例 5. (指纹是唯一的吗?) (2004 年国际数模竞赛 A 题)人们普遍相信一种说法:在世界上曾经生活过的任何两个人,他们的指纹,都是不相同的。要求建立一个模型,分析评估一下,这种说法,成立的可能性有多大。

  • 设一个指纹中有 $m$ 个特征点,在每个特征点处,都有可能出现 $n$ 种不同的特征(如: 核心、分岔、孤岛、孔洞、三角、端点、交叉、,等等)。
  • 设在第 $i$ 个特征点处,出现各种特征的概率分别为$p_{i1}$, $p_{i2}$, $\cdots$, $p_{in}$,有$\displaystyle\sum_{j=1}^n p_{ij}=1$
  • 两个人在特征点$i$处有相同特征的概率是
    \[p_{i1}^2+p_{i2}^2+\cdots+p_{in}^2=\sum_{j=1}^np_{ij}^2 \]
  • $m$个特征点相互独立,则两个人在$m$个特征点的指纹特征完全相同的概率为
    \[p=\left(\sum_{j=1}^np_{1j}^2\right)\cdots\left(\sum_{j=1}^np_{mj}^2\right) \]
  • 若每个特征的概率同为$\frac1n$,则2个人在$m$个特征点相同的概率为$\frac1{n^m}$

若地球上有$N$个人,则任何2个人的指纹不同的概率是多少?

  1. 第1人与第2人指纹相同的概率是$p=\prod_{i=1}^m\left(\sum_{j=1}^np_{ij}^2\right)$,不同的概率是$1-p$
  2. 当第1人与第2人指纹不同时,第3人与其中1人指纹相同的概率是$p+p=2p$,第3人与前2人指纹不同的概率是$1-2p$
  3. 当第1人第N-1人的指纹不同,第N人与其中任一人的指纹相同的概率是$(N-1)p$,第N人与前N-1人的指纹都不同的概率为$1-(N-1)p$
  4. N个人指纹都互不相同的概率为
    \[(1-p)(1-2p)\cdots(1-(N-1)p)=\prod_{k=1}^{N-1}(1-kp) \]
  5. N个人中,至少有2人的指纹相同的概率$\displaystyle 1-\prod_{k=1}^{N-1}(1-kp )$

取地球上曾经生活300亿人,即$N=3\times 10^{10}$。取$m=25$个特征点,每个特征点有$n=10$种特征,即$p=\frac1{10^{25}}$,估算$\displaystyle 1-\prod_{k=1}^{N-1}(1-kp)$

  • 计算机计算的难点在于舍入误差。$kp$的范围$10^{-25}\sim 10^{-15}$,而双精度浮点数计算$1-kp$会把它当作$1$来运算
  • 估计概率值的主项
    \[\begin{aligned} 1-\prod_{k=1}^{N-1}(1-kp)=&\frac{(N-1)N}2p \\ & -\frac{(N-2)(N-1)N(3N-1)}{24}p^2+\cdots \end{aligned} \]
    可以得到$\approx 0.000045$

飞机票超额预订问题

例 6. (2002 年国际数模竞赛 B 题) 航空公司通常可以让乘客免费预订机票。

  • 预订了机票的乘客,有可能会因为种种原因,不来乘飞机,这样,当飞机起飞时,就会有一些空位子白白浪费掉。
  • 为了减少损失,航空公司往往采取超额预订飞机票的办法,即:允许乘客预订的机票数超过飞机上的座位数。
  • 但是,这样做,又会发生预订了机票的乘客乘不上飞机,被“挤掉”的情况。对于被“挤掉”的乘客,航空公司必须给予一定的赔偿。
  • 现在的问题是:航空公司应该采取怎样的超额预订策略,才能使自己损失最小,利润最 大?

作为近似,我们可以假定,每次飞行的费用是一个常数。航空公司的利润要达到最大,只要(扣除赔偿金后)机票费的收入达到最大就可以了。

机票价格是$g$,赔偿金是$b$,飞机总座位数为$M$,允许的预订数为$N\geq M$$\xi$是来乘飞机的人数(是个随机变量)。则公司收益为

\[\eta=f(\xi)=\begin{cases} g \xi , & 0\leq\xi\leq M \\ gM-b(\xi-M) , & M<\xi\leq N \end{cases} \]

$\xi$的概率分布为$P(\xi=k)$,$k=0,1,\cdots,N$,则公司的收益就是$\eta$的期望

\[\begin{aligned} E\eta=&Ef(\xi)=\sum_{k=0}^Nf(k)P(\xi=k)\\ =&\sum_{k=0}^MgkP(\xi=k)+\sum_{k=M+1}^N[gM-b(k-M)]P(\xi=k) \end{aligned} \]

共有 $N$ 个乘客预订了机票,设每个预订了机票的乘客实际来乘飞机的概率都是$p$ ,并且作为近似,设每个乘客是否来乘飞机是相互独立的。是一个独立重复试验序列( $N$贝努里试验),所以$\xi$服从参数为 $( N , p )$ 的二项分布,

\[P(\xi=k)=C^k_Np^k(1-p)^{N-k} \]

因此公司的单位价格利润为

\[\begin{aligned} \frac{E(\eta)}g=&E\xi-(1+\frac{b}{g})\sum_{k=M+1}^N(k-M)P(\xi=k) \\ =&Np-\frac{g+b}{g}\sum_{k=M+1}^N(k-M)C^k_Np^k(1-p)^{N-k} \end{aligned} \]
\[\begin{aligned} \frac{E(\eta)}g=&\sum_{k=0}^MkP(\xi=k)+\sum_{k=M+1}^N[M-\frac{b}{g}(k-M)]P(\xi=k) \\ =&\sum_{k=0}^NkP(\xi=k)-\sum_{k=M+1}^NkP(\xi=k)\\ &+\sum_{k=M+1}^N[M-\frac{b}{g}(k-M)]P(\xi=k) \\ =&E\xi-\sum_{k=M+1}^N[(k-M)+\frac{b}{g}(k-M)]P(\xi=k)\\ =&E\xi-(1+\frac{b}{g})\sum_{k=M+1}^N(k-M)P(\xi=k)\\ \end{aligned} \]

取座位数$M=300$,乘机概率$p=0.99$,赔偿金$b=0.2g$。可以对售票数$N$$M+1$开始计算

N 301 302 303 304 305 306 307 308
$E\eta/g$ 297.93 298.69 299.18 299.41 299.44 299.35 299.19 299.01

Mathematica代码

m = 300 (* 航空座位数 *)
n0 = 303 (* 销售的机票数 *)
bg = 0.2 (* 赔偿比例 *)
p = \
0.99 (* 乘机概率 *)

airline[n_] := 
 n p - (1 + bg) Sum[(k - m) PDF[BinomialDistribution[n, p], k], {k, m + 1, n}] (* 航空公司利润 *)
airline[n0]

当座位数固定为 $M=300$ 时,对于各种不同的 $b/g$$p$ 的值,可以分别求出最优的 $N$

赔偿比例 0.99 0.98 0.97 0.95 0.94
0.1 305 310 313 317 321
0.2 305 309 312 316 320
0.3 304 308 311 315 319
0.4 304 307 311 314 318
0.5 304 307 310 314 317
  • 赔偿比例对于超额预订策略的影响不是很大,赔偿金即使提高四、五倍,最佳的超额预订机票数还是与原来差不多。
  • 预订机票的乘客实际来乘飞机的概率 $p$ ,对超额预订策略却有很大的影响,来乘飞机的概率稍微减少一点,最佳的超额预订机票数就可以增加很多。

在此基础上,进一步考虑更复杂的情形,从而建立更复杂、更符合实际的模型。

  • 可以考虑机票价分成各种等级,
  • 赔偿金不是简单地与被“挤掉”的乘客人数成正比,
  • 各种乘客来不来乘飞机的概率不一样,
  • 各个乘客是否来乘飞机不相互独立,

例 7. (报童问题)设报童每天早晨以价格$a$ 购进报纸,以价格$b$ 零售,晚上以价格$c$退回没卖完的报纸。确定购进报纸的数量。

Markov链

定义 1.
马尔可夫链(Markov chain),又称离散时间马尔可夫链,为状态空间中经过从一个状态到另一个状态的转换的随机过程。该过程要求具备“无记忆”的性质:下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性”称作马尔可夫性质。

马尔科夫链作为实际过程的统计模型具有许多应用。

假定有个随机变量序列$\{X_n\}$,设$X_n$在有限的离散集合中取值,不防设为

\[X_n\in\{1,2,\cdots,m\} \]

如果$X_{n+1}=j$的概率仅仅依赖于$X_n$,就称序列$\{X_n\}$Markov链

若有

\[p_{ij}=P\{X_{n+1}=j|X_n=i\} \]

则概率$P(X_n=i)$就由$p_{ij}$$X_0$确定了。

例 8. 状态变量$X_n\in\{1,2,3\}$。若$X_n=1$,则$X_{n+1}=1,2,3$以相等的概率出现;若$X_n=2$,则$X_{n+1}=1$以概率$0.7$出现,$X_{n+1}=2$以概率$0.3$出现;若$X_n=3$,则必有$X_{n+1}=1$

mm6-markov-ex1

状态转移图

\[P=(p_{ij})=\begin{pmatrix} 1/3 & 1/3 & 1/3 \\ 0.7 & 0.3 & 0 \\ 1 & 0 & 0 \end{pmatrix} \]

状态转移概率矩阵

若初始状态$X_0=1$,则$X_1=1,2,3$的概率均为$1/3$。记$\pi_n(i)=P(X_n=i)$$\pi_n=(\pi_n(1), \pi_n(2), \pi_n(3))$,则

\[\begin{aligned} \pi_0=&(1,0,0) \\ \pi_1=&\pi_0 P=(1/3, 1/3, 1/3) \\ \pi_2=&\pi_1 P=(0.677,0.311,1/9) \\ &\cdots\\ \pi_{n+1}=&\pi_n P \end{aligned} \]

这里,可以看到$\pi_{11}=\pi_{12}=(0.553, 0.263, 0.184)$。随着$n$的增加,概率$\pi_n$趋向于确定的极限值,此时的随机过程趋于定常态。此外,序列还可能表现为同期态遍历态等。

\[\begin{aligned} \pi_2(1)=&\frac13\times\frac13+\frac13\times 0.7+\frac13\times1=0.6777777 \\ \pi_2(2)=&\frac13\times\frac13+\frac13\times 0.3=0.21111111\\ \pi_2(3)=&\frac13\times\frac13=\frac19\\ \end{aligned} \]

钢琴销售

例 9. 一家店根据以往经验,平均一周销售1台钢琴。存贮策略是,每周末检查库存,如果为0,就订购3台;否则,不订购。估计,在这种策略下,失去销售机会的可能性有多大?平均每周的销售量是多少?

  • 假设购买者在每周以一定的概率随机到达,因此,数目服从均值为1的泊松分布。记第$n$周的需求量为$D_n$(买钢琴的人),则有
    \[P(D_n=k)=\frac{e^{-1}}{k!} , k=0,1,2,\cdots \]
  • 记第$n$周的库存为$S_n$,则$S_n\in\{1,2,3\}$是状态变量。状态变换的规律是什么?
  • Poisson分布,又称泊松小数法则(Poisson law of small numbers),是一种统计与概率学里常见到的离散概率分布。
  • 泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。某一服务设施在一定时间内受到的服务请求的次数,电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数、激光的光子数分布等等。

泊松分布的概率质量函数为:

\[{\displaystyle P(X=k)={\frac {e^{-\lambda }\lambda ^{k}}{k!}}} \]

泊松分布的参数$\lambda$是单位时间(或单位面积)内随机事件的平均发生率。 其数学期望与方差相等,同为参数$\lambda$

\[E(X)=V(X)=\lambda \]

日常生活中,大量事件是有固定频率的。

  • 某医院平均每小时出生3个婴儿
  • 某公司平均每10分钟接到1个电话
  • 某超市平均每天销售4包xx牌奶粉
  • 某网站平均每分钟有2次访问、前端

它们的特点就是,我们可以预估这些事件的总数,但是没法知道具体的发生时间。已知平均每小时出生3个婴儿,请问下一个小时,会出生几个?

  • 有可能一下子出生6个,也有可能一个都不出生。这是我们没法知道的。
  • 泊松分布就是描述某段时间内,事件具体的发生概率。
    \[P(N(t)=n)=\frac{(\lambda t)^ne^{-\lambda t}}{n!} \]
    1小时内出生3个婴儿的概率,就表示为 $P(N(1) = 3)$

指数分布是事件的时间间隔的概率。下面这些都属于指数分布。

  • 婴儿出生的时间间隔
  • 来电的时间间隔
  • 奶粉销售的时间间隔
  • 网站访问的时间间隔

指数分布的公式可以从泊松分布推断出来。如果下一个婴儿要间隔时间 $t$ ,就等同于 $t$ 之内没有任何婴儿出生。

\[P(X>t)=P(N(t)=0)=e^{-\lambda t} \]

反过来,事件在时间 $t$ 之内发生的概率,就是1减去上面的值。接下来15分钟,会有婴儿出生的概率是52.76%。

\[P(X\leq 0.25)=1-e^{-3\times0.25}\approx 0.5276 \]
  • 一句话总结:泊松分布是单位时间内独立事件发生次数的概率分布,指数分布是独立事件的时间间隔的概率分布。
  • 请注意是“独立事件”,泊松分布和指数分布的前提是,事件之间不能有关联,否则就不能运用上面的公式。

ref: http://wemedia.ifeng.com/74367439/wemedia.shtml

状态$S_n$(库存的钢琴数)的变换规律

\[S_{n+1}=\begin{cases} S_n-D_n , & D_n<S_n \\ 3, & D_n\geq S_n \end{cases} \]

$P(D_n=k)$的分布,可以得到$P(D_n=0)=0.368$,$P(D_n=1)=0.368$,$P(D_n=2)=0.184$,$P(D_n=3)=0.061$,$P(D_n>3)=0.019$,则有状态转移

\[\begin{aligned} p_{11}=&P(S_{n+1}=1|S_n=1)=P(D_n=0)=0.368 \\ p_{12}=&P(S_{n+1}=2|S_n=1)=0 \\ p_{13}=&P(S_{n+1}=3|S_n=1)=P(D_n\geq1)=0.632 \\ p_{21}=&P(S_{n+1}=1|S_n=2)=P(D_n=1)=0.368 \\ p_{22}=&P(S_{n+1}=2|S_n=2)=P(D_n=0)=0.368 \\ p_{23}=&P(S_{n+1}=3|S_n=2)=P(D_n\geq2)=0.264 \\ \end{aligned} \]
\[\begin{aligned} p_{31}=&P(S_{n+1}=1|S_n=3)=P(D_n=2)=0.184 \\ p_{32}=&P(S_{n+1}=2|S_n=3)=P(D_n=1)=0.368 \\ p_{33}=&P(S_{n+1}=3|S_n=3) \\ =&P(D_n=0)+P(D_n\geq3)=0.448 \\ \end{aligned} \]

可以得到状态转移矩阵

\[P=\begin{pmatrix} 0.368 & 0 & 0.632 \\ 0.368 & 0.368 & 0.264 \\ 0.184 & 0.368 & 0.448 \end{pmatrix} \]

$P$具有稳态概率$w$,满足$wP=w$

\[w=(0.285, 0.263, 0.452)=(w_1,w_2,w_3) \]

也就是$n$充分大后,$P(S_n=i)=w_i$, $i=1,2,3$

失去销售机会的概率为$P(D_n>S_n)$,按全概率公式,有

\[P(D_n>S_n)=\sum_{i=1}^3P(D_n>i|S_n=i)P(S_n=i) \]

\[\begin{aligned} P(D_n>S_n)=&0.264\times 0.285+0.080\times0.263\\ &+0.019\times0.452=0.105 \end{aligned} \]

注意到当需求超过存量时,只能销售掉存量,因此周平均销量$R_n$

\[R_n=\sum_{i=1}^3P(S_n=i)\left[\sum_{j=1}^{i-1}jP(D_n=j|S_n=i)+iP(D_n\geq i|S_n=i)\right] \]

可得

\[R_n=0.632\times0.285+0.896\times0.263+0.976\times0.452=0.857 \]

模型结果分析 (对参数的敏感性分析)

  1. 周平均销售量($1$台)有所上升时,对失去销售机会有多大影响?
  2. 周平均销售量($1$台)有所上升时,对周平均销量有多大影响?

若周平均销量为$\lambda$,则$P(D_n=k)=\frac{e^{-\lambda}\lambda^k}{k!}$,从而可以得到新的状态转移矩阵。


不同$\lambda$对应的失去销售机会的概率表

$\lambda$ 0.8 0.9 1.0 1.1 1.2
丢失 0.073 0.089 0.105 0.122 0.139

自动化车床管理

例 10. (1999 年赛题A 题) 一道工序用自动化车床连续加工某种零件,由于刀具损坏等原因该工序会出现故障,其中刀 具损坏故障占 95%, 其它故障仅占 5%。工序出现故障是完全随机的, 假定在生产任一零件时出现 故障的机会均相同。工作人员通过检查零件来确定工序是否出现故障。 现积累有 100 次刀具故障记录,故障出现时该刀具完成的零件数如附表。现计划在刀具加工 一定件数后定期更换新刀具。 已知生产工序的费用参数如下:

  • 故障时产出的零件损失费用 f=200 元/件;
  • 进行检查的费用 t=10 元/次;
  • 发现故障进行调节使恢复正常的平均费用 d=3000 元/次(包括刀具费);
  • 未发现故障时更换一把新刀具的费用 k=1000 元/次。
  1. 假定工序故障时产出的零件均为不合格品,正常时产出的零件均为合格品, 试对该工序 设计效益最好的检查间隔(生产多少零件检查一次)和刀具更换策略。
  2. 如果该工序正常时产出的零件不全是合格品,有 2%为不合格品;而工序故障时产出的零 件有 40%为合格品,60%为不合格品。工序正常而误认有故障仃机产生的损失费用为 1500 元/次。 对该工序设计效益最好的检查间隔和刀具更换策略。
  3. 在 2)的情况, 可否改进检查方式获得更高的效益。

附:100 次刀具故障记录(完成的零件数)

459, 612, 926, 527, 775, 402, 699, 447, 621, 764, 362, 452, 653, 552, 859, 960, 634, 654, 724, 558, 624, 542, 509, 584, 433, 434, 982, 640, 742, 565, 164, 487, 734, 608, 428, 513, 781, 474, 388, 824, 755, 649, 697, 515, 628, 885, 610, 292, 837, 473, 555, 570, 84, 416, 606, 564, 339, 280, 246, 687, 531, 512, 577, 496, 468, 378, 765, 666, 763, 217, 748, 706, 1153, 538, 954, 677, 1062, 539, 499, 715, 815, 593, 593, 862, 771, 358, 484, 790, 544, 310, 505, 680, 844, 659, 609, 638, 120, 581, 645, 851,

模型

  1. 先根据数据,给出刀具无故障时间的概率分布(也就是完成的零件数量的分布)。 可以看到,数据是近似的正态分布。平均值$\mu=600$,均方差$\sigma=196$。可以认为刀具的无故障时间或刀具寿命服从正态分布$N(\mu,\sigma^2)$
  2. 检查间隔为$n$件,预防性更换为常数$m=sn$件,其中$s$是整数
  3. 相对刀具寿命而言,检查间隔很短,可以认为在相邻2次检查之间,每个零件出现故障是等可能的
  4. 刀具寿命$X$满足分布$N(600,196^2)$,分布函数和密度函数记为$F(x)$$f(x)$$F(x)$是刀具寿命不超过$x$的概率。
  5. 检查费用$t=10$,预防性更换刀具费用$k=1000$,零件不合格损失$f=200$,发现故障更换刀具并恢复正常生产费用$d=3000$

mm6-ex-10

Mathematica

N[StandardDeviation[data]] (* 标准差 *)
N[ Median[data]] (* 平均 *)
Histogram[data]
196.629
599.5

正态分布(normal distribution)又名高斯分布(Gaussian distribution),是一个非常常见的连续概率分布。

若随机变量 ${\displaystyle X}$服从一个位置参数为 ${\displaystyle \mu }$、尺度参数为 ${\displaystyle \sigma }$的正态分布,记为:

\[{\displaystyle X\sim N(\mu ,\sigma ^{2}),} \]

则其概率密度函数为

\[{\displaystyle f(x)={1 \over \sigma {\sqrt {2\pi }}}\,e^{-{(x-\mu )^{2} \over 2\sigma ^{2}}}} \]

正态分布的数学期望值或期望值 ${\displaystyle \mu }$等于位置参数,决定了分布的位置;其方差 ${\displaystyle \sigma ^{2}}$的开平方或标准差 ${\displaystyle \sigma }$等于尺度参数,决定了分布的幅度。

正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线(类似于寺庙里的大钟,因此得名)。我们通常所说的标准正态分布是位置参数 ${\displaystyle \mu =0}$,尺度参数 ${\displaystyle \sigma ^{2}=1}$的正态分布。

mm6-pdf-normal mm6-cdf-normal

概率密度函数(PDF) 概率分布函数(CDF)

  • 毫无疑问中心极限定理使得正态分布应用非常广泛。正态分布在统计学上十分重要,经常用在自然和社会科学来代表一个不明的随机变量。
  • 正态分布的另一个特殊性在于:在假设正态条件下,许多统计关系会变得清晰和简单。
  • 实际上现实世界中几乎没有什么事完完全全和正态分布一致。但是近似已经足够让我们以此为假设,推导出许许多多其他的性质。

在一个更换周期$m$内的费用包括了2类可能费用:预防更换费用和故障更换费用。

  1. 在预防性更换前,共检查了$s-1$次,费用为$(s-1)t+k$,预防更换的刀具寿命就超过$m$,其概率为$1-F(m)$
  2. 若在第$i$次检查中发现故障$i=1,2,\cdots,s-1$,则在$i-1$次到$i$次之间生产的$n$个零件中有$1$,$2$,$\cdots$,$n$个不合格的概率是相等的,平均为$\frac{n+1}2$件,产生的零件损失费用为$\frac{n+1}2f$;还有检查费用$t\times i$,恢复生产的费用$d$。这样,总的费用为$t\times i+d+\frac{n+1}2f$。由分布假设,在第$i$次检查发现故障(第$i-1$次检查未发现故障)的概率是$F(n\times i)-F((i-1)n)$

可以得到平均费用为

\[EC=c_1(1-F(m))+\sum_{i=1}^{s-1}c_{2i}(F(i\times n)-F((i-1)n)) \]

其中$c_1=(s-1)t+k$, $c_{2i}=i\times t+\frac{n+1}2f$

可以得到

\[EC=k[1-F(m)]+\left[d+\frac{n+1}2f\right]F(m) +\left(m-\int_0^mF(x)dx\right)\frac{t}n \]
  • 在一个更换周期$m$内共生产了多少产品?

与前面类似,也包含了2类可能:预防更换时和故障更换时。它们各自生产了$m$件和$i\times n$件。因此,平均生产产品数

\[ER=c_1(1-F(m))+\sum_{i=1}^{s-1}c_{2i}(F(i\times n)-F((i-1)n)) \]

其中$c_1=m$, $c_{2i}=i\times n$

  • 这样,生产一个产品的平均费用为$\frac{EC}{ER}$。遍历$n$$m$的取值,可以找到最优解。 $n=18$, $m=360$

现在把其他故障也考虑进来。记$p$,$q$为刀具故障率和其他故障率,则$p:q=95:5$。刀具故障的均值为$\mu=600$,所以$p=\frac1\mu=\frac1{600}$,则$q=\frac{9}{95}p=\frac1{11400}$

  • 假定生产零件时,其他故障出现的概率均为$q$,且相互独立。则生产第$j$个零件才出现其他故障的概率为$P_j=(1-q)^{j-1}q$, $j=1,2,\cdots,m-1$,服从几何分布,而$P_m=(1-q)^{m-1}$

同样可以得到平均费用

\[EC_1=c_1(1-q)^{m-1}+\sum_{j=1}^{m-1}c_{2j}(1-q)^{j-1}q \]

其中$c_1$与前面一样为$(s-1)t+k$$c_{2j}=\left[\frac{j}n\right]t+d+\frac{n+1}2f$

生产的平均零件数为

\[ER_1=m(1-q)^{m-1}+\sum_{j=1}^{m-1}j(1-q)^{j-1}q=\frac{1-(1-q)^m}q \]

这样,整体的故障可以由刀具故障和其他故障加权得到

\[C_2=\lambda EC+(1-\lambda)EC_1, R_2=\lambda ER+(1-\lambda)ER_1 \]

其中$C_2$表示平均费用,$R_2$表示平均生产的零件数。取$\lambda=0.95$,可以看到,其他故障对整体的影响不太大。

目录

本节读完

例 11.

11.

正态分布(normal distribution)又名高斯分布(Gaussian distribution),是一个非常常见的连续概率分布。

若随机变量 ${\displaystyle X}$服从一个位置参数为 ${\displaystyle \mu }$、尺度参数为 ${\displaystyle \sigma }$的正态分布,记为:

\[{\displaystyle X\sim N(\mu ,\sigma ^{2}),} \]

则其概率密度函数为

\[{\displaystyle f(x)={1 \over \sigma {\sqrt {2\pi }}}\,e^{-{(x-\mu )^{2} \over 2\sigma ^{2}}}} \]

正态分布的数学期望值或期望值 ${\displaystyle \mu }$等于位置参数,决定了分布的位置;其方差 ${\displaystyle \sigma ^{2}}$的开平方或标准差 ${\displaystyle \sigma }$等于尺度参数,决定了分布的幅度。

正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线(类似于寺庙里的大钟,因此得名)。我们通常所说的标准正态分布是位置参数 ${\displaystyle \mu =0}$,尺度参数 ${\displaystyle \sigma ^{2}=1}$的正态分布。

https://www.zhihu.com/question/19910173/answer/28613332

  • 正态分布实际上是自然界倾向于产生最大无序程度的一种表现。在给定均值和方差的分布中,正态分布是让熵最大的分布。
  • 中心极限定理有好几个版本,最常见的版本就是独立同分布的随机变量$X_i$和的分布(卷积)表现出渐进正态分布,不论原来的分布是什么。多么神奇!
  • 条件进一步放宽的版本,只要相互独立,不论是不是同分布,从不同分布取出的随机变量$X_i$$Y_i$$Z_i$, $\cdots$ 的和的分布(卷积)也表现出渐近正态,不论原来的三个分布分别是什么。多么神奇!
  • 毫无疑问中心极限定理使得正态分布应用如此广泛。 正态分布在统计学上十分重要,经常用在自然和社会科学来代表一个不明的随机变量。
  • 正态分布的另一个特殊性在于:在假设正态条件下,许多统计关系会变得清晰和简单。
  • 许多变量能用正态得到很好的描述,却不一定是精确的描述,实际上现实世界中几乎没有什么事完完全全和正态分布一致。但是近似已经足够让我们以此为假设,推导出许许多多其他的性质。
  • 自然界的相当一部分现象都是许许多多微小扰动的叠加,比如身高。将身高记作y,则y=f(因子1,因子2,因子3。。。),泰勒展开就变成一群多项式的和。对于每一个人而言,每一项都可以看做随机变量,服从某个未知的分布。但加起来作为身高而言,则渐进服从正态分布。所么神奇!

wikipedia关于正态分布Normal distribution有一个专门的小节讲occurence,里面将正态分布的出现分为三类:exact,approximate和assumed。

  • 严格正态分布(exact normal distribution)一般只会出现在理想的物理系统中,例如热力学系统中最大熵原理导致理想气体分子的速度服从正态分布。但是应该注意到,由于这种原因出现的正态随机变量应该是很少的。
  • 近似正态分布(approximate normal distribution)的广泛性也许是这个问题最好的回答。中心极限定理,这确实是统计学中最重要的定理之一,也直接确定了正态分布的地位。粗略地说,如果一些变量服从相似的分布并且相关性较弱,那么它们的平均值就是近似正态分布的。对这个论断的大量定量研究(大部分基于Stein's method)极大的拓展了中心极限定理的应用范围,所以我们对很多正态假设也更能接受了。
  • 假设正态分布(assumed normal distribution)也是很多人认为“正态分布被滥用”的原因。现在几乎所有学科里针对不确定性的研究,正态分布都是最常见的假设。很多时候这个假设甚至都没有经过验证,研究者为了能做定量研究就先假设正态分布,这无疑是一种滥用。即使中心极限定理能在一定程度上支持某些假设,我们也要始终清醒地意识到这是需要实际数据验证的。事实上统计学家也早就意识到正态分布假设并不总是成立。六十到八十年代最重要的研究就主要在generalized linear model和robust statistics上,这些都是对传统基于正态误差的线性模型的推广和改进。

非正态分布

http://www.ruanyifeng.com/blog/2017/08/normal-distribution.html

  • 统计学里面,正态分布(normal distribution)最常见。男女身高、寿命、血压、考试成绩、测量误差等等,都属于正态分布。

正态分布为什么常见?真正原因是中心极限定理(central limit theorem)。

  • 根据中心极限定理,如果一个事物受到多种因素的影响,不管每个因素本身是什么分布,它们加总后,结果的平均值就是正态分布。

举例来说,人的身高既有先天因素(基因),也有后天因素(营养)。每一种因素对身高的影响都是一个统计量,不管这些统计量本身是什么分布,它们和的平均值符合正态分布。(注意:男性身高和女性身高都是正态分布,但男女混合人群的身高不是正态分布。)

  • 许多事物都受到多种因素的影响,这导致了正态分布的常见。
  • 但是很多真实世界的分布是不对称的。
    1. 比如,财富的分布就是不对称的,富人的有钱程度(可能比平均值高出上万倍),远远超出穷人的贫穷程度(平均值的十分之一就是赤贫了),即财富分布曲线有右侧的长尾。
    2. 相比来说,身高的差异就小得多,最高和最矮的人与平均身高的差距,都在30%多。
  • 这是为什么呢,财富明明也受到多种因素的影响,怎么就不是正态分布呢?
  • 原来,正态分布只适合各种因素累加的情况,如果这些因素不是彼此独立的,会互相加强影响,那么就不是正态分布了。

一个人是否能够挣大钱,由多种因素决定: 家庭, 教育, 运气, 工作 这些因素都不是独立的,会彼此加强。如果出生在上层家庭,那么你就有更大的机会接受良好的教育、找到高薪的工作、遇见好机会,反之亦然。也就是说,这不是 $1 + 1 = 2$ 的效果,而是 $1 + 1 > 2$

  • 统计学家发现,如果各种因素对结果的影响不是相加,而是相乘,那么最终结果不是正态分布,而是对数正态分布(log normal distribution),即$x$的对数值$\log(x)$满足正态分布。

这就是说,财富的对数值满足正态分布。如果平均财富是10,000元,那么1000元~10,000元之间的穷人(比平均值低一个数量级,宽度为9000)与10,000元~100,000元之间的富人(比平均值高一个数量级,宽度为90,000)人数一样多。因此,财富曲线左侧的范围比较窄,右侧出现长尾。

对数正态分布是对数为正态分布的任意随机变量的概率分布, 即一个随机变量的对数服从正态分布。

  • 如果 ${\displaystyle Y}$ 是正态分布的随机变量,则 ${\displaystyle e^Y}$(指数函数)为对数正态分布;
  • 同样,如果 ${\displaystyle X}$ 是对数正态分布,则 ${\displaystyle \ln X}$为正态分布。

概率密度函数(PDF)

\[f(x;\mu,\sigma)=\frac{1}{x\sigma\sqrt{2\pi}}e^{-\frac{\ln x-\mu^2}{2\sigma^2}} \]

其中 ${\displaystyle \mu }$${\displaystyle \sigma }$ 分别是变量对数的平均值与标准差。

它的期望值是

\[{\displaystyle \mathrm {E} (X)=e^{\mu +\sigma ^{2}/2}} \]

方差为

\[{\displaystyle \mathrm {var} (X)=(e^{\sigma ^{2}}-1)e^{2\mu +\sigma ^{2}}.\,} \]

给定期望值与方差,也可以用这个关系求 ${\displaystyle \mu }$${\displaystyle \sigma }$

\[{\displaystyle \mu =\ln(\mathrm {E} (X))-{\frac {1}{2}}\ln \left(1+{\frac {\mathrm {var} (X)}{\mathrm {E} (X)^{2}}}\right),} {\displaystyle \sigma ^{2}=\ln \left(1+{\frac {\mathrm {var} (X)}{\mathrm {E} (X)^{2}}}\right).} \]

$\mu=2$, $\sigma=1$的函数图像

mm6-pdf-log-normal mm6-cdf-log-normal
概率密度函数(PDF) 概率分布函数(CDF)