张瑞
中国科学技术大学数学科学学院
rui@ustc.edu.cn |
此类模型的建模思想是:
对自然现象进行一次观察或一次科学试验称为试验。如果试验可以在相同条件下重复进行多次,而且每次的试验结果是事前不可预知的,但可以知道所有可能出现的结果,则称之为随机试验。随机试验的结果为随机事件,记为 , , 。
随机事件 发生的可能性的大小,称为事件 的概率,记为 。 如果一次试验的结果,有 种等可能的情形,其中有 种情形事件 会发生,则
概率运算法则
用数值表示的随机事件的函数称为随机变量。实际中任何用数值表示的随机事件都是随机变量,记为, , , (或 , , )
设为随机变量,对任意的实数有函数
称为随机变量的分布函数。 分布函数的主要性质:
如果随机变量的所有取值为有限个或可列无穷个数值,则这种随机变量为离散型随机变量。否则为连续型随机变量。
离散型随机变量可以取集合中的任何一个,同时的概率是,记为, 又称为分布列
相应的分布函数为
的平均值或期望值是所有可能值的加权平均,权为,即
对于连续型随机变量,如果有函数 , 使得对任何实数 ,都有
则称是 的概率密度(分布密度,密度函数)。
此时,的平均值或期望值定义为
它的Riemann和与离散的情形是一样的。
概率密度的主要性质
随机变量的独立性
随机变量 与 的相互独立的充分必要条件是:
离散型随机变量 与 的相互独立的充分必要条件是:
连续型随机变量 与 的相互独立的充分必要条件是:
数字特征——能够将随机变量分布的主要特征表达出来的数字。
离散型变量的分布列为时,
连续型变量的概率密度为时,
运算法则(, 为随机变量,,为常数)
若与相互独立,则
常用分布包括
例 1. 工厂生产二极管。估计产品有的次品。可以逐一检测,也可以同时串联多个进行厅成组检测。如果成组检测不通过,还需要逐一检验,找出次品。检验一个的费用是5分钱,同时检验个费用是分钱。确定检验的步骤,使得用于检验的花费最少。
分析
则,
目标: 求的值,使最小
可以看到,是随机变量,取值为或。设为所有二级管都是正品的概率,则剩下的概率为,则的期望值(或平均值)为
已知次品率为,那么是多少?
一个二极管是正品的概率是,则个二极管都是正品的概率是,即
这样,的期望
由强大数定理知,平均检验费用
可求得,时,最小
最后的结果对和次品率的敏感程度如何?
强大数定理:对于任何独立的、同分布的随机变量序列, , ,如果是有限的,则有
当时,概率为。也就是说,长期来看,期望值就是最终的极限。
例 2. 要求对各种彩票的设置方案,计算各个奖项的中奖概率、奖金额,以及对彩民的吸引力, 评价各种方案的合理性,设计一种“更好”的方案,给彩票管理部门提出建议。 目前流行的彩票主要有下列两种类型:
“传统型”,如下表所示(其中 abcdef 为摇出的基本号码,g为摇出的特别号码,X 为其他号码)
中奖等级 | 投注者选的基本号码 | 投注者选的特别号码 |
---|---|---|
一等奖 | abcdef | g |
二等奖 | abcdef | X |
三等奖 | abcdeX Xbcdef | g X |
四等奖 | abcdXX XbcdeX XXcdef | g X |
五等奖 | abcXXX XbcdXX XbcXXX XXcdeX | g X |
六等奖 | abXXXX XXcdXX XXXdef XXXdeX XXXXef | g X |
投注者选的每个基本号码与摇出号码相符的概率都是,不符的概率是。 特别号码与摇出号码相符的概率是,选错的概率是。 因为各位号码的选对与否,是相互独立的,所以,一组投注号码中奖的概率,等于各位号码选对与否的概率的乘积,即有
“乐透(lottery)型”: 如下表所示(其中 O 为 摇出的基本号码,★为摇出的特别号码,X 为其他号码):
中奖等级 | 投注者选的号码 | 中奖概率 |
一等奖 | OOOOOO★ | 0 . 000000120 |
二等奖 | OOOOOOX | 0 . 000003474 |
三等奖 | OOOOO★X | 0 . 000020844 |
四等奖 | OOOOOXX | 0 . 000291817 |
五等奖 | OOOO★XX | 0 . 000729544 |
六等奖 | OOOOXXX | 0 . 006565896 |
七等奖 | OOO★XXX | 0 . 008754528 |
36 个号码可以分为 3 类:6 个基本号码、1 个特别号码和 29 个其他号码。 彩民投注时,从 36 个号码中任意选 7 个号码(无重复,不考虑排列次序),有 种不同选法。 在彩民选出的 7 个号码中,恰好有 个基本号码和 个特别号码的情况,相当于先从 6 个基本号码中选 个,再从 1 个特别号码中选 个,再从 29 个其他号码中选 个,共有 种不同选法,所以,中奖概率为
彩民购买一注彩票的金额为 2 元,获得的奖金金额由下列表格和计算公式给出(以上面的“乐透型 36 选 6+1”为例):
中奖等级 | 一等奖 | 二等奖 | 三等奖 | 四等奖 | 五等奖 | 六等奖 | 七等奖 |
---|---|---|---|---|---|---|---|
奖金额 | 500 元 | 100 元 | 10 元 | 5 元 | |||
奖金额在高项奖中所占的比例 | 75% | 10% | 15% | ||||
其中,四等奖、五等奖、六等奖、七等奖称为“低项奖”,奖金额固定;一等奖、二等 奖、三等奖称为“高项奖”,奖金额不固定,
若总共的投注数是,每一种奖的中奖概率为,奖金是。则
中奖等级 | 一等奖 | 二等奖 | 三等奖 |
---|---|---|---|
奖金额 | 4205385 元 | 19335 元 | 4834 元 |
设投注者每购买一注彩票可以得到的奖金额为随机变量 ,他能得到的平均奖金额就是 的数学期望 ,把上面求出的奖金额和中奖概率代入,可以求得
得到这一结果是必然的,因为,投注者每购买一注彩票付出的金额为 2 元,按照规定, 返回给彩民的奖金总数为彩票销售总额的 ,所以平均每注彩票的奖金额显然应该就是 。
例 3. (人寿保险): 假设一家人寿保险公司打算销售一年期250000元的保单给49岁的女性,保费550元。若这个年龄的女性一年的存活率0.99791,计算这个保单给公司带来的期望收益。
解. 假定所有客户都付550元买这个保险,则(1-0.99791)的客户可以得到250000元,则期望值
也就是说,保险公司每卖出一份保单,可以得到25元。
例 4. 一家建筑公司要在竞标改建现有的高尔夫球场项目还是新建球场项目之间做出选择。如果从长期看二者均能获益,则选择收益大的;如果均不能获益,公司就不做。费用和收益如下
新建(NC) | 改建(R) | |
---|---|---|
赢得合同,净利润 | 50000 | 40000 |
未赢利合同 | -1000 | -500 |
赢得合同的概率 | 0.20 | 0.25 |
对于新建,期望值是
对于改建,期望值是
长期看,改建更赚钱
对数据的敏感性。
新建球场的中标概率为,它变得多大,会使得NC更赚钱?
可以得到
中标概率不变,如果利润变化到多少,会使得NC更赚钱?
可得,比多4.25%
例 5. (指纹是唯一的吗?) (2004 年国际数模竞赛 A 题)人们普遍相信一种说法:在世界上曾经生活过的任何两个人,他们的指纹,都是不相同的。要求建立一个模型,分析评估一下,这种说法,成立的可能性有多大。
若地球上有个人,则任何2个人的指纹不同的概率是多少?
取地球上曾经生活300亿人,即。取个特征点,每个特征点有种特征,即,估算
例 6. (2002 年国际数模竞赛 B 题) 航空公司通常可以让乘客免费预订机票。
作为近似,我们可以假定,每次飞行的费用是一个常数。航空公司的利润要达到最大,只要(扣除赔偿金后)机票费的收入达到最大就可以了。
机票价格是,赔偿金是,飞机总座位数为,允许的预订数为。是来乘飞机的人数(是个随机变量)。则公司收益为
若的概率分布为,,则公司的收益就是的期望
共有 个乘客预订了机票,设每个预订了机票的乘客实际来乘飞机的概率都是 ,并且作为近似,设每个乘客是否来乘飞机是相互独立的。是一个独立重复试验序列( 重贝努里试验),所以服从参数为 的二项分布,
因此公司的单位价格利润为
取座位数,乘机概率,赔偿金。可以对售票数从开始计算
N | 301 | 302 | 303 | 304 | 305 | 306 | 307 | 308 |
297.93 | 298.69 | 299.18 | 299.41 | 299.44 | 299.35 | 299.19 | 299.01 | |
Mathematica代码
m = 300 (* 航空座位数 *)
n0 = 303 (* 销售的机票数 *)
bg = 0.2 (* 赔偿比例 *)
p = \
0.99 (* 乘机概率 *)
airline[n_] :=
n p - (1 + bg) Sum[(k - m) PDF[BinomialDistribution[n, p], k], {k, m + 1, n}] (* 航空公司利润 *)
airline[n0]
当座位数固定为 时,对于各种不同的 和 的值,可以分别求出最优的 值
乘 | 机 | 概 | 率 | ||
---|---|---|---|---|---|
赔偿比例 | 0.99 | 0.98 | 0.97 | 0.95 | 0.94 |
0.1 | 305 | 310 | 313 | 317 | 321 |
0.2 | 305 | 309 | 312 | 316 | 320 |
0.3 | 304 | 308 | 311 | 315 | 319 |
0.4 | 304 | 307 | 311 | 314 | 318 |
0.5 | 304 | 307 | 310 | 314 | 317 |
在此基础上,进一步考虑更复杂的情形,从而建立更复杂、更符合实际的模型。
例 7. (报童问题)设报童每天早晨以价格 购进报纸,以价格 零售,晚上以价格退回没卖完的报纸。确定购进报纸的数量。
定义 1.
马尔可夫链(Markov chain),又称离散时间马尔可夫链,为状态空间中经过从一个状态到另一个状态的转换的随机过程。该过程要求具备“无记忆”的性质:下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性”称作马尔可夫性质。
马尔科夫链作为实际过程的统计模型具有许多应用。
假定有个随机变量序列,设在有限的离散集合中取值,不防设为
如果的概率仅仅依赖于,就称序列是Markov链。
若有
则概率就由和确定了。
例 8. 状态变量。若,则以相等的概率出现;若,则以概率出现,以概率出现;若,则必有。
状态转移图 |
状态转移概率矩阵 |
若初始状态,则的概率均为。记,,则
这里,可以看到。随着的增加,概率趋向于确定的极限值,此时的随机过程趋于定常态。此外,序列还可能表现为同期态,遍历态等。
例 9. 一家店根据以往经验,平均一周销售1台钢琴。存贮策略是,每周末检查库存,如果为0,就订购3台;否则,不订购。估计,在这种策略下,失去销售机会的可能性有多大?平均每周的销售量是多少?
泊松分布的概率质量函数为:
泊松分布的参数是单位时间(或单位面积)内随机事件的平均发生率。 其数学期望与方差相等,同为参数。
日常生活中,大量事件是有固定频率的。
它们的特点就是,我们可以预估这些事件的总数,但是没法知道具体的发生时间。已知平均每小时出生3个婴儿,请问下一个小时,会出生几个?
指数分布是事件的时间间隔的概率。下面这些都属于指数分布。
指数分布的公式可以从泊松分布推断出来。如果下一个婴儿要间隔时间 ,就等同于 之内没有任何婴儿出生。
反过来,事件在时间 之内发生的概率,就是1减去上面的值。接下来15分钟,会有婴儿出生的概率是52.76%。
ref: http://wemedia.ifeng.com/74367439/wemedia.shtml
状态(库存的钢琴数)的变换规律
由的分布,可以得到,,,,,则有状态转移
可以得到状态转移矩阵
具有稳态概率,满足,
也就是充分大后,,
失去销售机会的概率为,按全概率公式,有
有
注意到当需求超过存量时,只能销售掉存量,因此周平均销量为
可得
模型结果分析 (对参数的敏感性分析)
若周平均销量为,则,从而可以得到新的状态转移矩阵。
不同对应的失去销售机会的概率表
0.8 | 0.9 | 1.0 | 1.1 | 1.2 | |
丢失 | 0.073 | 0.089 | 0.105 | 0.122 | 0.139 |
例 10. (1999 年赛题A 题) 一道工序用自动化车床连续加工某种零件,由于刀具损坏等原因该工序会出现故障,其中刀 具损坏故障占 95%, 其它故障仅占 5%。工序出现故障是完全随机的, 假定在生产任一零件时出现 故障的机会均相同。工作人员通过检查零件来确定工序是否出现故障。 现积累有 100 次刀具故障记录,故障出现时该刀具完成的零件数如附表。现计划在刀具加工 一定件数后定期更换新刀具。 已知生产工序的费用参数如下:
附:100 次刀具故障记录(完成的零件数)
459, 612, 926, 527, 775, 402, 699, 447, 621, 764, 362, 452, 653, 552, 859, 960, 634, 654, 724, 558, 624, 542, 509, 584, 433, 434, 982, 640, 742, 565, 164, 487, 734, 608, 428, 513, 781, 474, 388, 824, 755, 649, 697, 515, 628, 885, 610, 292, 837, 473, 555, 570, 84, 416, 606, 564, 339, 280, 246, 687, 531, 512, 577, 496, 468, 378, 765, 666, 763, 217, 748, 706, 1153, 538, 954, 677, 1062, 539, 499, 715, 815, 593, 593, 862, 771, 358, 484, 790, 544, 310, 505, 680, 844, 659, 609, 638, 120, 581, 645, 851,
模型:
Mathematica
N[StandardDeviation[data]] (* 标准差 *)
N[ Median[data]] (* 平均 *)
Histogram[data]
196.629
599.5
正态分布(normal distribution)又名高斯分布(Gaussian distribution),是一个非常常见的连续概率分布。
若随机变量 服从一个位置参数为 、尺度参数为 的正态分布,记为:
则其概率密度函数为
正态分布的数学期望值或期望值 等于位置参数,决定了分布的位置;其方差 的开平方或标准差 等于尺度参数,决定了分布的幅度。
正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线(类似于寺庙里的大钟,因此得名)。我们通常所说的标准正态分布是位置参数 ,尺度参数 的正态分布。
概率密度函数(PDF) 概率分布函数(CDF)
在一个更换周期内的费用包括了2类可能费用:预防更换费用和故障更换费用。
可以得到平均费用为
其中, 。
可以得到
与前面类似,也包含了2类可能:预防更换时和故障更换时。它们各自生产了件和件。因此,平均生产产品数
其中, 。
现在把其他故障也考虑进来。记,为刀具故障率和其他故障率,则。刀具故障的均值为,所以,则
同样可以得到平均费用
其中与前面一样为,
生产的平均零件数为
这样,整体的故障可以由刀具故障和其他故障加权得到
其中表示平均费用,表示平均生产的零件数。取,可以看到,其他故障对整体的影响不太大。
例 11. 谢
11.
正态分布(normal distribution)又名高斯分布(Gaussian distribution),是一个非常常见的连续概率分布。
若随机变量 服从一个位置参数为 、尺度参数为 的正态分布,记为:
则其概率密度函数为
正态分布的数学期望值或期望值 等于位置参数,决定了分布的位置;其方差 的开平方或标准差 等于尺度参数,决定了分布的幅度。
正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线(类似于寺庙里的大钟,因此得名)。我们通常所说的标准正态分布是位置参数 ,尺度参数 的正态分布。
https://www.zhihu.com/question/19910173/answer/28613332
wikipedia关于正态分布Normal distribution有一个专门的小节讲occurence,里面将正态分布的出现分为三类:exact,approximate和assumed。
非正态分布
http://www.ruanyifeng.com/blog/2017/08/normal-distribution.html
正态分布为什么常见?真正原因是中心极限定理(central limit theorem)。
举例来说,人的身高既有先天因素(基因),也有后天因素(营养)。每一种因素对身高的影响都是一个统计量,不管这些统计量本身是什么分布,它们和的平均值符合正态分布。(注意:男性身高和女性身高都是正态分布,但男女混合人群的身高不是正态分布。)
一个人是否能够挣大钱,由多种因素决定: 家庭, 教育, 运气, 工作… 这些因素都不是独立的,会彼此加强。如果出生在上层家庭,那么你就有更大的机会接受良好的教育、找到高薪的工作、遇见好机会,反之亦然。也就是说,这不是 的效果,而是 。
这就是说,财富的对数值满足正态分布。如果平均财富是10,000元,那么1000元~10,000元之间的穷人(比平均值低一个数量级,宽度为9000)与10,000元~100,000元之间的富人(比平均值高一个数量级,宽度为90,000)人数一样多。因此,财富曲线左侧的范围比较窄,右侧出现长尾。
对数正态分布是对数为正态分布的任意随机变量的概率分布, 即一个随机变量的对数服从正态分布。
概率密度函数(PDF)
其中 与 分别是变量对数的平均值与标准差。
它的期望值是
方差为
给定期望值与方差,也可以用这个关系求 与
, 的函数图像
| |
概率密度函数(PDF) | 概率分布函数(CDF) |