如下图,可以转化为标准正态分布计算,需要查表。
若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。
:
正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由A棣莫弗在求二项分布的渐近公式中得到。CF高斯在研究测量误差时从另一个角度导出了它。PS拉普拉斯和高斯研究了它的性质。
正态分布有极其广泛的实际背景,生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。例如,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的速度分量,等等。
一般来说,如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布(见中心极限定理)。从理论上看,正态分布具有很多良好的性质 ,许多概率分布可以用它来近似;还有一些常用的概率分布是由它直接导出的,例如对数正态分布、t分布、F分布等。
参考资料:
概率密度分布图指的是散点图,操作方法如下:
1首先需要启动Excel,获得相应的数据源,这个数据源就是两列数据,就是X和Y,以此为基础就可以制作散点图啦。
2选中两列数据源,在“插入”选项卡上的“图表组”中,就可以看到散点图啦,点击散点图,就会弹出一系列的散点图的模板,选中第一个模板。
3这样,散点图就制作完成了,初始的模样如下图所示。
4接下来就是做一些修饰性的工作,首先教大家的就是添加网格线,选中Y轴之后,鼠标右键单击,然后选择添加次要网格线。
5这样就在Y轴上添加了次要网格线,就相当于在之前的图表上,做出了很多等Y值的线。
6同样的方式,可以在X轴上添加网格线,这样就在原有的散点图上制作出来了一个坐标图来,这样有助于我们更深刻的了解数据源。
7最后,还有一点需要修饰地方,那就是将边框修饰成圆角+阴影,这样会使表格看起来更加专业。
概率密度只是针对连续性变量而言,而分布函数是对所有随机变量取值的概率的讨论,包括连续性和离散型;
已知连续型随机变量的密度函数,可以通过讨论及定积分的计算求出其分布函数;当已知连续型随机变量的分布函数时,对其求导就可得到密度函数
对离散型随机变量而言,如果知道其概率分布(分布列),也可求出其分布函数;当然,当知道其分布函数时也可求出概率分布
概率分布用以表达随机变量取值的概率规律,根据随机变量所属类型的不同,概率分布取不同的表现形式,主要分为 离散变量概率分布 和 连续变量概率分布 。
离散型分布 :二项分布、多项分布、伯努利分布、泊松分布。
连续型分布 :均匀分布、正态分布、指数分布、伽玛分布、偏态分布、贝塔分布、威布尔分布、卡方分布、F分布。
连续型随机变量 :若随机变量X的分布函数F(X)可以表示为一个非负可积函数f(x)的积分,则称X为连续型随机变量,f(x)称为x的概率密度函数,积分值为X的数学期望
一、离散型分布
(一)伯努利分布
伯努利分布只有两种可能的结果,1-成功和0-失败,具有伯努利分布特征的随机变量X可以取值为1的概率为p,取值为0的概率1-p,其中成功和失败的概率不一定相等。
来自伯努利分布的随机变量X的期望值为:E(X)=1 p+0 (1-p)=p
方差为:V(X)=E(X²)–[E(X)]² =p–p²
(二)二项分布
如果做n次伯努利试验,每次结果只有0,1两种结果,如果n=1的话显然是伯努利分布。二项分布的每一次尝试都是独立的,前一次投掷的结果不能决定或影响当前投掷的结果,只有两个可能结果并且重复n次的实验叫做二项式。二项分布的参数是n和p,其中n是试验的总数,p是每次试验成功的概率。n次独立重复事件发生k次的概率为:
(三)多项分布
多项分布是二项分布的推广扩展,在n次独立实验中每次只输出k种结果中的一个,且每种结果都有一个确定概率,多项分布给出在多种输出状态的情况下,关于成功次数的各种组合的概率。
举例投掷n次骰子,这个骰子共有6种结果输出,且1点出现概率为p1,2点出现概率p2,…多项分布给出了在n次试验中,骰子1点出现x1次,2点出现x2次,3点出现x3次,…,6点出现x6次。这个结果组合的概率公式为:
(四)泊松分布
大量事件是有固定频率的。特点:可以预估这些事件的总数,但是没法知道具体的发生时间和发生地点。已知平均每小时出生3个婴儿,请问下一个小时,会出生几个?
泊松分布是个计数过程,通常用于模拟一个 非连续事件 在 连续时间 中的发生次数。
主要特点:
1任何一个成功事件不能影响其它的成功事件(N(t+s)-N(t)增量之间互相独立);
2经过短时间间隔的成功概率必须等于经过长时间间隔的成功概率;
3时间间隔趋向于无穷小的时候,一个时间间隔内的成功概率趋近零;
泊松分布即描述某段时间内,事件具体的发生频率。
泊松分布的概率分布函数公式如下所示:
二、连续型分布
(一)均匀分布
均匀分布所有可能结果n个数的发生概率是相等的,均匀分布变量X的概率密度函数([概率密度函数]概念是针对连续分布的,求积分即发生概率)为:
(二)正态分布
正态分布的特征:1分布的平均值、中位数和众数一致;2分布曲线是钟形的,关于线x=μ对称;3曲线下的总面积为1;4两个正态分布之积仍为正态分布;5两个独立且服从正态分布的随机变量的和服从正态分布。
若随机变量X服从位置参数μ,尺度参数sigma^2 的概率分布N(μ,sigma^2),且其概率密度函数为:
看作是随机变量X实际可能的取值区间(3sigma法则)。
(三)指数分布
指数分布是独立事件发生的时间间隔。例如婴儿出生的时间间隔、来电的时间间隔、奶粉销售的时间间隔、网站访问的时间间隔
(四)伽玛分布
Gamma分布即多个独立且相同分布的指数分布变量和的分布,即从头开始到第n次事件的发生时间。
(五)共轭先验分布
共轭是选取一个函数作为似然函数的先验概率分布,使得后验分布函数和先验分布函数形式一致(Beta分布是二项式分布的共轭先验概率分布,而狄利克雷分布(Dirichlet分布)是多项式分布的共轭先验概率分布)。
贝叶斯规则 :后验分布=似然函数先验概率分布
(六)贝塔分布
贝塔分布(Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。在概率论中,贝塔分布也称Β分布,是指一组定义在(0,1) 区间的连续概率分布。当不知道某个具体事件的发生概率时,贝塔分布可以给出所有概率出现的可能性大小。
例如 α=099,β=05,贝塔分布B(α,β)如下图所示:
(七)卡方分布
三、分布之间的关系
(一)伯努利分布和二项分布的关系:
1伯努利分布是二项分布的单次试验的特例,即单次二项分布试验;
2二项分布和伯努利分布的每次试验都只有两个可能的结果;
3二项分布每次试验都是互相独立的,每一次试验都可以看作一个伯努利分布。
(二)泊松分布和二项分布的关系:
以下条件下,泊松分布是二项分布的极限形式:
1试验次数非常大或者趋近无穷,即n→∞;
2每次试验的成功概率相同且趋近零,即p→0;
3np=λ是有限值。
(三)正态分布和二项分布的关系&正态分布和泊松分布的关系:
以下条件下,正态分布是二项分布的一种极限形式:
1试验次数非常大或者趋近无穷,即n→∞;
2p和q都不是无穷小
当参数λ→∞的时候,正态分布是泊松分布的极限形式。
(四)指数分布和泊松分布的关系:
如果随机事件的时间间隔服从参数为λ的指数分布,那么在时间周期t内事件发生的总次数服从泊松分布,相应的参数为λt。
1两点分布(伯努利分布):
小故事:
假设工厂现有100件零件,其中正品90件,次品10件。有位工人现在随机从这100件零件中挑选1件,那么他挑选出正品的概率为09,即 P(X=正品)=p = 09 。
定义:
若随机变量X的取值为0和1两种情况,且满足概率分布 P(X=1)=p, P(X=0)=1-p ,则X服从参数为 p 的两点分布。
2二项分布(n重伯努利分布):
小故事:
还是上一位工人,他现在独立重复的挑了n个零件,则他挑出k件正品的概率为 P(X=n个零件中有k个正品) 。简单来说就是,我们进行了n次独立重复的伯努利实验,其中事件A发生的次数是一个随机变量。
定义:
若随机变量X的取值为 0,1,,n ,且满足概率分布 P(X=k)=\binom{n}{k}p^{k}(1-p)^{n-k} ,则称X服从参数为 n,p 的二项分布, X \sim B(n,p) 。
3泊松分布:
小故事:
还是那位工人,假设他现在不停歇的挑选零件,则挑出正品零件的个数是一个随机变量。
定义:
若随机变量X的取值为全体非负整数 0,1,2, ,且满足概率分布 P(X=k) = \frac{1}{k!}\lambda^{k}e^{-\lambda}, (\lambda>0) ,则称X服从参数 \lambda 的泊松分布。
本文主要是基于下面优秀博客文的总结和梳理:
概率论中常见分布总结以及python的scipy库使用:两点分布、二项分布、几何分布、泊松分布、均匀分布、指数分布、正态分布
(侵删。)
概率分布有两种型别:离散(discrete)概率分布和连续(continuous)概率分布。
离散概率分布也称为概率质量函式(probability mass function)。离散概率分布的例子有伯努利分布(Bernoulli distribution)、二项分布(binomial distribution)、泊松分布(Poisson distribution)和几何分布(geometric distribution)等。
连续概率分布也称为概率密度函式(probability density function),它们是具有连续取值(例如一条实线上的值)的函式。正态分布(normal distribution)、指数分布(exponential distribution)和β分布(beta distribution)等都属于连续概率分布。
一些分析结论和注意点:
1)PDF是连续变量特有的,PMF是离散随机变量特有的;
2)PDF的取值本身不是概率,它是一种趋势(密度)只有对连续随机变量的取值进行积分后才是概率,也就是说对于连续值确定它在某一点的概率是没有意义的;
3)PMF的取值本身代表该值的概率。
PDF -(积分)-> CDF
PDF描述了CDF的变化趋势,即曲线的斜率。
PMF [离散随机变量 概率]
伯努利试验:
伯努利试验是在同样的条件下重复地、各次之间相互独立地进行的一种试验。
即只先进行一次伯努利试验,该事件发生的概率为p,不发生的概率为1-p。这是一个最简单的分布,任何一个只有两种结果的随机现象都服从0-1分布。
最常见的例子为抛硬币
其中:
即做n个两点分布的实验
其中:
对于二项分布,可以参考 https://docsscipyorg/doc/scipy/reference/generated/scipystatsbinomhtml
二项分布的应用场景主要是,对于已知次数n,关心发生k次成功。
,即为二项分布公式可求。
对于抛硬币的问题,做100次实验,观察其概率分布函式:
[上传失败(image-dbd774-1517353918840)]
观察概率分布图,可以看到,对于n = 100次实验中,有50次成功的概率(正面向上)的概率最大。
欢迎分享,转载请注明来源:品搜搜测评网