概率和统计知识是数据科学和机器学习的核心; 我们需要统计和概率知识来有效地收集、审查、分析数据。
现实世界中有几个现象实例被认为是统计性质的(即天气数据、销售数据、财务数据等)。 这意味着在某些情况下,我们已经能够开发出方法来帮助我们通过可以描述数据特征的数学函数来模拟自然。
“概率分布是一个数学函数,它给出了实验中不同可能结果的发生概率。”
了解数据的分布有助于更好地模拟我们周围的世界。 它可以帮助我们确定各种结果的可能性,或估计事件的可变性。 所有这些都使得了解不同的概率分布在数据科学和机器学习中非常有价值。
在本文中,我们将介绍一些常见的分布并通过Python 代码进行可视化以直观地显示它们。
最直接的分布是均匀分布。 均匀分布是一种概率分布,其中所有结果的可能性均等。 例如,如果我们掷一个公平的骰子,落在任何数字上的概率是 1/6。 这是一个离散的均匀分布。
但是并不是所有的均匀分布都是离散的——它们也可以是连续的。 它们可以在指定范围内取任何实际值。 a 和 b 之间连续均匀分布的概率密度函数 (PDF) 如下:
让我们看看如何在 Python 中对它们进行编码:
高斯分布可能是最常听到也熟悉的分布。 它有几个名字:有人称它为钟形曲线,因为它的概率图看起来像一个钟形,有人称它为高斯分布,因为首先描述它的德国数学家卡尔·高斯命名,还有一些人称它为正态分布,因为早期的统计学家 注意到它一遍又一遍地再次发生。
正态分布的概率密度函数如下:
σ 是标准偏差,μ 是分布的平均值。 要注意的是,在正态分布中,均值、众数和中位数都是相等的。
当我们绘制正态分布的随机变量时,曲线围绕均值对称——一半的值在中心的左侧,一半在中心的右侧。 并且,曲线下的总面积为 1。
对于正态分布来说。 经验规则告诉我们数据的百分比落在平均值的一定数量的标准偏差内。 这些百分比是:
68% 的数据落在平均值的一个标准差内。
95% 的数据落在平均值的两个标准差内。
997% 的数据落在平均值的三个标准差范围内。
对数正态分布是对数呈正态分布的随机变量的连续概率分布。 因此,如果随机变量 X 是对数正态分布的,则 Y = ln(X) 具有正态分布。
这是对数正态分布的 PDF:
对数正态分布的随机变量只取正实数值。 因此,对数正态分布会创建右偏曲线。
让我们在 Python 中绘制它:
泊松分布以法国数学家西蒙·丹尼斯·泊松的名字命名。 这是一个离散的概率分布,这意味着它计算具有有限结果的事件——换句话说,它是一个计数分布。 因此,泊松分布用于显示事件在指定时期内可能发生的次数。
如果一个事件在时间上以固定的速率发生,那么及时观察到事件的数量(n)的概率可以用泊松分布来描述。 例如,顾客可能以每分钟 3 次的平均速度到达咖啡馆。 我们可以使用泊松分布来计算 9 个客户在 2 分钟内到达的概率。
下面是概率质量函数公式:
λ 是一个时间单位的事件率——在我们的例子中,它是 3。k 是出现的次数——在我们的例子中,它是 9。这里可以使用 Scipy 来完成概率的计算。
泊松分布的曲线类似于正态分布,λ 表示峰值。
指数分布是泊松点过程中事件之间时间的概率分布。指数分布的概率密度函数如下:
λ 是速率参数,x 是随机变量。
可以将二项分布视为实验中成功或失败的概率。 有些人也可能将其描述为抛硬币概率。
参数为 n 和 p 的二项式分布是在 n 个独立实验序列中成功次数的离散概率分布,每个实验都问一个是 - 否问题,每个实验都有自己的布尔值结果:成功或失败。
本质上,二项分布测量两个事件的概率。 一个事件发生的概率为 p,另一事件发生的概率为 1-p。
这是二项分布的公式:
可视化代码如下:
学生 t 分布(或简称 t 分布)是在样本量较小且总体标准差未知的情况下估计正态分布总体的均值时出现的连续概率分布族的任何成员。 它是由英国统计学家威廉·西利·戈塞特(William Sealy Gosset)以笔名“student”开发的。
PDF如下:
n 是称为“自由度”的参数,有时可以看到它被称为“dof” 对于较高的 n 值,t 分布更接近正态分布。
卡方分布是伽马分布的一个特例; 对于 k 个自由度,卡方分布是一些独立的标准正态随机变量的 k 的平方和。
PDF如下:
这是一种流行的概率分布,常用于假设检验和置信区间的构建。
让我们在 Python 中绘制一些示例图:
掌握统计学和概率对于数据科学至关重要。 在本文展示了一些常见且常用的分布,希望对你有所帮助。
作者:Kurtis Pykes
条件概率:
条件概率:已知事件B出现的条件下A出现的概率,称为条件概率,记作:P(A|B)
条件概率计算公式:
当P(A)>0,P(B|A)=P(AB)/P(A)
当P(B)>0,P(A|B)=P(AB)/P(B)
乘法公式:
P(AB)=P(A)×P(B|A)=P(B)×P(A|B)
推广:P(ABC)=P(A)P(B|A)P(C|AB)
全概率公式:
设:若事件A1,A2,…,An互不相容,且A1+A2+…+An=Ω,则称A1,A2,…,An构成一个完备事件组。
概率算法:概率算法的一个基本特征是,对所求问题的同一实例用同一概率算法求解两次可能得到完全不同的效果。
随机数在概率算法设计中扮演着十分重要的角色。在现实计算机上无法产生真正的随机数,因此在概率算法中使用的随机数都是一定程度上随机的,即伪随机数。
从数学上看,分布函数F(x)=P(X<x),表示随机变量X的值小于x的概率。这个意义很容易理解。概率密度f(x)是F(x)在x处的关于x的一阶导数,即变化率。如果在某一x附近取非常小的一个邻域Δx,那么,随机变量X落在(x, x+Δx)内的概率约为f(x)Δx,即P(x<X<x+Δx)≈f(x)Δx。换句话说,概率密度f(x)是X落在x处“单位宽度”内的概率。“密
度”一词可以由此理解。
假设有一元随机变量X,如果X是连续随机变量,那么可以定义它的概率
密度函数(probability density function, PDF) f(x),有时成为密度函数。
我们用PDF在某一区间上的积分来刻画随机变量落在这个区间中的概率,即
如果X是离散型随机变量,那么可以定义它的 概率质量函数(probability mass function, PMF)pX(x)。概率质量函数 (Probability Mass Function,PMF)是离散随机变量在各特定取值上的概率。 即,它本身就是一个概率值。
与连续型随机变量不同,这里的PMF其实就是高中所学的离散型随机变量的分布律,即
两张图一对比,你就会发现,如果用右图中的面积来表示概率,利用图形就能很清楚的看出,哪些取值的概率更大!所以,我们在表示连续型随机变量的概率时,用f(x)概率密度函数来表示,是非常好的!
但是,可能读者会有这样的问题:
Q:概率密度函数在某一点的值有什么意义?
A:比较容易理解的意义,某点的 概率密度函数 即为 概率在该点的变化率(或导数)。很容易误以为 该点概率密度值 为 概率值
比如: 距离(概率)和速度(概率密度)的关系
某一点的速度, 不能以为是某一点的距离
没意义,因为距离是从XX到XX的概念
所以, 概率也需要有个区间
这个区间可以是x的邻域(可以无限趋近于0)。对x邻域内的f(x)进行积分,可以求得这个邻域的面积,就代表了这个邻域所代表这个事件发生的概率。
而不管X是什么类型(连续/离散/其他)的随机变量,都可以定义它的 累积分布函数(cumulative distribution function ,CDF) FX(x),有时简称为 分布函数 。
,那么分布函数CDF(FX(x))就是密度函数PDF(fX(t))的积分,PDF就是CDF的导数。
对于离散型随机变量,其CDF是阶梯状的分段函数,比如举例中的掷硬币随机变量,它的CDF如下
正态分布是重要的概率分布。它的概率密度函数是:
随着参数μ和δ变化,概率分布也产生变化。
随机变量X的n阶 矩 是X的n次方的 期望值 ,即
对概率密度函数作 类似傅利叶变换 可得 特征函数 。
本文主要是基于下面优秀博客文的总结和梳理:
概率论中常见分布总结以及python的scipy库使用:两点分布、二项分布、几何分布、泊松分布、均匀分布、指数分布、正态分布
(侵删。)
概率分布有两种型别:离散(discrete)概率分布和连续(continuous)概率分布。
离散概率分布也称为概率质量函式(probability mass function)。离散概率分布的例子有伯努利分布(Bernoulli distribution)、二项分布(binomial distribution)、泊松分布(Poisson distribution)和几何分布(geometric distribution)等。
连续概率分布也称为概率密度函式(probability density function),它们是具有连续取值(例如一条实线上的值)的函式。正态分布(normal distribution)、指数分布(exponential distribution)和β分布(beta distribution)等都属于连续概率分布。
一些分析结论和注意点:
1)PDF是连续变量特有的,PMF是离散随机变量特有的;
2)PDF的取值本身不是概率,它是一种趋势(密度)只有对连续随机变量的取值进行积分后才是概率,也就是说对于连续值确定它在某一点的概率是没有意义的;
3)PMF的取值本身代表该值的概率。
PDF -(积分)-> CDF
PDF描述了CDF的变化趋势,即曲线的斜率。
PMF [离散随机变量 概率]
伯努利试验:
伯努利试验是在同样的条件下重复地、各次之间相互独立地进行的一种试验。
即只先进行一次伯努利试验,该事件发生的概率为p,不发生的概率为1-p。这是一个最简单的分布,任何一个只有两种结果的随机现象都服从0-1分布。
最常见的例子为抛硬币
其中:
即做n个两点分布的实验
其中:
对于二项分布,可以参考 https://docsscipyorg/doc/scipy/reference/generated/scipystatsbinomhtml
二项分布的应用场景主要是,对于已知次数n,关心发生k次成功。
,即为二项分布公式可求。
对于抛硬币的问题,做100次实验,观察其概率分布函式:
[上传失败(image-dbd774-1517353918840)]
观察概率分布图,可以看到,对于n = 100次实验中,有50次成功的概率(正面向上)的概率最大。
随机变量概述
统计学的本质是从具有不可预测性的数据中提取信息,随机变量则是为这种可变性建立模型的数学工具 在每一次观测中,随机变量随机取不同的值 我们无法提前预测随机变量的精确取值,但是可以对可能的取值做出概率性的刻画 也就是说,我们可以描述随机变量的取值的分布 本章简要回顾应用随机变量时所涉及的专业知识,以及一些常用的结果
累积分布函数
随机变量(rv)的累积分布函数(cdf)是满足下式的函数 :
即,给出了 的取值小于或等于 的概率 显然,,并且 是单调函数 该定义的一个有用的结论是,如果 是连续函数,那么 在 [0, 1] 上呈均匀分布:它取 0 和 1 之间任意值的概率是相等的 这是因为
(如果 是连续函数),那么后者是 [0, 1] 上的均匀随机变量的累积分布函数
定义累积分布函数的反函数为 当 为连续函数时,正是 在一般意义下的反函数 通常叫作 的分位函数 如果 在[0, 1] 上呈均匀分布,那么 的分布就是 的累积分布函数 对于可计算的,在给定均匀随机偏差的产生方式的前提下,上述定义给出了任意分布下的随机变量的生成方法
令 为 0 和 1 之间的一个数 的 分位数是一个数值,小于或等于该值的概率是 ,即 分位数有广泛的应用,其中一个应用是验证 是否是累积分布函数为 的随机变量的观测值 将 按顺序排列,把它们作为“观测分位数” 这些点和理论上的分位点共同绘制的图叫作分位数—分位数图 如果观测值来自于累积分布函数为的分布, 那么得到的 QQ 图应该接近直线
概率函数与概率密度函数
在很多统计学方法中,描述随机变量取某个特定值的概率的函数比累积分布函数更有用 为了探讨这类函数,首先需要区分取离散值(例如非负整数)的随机变量和取值为实数轴上的区间的随机变量
对于离散型随机变量 ,概率函数(又叫概率质量函数)是满足下式的函数:
显然,0,并且因为 的取值一定存在,所以对 的所有可能取值(记为 )求和可得
累积分布函数(CDF):表示随机变量取值于最左端点(可以是0、负无穷、或某个定点,由随机变量的性质决定)到x的累积概率大小
概率质量函数(pmf):表示随机变量取值于x点附近的概率大小
欢迎分享,转载请注明来源:品搜搜测评网