结合数模培训和参赛的经验,可采用数据挖掘中的多元回归分析,主成分分析、人工神经网络等方法在建模中的一些成功应用。以全国大学生数学建模竞赛题为例,数据处理软件Excel、Spss、Matlab在数学建模中的应用及其重要性。
当需要从定量的角度分析和研究一个实际问题时,人们就要在深入调查研究、了解对象信息、作出简化假设、分析内在规律等工作的基础上,用数学的符号和语言作表述来建立数学模型。
扩展资料
建模过程
1、模型准备
了解问题的实际背景,明确其实际意义,掌握对象的各种信息。以数学思想来包容问题的精髓,数学思路贯穿问题的全过程,进而用数学语言来描述问题。要求符合数学理论,符合数学习惯,清晰准确。
2、模型假设
根据实际对象的特征和建模的目的,对问题进行必要的简化,并用精确的语言提出一些恰当的假设。
3、模型建立
在假设的基础上,利用适当的数学工具来刻划各变量常量之间的数学关系,建立相应的数学结构(尽量用简单的数学工具)。
4、模型求解
利用获取的数据资料,对模型的所有参数做出计算(或近似计算)。
5、模型分析
对所要建立模型的思路进行阐述,对所得的结果进行数学上的分析。
6、模型检验
将模型分析结果与实际情形进行比较,以此来验证模型的准确性、合理性和适用性。如果模型与实际较吻合,则要对计算结果给出其实际含义,并进行解释。如果模型与实际吻合较差,则应该修改假设,再次重复建模过程。
7、模型应用与推广
应用方式因问题的性质和建模的目的而异,而模型的推广就是在现有模型的基础上对模型有一个更加全面的考虑,建立更符合现实情况的模型。
-数学建模
无总结反省则无进步
写这篇文章,一是为了总结之前为了准备美赛而学的算法,而是将算法罗列并有几句话解释方便以后自己需要时来查找。
数学建模问题总共分为四类:
1 分类问题 2 优化问题 3 评价问题 4 预测问题
我所写的都是基于数学建模算法与应用这本书
一 优化问题
线性规划与非线性规划方法是最基本经典的:目标函数与约束函数的思想
现代优化算法:禁忌搜索;模拟退火;遗传算法;人工神经网络
模拟退火算法:
简介:材料统计力学的研究成果。统计力学表明材料中不同结构对应于粒子的不同能量水平。在高温条件下,粒子的能量较高,可以自由运动和重新排列。在低温条件下,粒子能量较低。如果从高温开始,非常缓慢地降温(此过程称为退火),粒子就可以在每个温度下达到热平衡。当系统完全被冷却时,最终形成处于低能状态的晶体。
思想可用于数学问题的解决 在寻找解的过程中,每一次以一种方法变换新解,再用退火过程的思想,以概率接受该状态(新解) 退火过程:概率转化,概率为自然底数的能量/KT次方
遗传算法: 遗传算法是一种基于自然选择原理和自然遗传机制的搜索算法。模拟自然界中的生命进化机制,在人工系统中实现特定目标的优化。
遗传算法的实质是通过群体搜索技术(?),根据适者生存的原则逐代进化,最终得到最优解或准最优解。
具体实现过程(P329~331)
编码
确定适应度函数(即目标函数)
确定进化参数:群体规模M,交叉概率Pc,变异概率Pm,进化终止条件
编码
确定初始种群,使用经典的改良圈算法
目标函数
交叉操作
变异操作
选择
改良的遗传算法
两点改进 :交叉操作变为了以“门当户对”原则配对,以混乱序列确定较差点位置 变异操作从交叉操作中分离出来
二 分类问题(以及一些多元分析方法)
支持向量机SVM
聚类分析
主成分分析
判别分析
典型相关分析
支持向量机SVM: 主要思想:找到一个超平面,使得它能够尽可能多地将两类数据点正确分开,同时使分开的两类数据点距离分类面最远
聚类分析(极其经典的一种算法): 对样本进行分类称为Q型聚类分析 对指标进行分类称为R型聚类分析
基础:样品相似度的度量——数量化,距离——如闵氏距离
主成分分析法: 其主要目的是希望用较少的变量去解释原来资料中的大部分变异,将掌握的许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,及主成分。实质是一种降维方法
判别分析: 是根据所研究的个体的观测指标来推断个体所属类型的一种统计方法。判别准则在某种意义下是最优的,如错判概率最小或错判损失最小。这一方法像是分类方法统称。 如距离判别,贝叶斯判别和FISHER判别
典型相关分析: 研究两组变量的相关关系 相对于计算全部相关系数,采用类似主成分的思想,分别找出两组变量的各自的某个线性组合,讨论线性组合之间的相关关系
三 评价与决策问题
评价方法分为两大类,区别在于确定权重上:一类是主观赋权:综合资讯评价定权;另一类为客观赋权:根据各指标相关关系或各指标值变异程度来确定权数
理想解法
模糊综合评判法
数据包络分析法
灰色关联分析法
主成分分析法(略)
秩和比综合评价法 理想解法
思想:与最优解(理想解)的距离作为评价样本的标准
模糊综合评判法 用于人事考核这类模糊性问题上。有多层次模糊综合评判法。
数据包络分析法 是评价具有多指标输入和多指标输出系统的较为有效的方法。是以相对效率为概念基础的。
灰色关联分析法 思想:计算所有待评价对象与理想对象的灰色加权关联度,与TOPSIS方法类似
主成分分析法(略)
秩和比综合评价法 样本秩的概念: 效益型指标从小到大排序的排名 成本型指标从大到小排序的排名 再计算秩和比,最后统计回归
四 预测问题
微分方程模型
灰色预测模型
马尔科夫预测
时间序列(略)
插值与拟合(略)
神经网络
微分方程模型 Lanchester战争预测模型。。
灰色预测模型 主要特点:使用的不是原始数据序列,而是生成的数据序列 优点:不需要很多数据·,能利用微分方程来充分挖掘系统的本质,精度高。能将无规律的原始数据进行生成得到规律性较强的生成序列。 缺点:只适用于中短期预测,只适合指数增长的预测
马尔科夫预测 某一系统未来时刻情况只与现在状态有关,与过去无关。
马尔科夫链
时齐性的马尔科夫链
时间序列(略)
插值与拟合(略)
神经网络(略)
因为教书,所以,在讲解相关的概念和技术的时候,总是习惯首先 从大处着眼 ,然后 在小处入手 。所谓 从大处着眼 ,就是梳理下概念和技术的源流和历史; 在小处入手 就是总是使用具体的例子来讲解。这样,才能既有对相关专题的宏观把握,又能直观地领会背后的数学。
统计学,想来理工科的人都学习过。不过,可能也都有头疼的感觉:似乎学习统计学就必须先学习概率论,可概率论就向一座山,想要弄懂并不容易(我要承认,我是没有深入体会的)。
因为自己学习某一理论总是习惯了解其后的历史,所以,也了解到统计学早期的一些有趣的轶事。知道,最早使用 统计学 来认知社会现象的时候,并不是学会了概率论才行的。更像是, 先做了,然后才是夯实理论基础 - 这在数学发展的过程中是屡见不鲜的。
所以,了解统计学的思想,并不需要严格的概率论的知识。不过,现在的书籍大多秉承了 倒叙 的方式,总是将后来的 解释- 也就是理论基础 先说一大堆,然后才是 严谨地 将 鲜活的 统计学思想妥善地隐藏在纷繁复杂的各个章节中。很多时候,学习统计学的人在概率论就已经 死去了 :smile:
其实,统计学的很新内容是很简洁明了的,也就是 基于分布的小概率逻辑推断 而已。
我们都有这样的经历,当你习惯了每天某一时刻会发生某件事时(如日出日落),突然有一天此事不再发生,你必然会觉得很奇怪,会推测是不是因为什么原因导致了此事在今天没有发生。
其实,将此种现象在数学(统计学)中提炼出来就是小概率事件(Small Probability Event)。为了量化这样的概念,统计学中做了严谨的理论构建,也就是概率论等的价值所在。
为此,统计学理论的基本任务就是:
常见统计学书籍的章节虽然很多,其实都是可以从上面衍生出来的。
下图即为标准正态分布(Standard Normal Distribution)的示意。横坐标上就是随机变量(与事件是绑定的)的取值;那个钟型曲线覆盖下的面积就是对应于相应取值范畴的可能程度(概率)。例如,变量取值在[0, 05]时,概率是191%。
对于像正态分布这类的对称形状,如果指定以0点所在的位置对称向左右等距扩展作为规则,得到的区间和概率是一一对应的。如,[-1,1]对应的概率就是2(15+191) = 30+382 = 682%。此时,-1和1就是概率682%所对应的的关键值(Critical Value)。
而按照惯例,我们通常会指定比较大的概率(常用的多是大于或等于95% - 如95%, 96%, 98%等)作为事件可能取值的极大可能程度,在统计学中称为置信度(Confidence Level)。如下图所示:954%是很大的概率了,对应的关键值是-2和2,[-2,2]也就是统计学书籍中对应954%置信度的置信区间(Confidence Interval)。
对应的,排除在置信区间之外的可能取值范畴就是我们所感兴趣的小概率事件区间(SPE Interval)。如下图示。如果再一次抽样中得到的统计变量的值落入此小概率事件区间中,那么,按照 核心就是基于分布的小概率逻辑推荐 中的叙述,我们就有理由做两种推断了。
剩下的就是如何计算给定置信度下的置信区间。这也是统计学书籍的主要内容。感谢前人的艰苦付出,他们完成了很多分布的计算表格,如果你遇到 计算给定置信度下的置信区间 的问题,去查表即可。
下面给出一个求解置信度95%的双尾(2 Tails,也就是要求对称的置信区间。与之对应的是单尾,即对应置信度95%的单尾置信区间是从-∞到关键值)置信区间的例子。想要完成计算,就必须了解如何使用计算表(Table of Normal Distribution)。
想要准确使用计算表,就要注意与表格对应的示意图(Indicator)。上面图中左侧就是对应的示意图,表示对应[0,045]的概率是01736,即计算表格中深蓝色箭头所示意的。
如果想要求解置信度95%的双尾置信区间,也就是要求找到某个x值,[-x,x]区间上的概率恰好就是95%。想要使用上面的计算表格完成x的查找,就要做一点小小的转换。
因为正态分布是对称的,那么,[-x,x]区间上的高绿要保证是95%,也就意味着[0,x]区间上的概率必须是95%的二分之一,即475%=04750。查表得到x=196。即置信区间是[-196,196]。
Example: Your business – Quality Control :
Your company is majoring to produce some products, whose size is firmly required: μ=21 mm, and the variance should be smaller than σ≤01 5 mm
Today, you pick 9 products from that collection, and measure the average length of those 9 products is 214 mm
Are you confident (95%-2 tail) with the quality of your products
Solution :
前面提到,统计学的基本内容是依赖于分布的,一般教科书中提到的主要就是四种分布 - 前面的正态分布,学生分布,卡方分布,以及费舍尔分布。
如下图所示,针对不同的统计变量,就会有已经证明了的统计分布与之相对应;而剩下的计算也仍然是前面介绍的套路:或者估计相应分部的参数;或者计算给定置信度的置信区间,然后进行推断。
其中比较有趣的是所谓的ANOVA - ANalysis Of VAriance (方差估计)。虽然名字里有方差一次,实际的应用跟方差没啥关系。有兴趣的请自行检索。
在有了前面的储备后,看看常见的统计学的书籍,也就没那么障碍了。
个人觉得,多元统计分析,很多内容已经跟后来的数据挖掘和机器学习相重合了。已经不是严重依赖分布的统计学传统套路了。不过,这类方法也仍然称之为统计学习(Statistical Learning)
目录
第一篇 监督学习
第二篇 无监督学习
第13章 无监督学习概论
1311 无监督学习基本原理
1312 基本问题
1313 机器学习三要素
1314 无监督学习方法
第14章 聚类方法
141 聚类的基本概念
1411 相似度或距离
1412 类或簇
1413 类与类之间的距离
142 层次聚类
143 k均值聚类
1431 模型
1432 策略
1433 算法
1434 算法特点
本章概要
第15章 奇异值分解
151 奇异值分解的定义与性质
1511 定义与定理
1512 紧奇异值分解与截断奇异值分解
1513 几何解释
1514 主要性质
152 奇异值分解的计算
153 奇异值分解与矩阵近似
1531 弗罗贝尼乌斯范数
1532 矩阵的优近似
1533 矩阵的外积展开式
本章概要
第16章 主成分分析
161 总体主成分分析
1611 基本想法
1612 定义和导出
1613 主要性质
1614 主成分的个数
1615 规范化变量的总体主成分
162 样本主成分分析
1621 样本主成分的定义和性质
1622 相关矩阵的特征值分解算法
1623 数据局正的奇异值分解算法
本章概要
继续阅读
习题
参考文献
第17章 潜在语义分析
171 单词向量空间与话题向量空间
1711 单词向量空间
1712 话题向量空间
172 潜在语义分析算法
1721 矩阵奇异值分解算法
1722 例子
173 非负矩阵分解算法
1731 非负矩阵分解
1732 潜在语义分析模型
1733 非负矩阵分解的形式化
1734 算法
本章概要
第18章 概率潜在语义分析
181 概率潜在语义分析模型
1811 基本想法
1812 生成模型
1813 共现模型
1814 模型性质
182 概率潜在语义分析的算法
本章概要
第19章 马尔可夫链蒙特卡罗法
191 蒙特卡罗法
1911 随机抽样
1912 数学期望估计
1913 积分计算
192 马尔可夫链
1921 基本定义
1922 离散状态马尔可夫链
1923 连续状态马尔可夫链
1924 马尔可夫链的性质
193 马尔可夫链蒙特卡罗法
1931 基本想法
1932 基本步骤
1933 马尔可夫链蒙特卡罗法与统计学习
194 Metropolis-Hastings算法
1941 基本原理
1942 Metropolis-Hastings算法
1943 单分量Metropolis-Hastings算法
195 吉布斯抽样
1951 基本原理
1952 吉布斯抽样算法
1953 抽样计算
本章概要
第20章 潜在狄利克雷分配
201 狄利克雷分布
2011 分布定义
2012 共轭先验
202 潜在狄利克雷分配模型
2021 基本想法
2022 模型定义
2023 概率图模型
2024 随机变量序列的可交换性
2025 概率公式
203 LDA的吉布斯抽样算法
2031 基本想法
2032 算法的主要部分
2033 算法的后处理
2034 算法
204 LDA的变分EM算法
2041 变分推理
2042 变分EM算法
2043 算法推导
2044 算法总结
本章概要
第21章 PageRank算法
211 PageRank的定义
2111 基本想法
2112 有向图和随机游走模型
2113 PageRank的基本定义
2114 PageRank的一般定义
212 PageRank的计算
2121 迭代算法
2122 幂法
2133 代数算法
本章概要
第22章 无监督学习方法总结
221 无监督学习方法的关系和特点
2211 各种方法之间的关系
2212 无监督学习方法
2213 基础及其学习方法
222 话题模型之间的关系和特点
参考文献
附录A 梯度下降法
附录B 牛顿法和拟牛顿法
附录C 拉格朗日对偶性
附录D 矩阵的基本子空间
附录E KL散度的定义和狄利克雷分布的性质
索引
了解一下分布的由来也很有趣
CPI,GDP之类
还有股票市场的那些指数
BBC拍了几部有关数据分析的视频,值得看看
我不知道你想问什么。。问题太大。给你举些COV和COR的应用吧- -
比如时间序列里(比如高频或者超频时间序列在金融里应用蛮广的),COR的pattern可以反映序列的模型。而在financial econometrics里面基本分析都是针对VAR-COV MATRIC进行的。
因为CORR算是比较直观的一种线性相关性的度量,但是CORR也因此容易失去一些COV本来的特性,比如时间序列里平稳性就不能用CORR来决定。。。
欢迎分享,转载请注明来源:品搜搜测评网