数学建模竞赛处理大量数据技巧

数学建模竞赛处理大量数据技巧,第1张

结合数模培训和参赛的经验,可采用数据挖掘中的多元回归分析,主成分分析、人工神经网络等方法在建模中的一些成功应用。以全国大学生数学建模竞赛题为例,数据处理软件Excel、Spss、Matlab在数学建模中的应用及其重要性。

当需要从定量的角度分析和研究一个实际问题时,人们就要在深入调查研究、了解对象信息、作出简化假设、分析内在规律等工作的基础上,用数学的符号和语言作表述来建立数学模型

扩展资料

建模过程

1、模型准备

了解问题的实际背景,明确其实际意义,掌握对象的各种信息。以数学思想来包容问题的精髓,数学思路贯穿问题的全过程,进而用数学语言来描述问题。要求符合数学理论,符合数学习惯,清晰准确。

2、模型假设

根据实际对象的特征和建模的目的,对问题进行必要的简化,并用精确的语言提出一些恰当的假设。

3、模型建立

在假设的基础上,利用适当的数学工具来刻划各变量常量之间的数学关系,建立相应的数学结构(尽量用简单的数学工具)。

4、模型求解

利用获取的数据资料,对模型的所有参数做出计算(或近似计算)。

5、模型分析

对所要建立模型的思路进行阐述,对所得的结果进行数学上的分析。

6、模型检验

将模型分析结果与实际情形进行比较,以此来验证模型的准确性、合理性和适用性。如果模型与实际较吻合,则要对计算结果给出其实际含义,并进行解释。如果模型与实际吻合较差,则应该修改假设,再次重复建模过程。

7、模型应用与推广

应用方式因问题的性质和建模的目的而异,而模型的推广就是在现有模型的基础上对模型有一个更加全面的考虑,建立更符合现实情况的模型。

-数学建模

无总结反省则无进步

写这篇文章,一是为了总结之前为了准备美赛而学的算法,而是将算法罗列并有几句话解释方便以后自己需要时来查找。

数学建模问题总共分为四类:

1 分类问题 2 优化问题 3 评价问题 4 预测问题

我所写的都是基于数学建模算法与应用这本书

一 优化问题

线性规划与非线性规划方法是最基本经典的:目标函数与约束函数的思想

现代优化算法:禁忌搜索;模拟退火;遗传算法;人工神经网络

模拟退火算法:

简介:材料统计力学的研究成果。统计力学表明材料中不同结构对应于粒子的不同能量水平。在高温条件下,粒子的能量较高,可以自由运动和重新排列。在低温条件下,粒子能量较低。如果从高温开始,非常缓慢地降温(此过程称为退火),粒子就可以在每个温度下达到热平衡。当系统完全被冷却时,最终形成处于低能状态的晶体。

思想可用于数学问题的解决 在寻找解的过程中,每一次以一种方法变换新解,再用退火过程的思想,以概率接受该状态(新解) 退火过程:概率转化,概率为自然底数的能量/KT次方

遗传算法: 遗传算法是一种基于自然选择原理和自然遗传机制的搜索算法。模拟自然界中的生命进化机制,在人工系统中实现特定目标的优化。

遗传算法的实质是通过群体搜索技术(?),根据适者生存的原则逐代进化,最终得到最优解或准最优解。

具体实现过程(P329~331)

编码

确定适应度函数(即目标函数)

确定进化参数:群体规模M,交叉概率Pc,变异概率Pm,进化终止条件

编码

确定初始种群,使用经典的改良圈算法

目标函数

交叉操作

变异操作

选择

改良的遗传算法

两点改进 :交叉操作变为了以“门当户对”原则配对,以混乱序列确定较差点位置 变异操作从交叉操作中分离出来

二 分类问题(以及一些多元分析方法)

支持向量机SVM

聚类分析

主成分分析

判别分析

典型相关分析

支持向量机SVM: 主要思想:找到一个超平面,使得它能够尽可能多地将两类数据点正确分开,同时使分开的两类数据点距离分类面最远

聚类分析(极其经典的一种算法): 对样本进行分类称为Q型聚类分析 对指标进行分类称为R型聚类分析

基础:样品相似度的度量——数量化,距离——如闵氏距离

主成分分析法: 其主要目的是希望用较少的变量去解释原来资料中的大部分变异,将掌握的许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,及主成分。实质是一种降维方法

判别分析: 是根据所研究的个体的观测指标来推断个体所属类型的一种统计方法。判别准则在某种意义下是最优的,如错判概率最小或错判损失最小。这一方法像是分类方法统称。 如距离判别,贝叶斯判别和FISHER判别

典型相关分析: 研究两组变量的相关关系 相对于计算全部相关系数,采用类似主成分的思想,分别找出两组变量的各自的某个线性组合,讨论线性组合之间的相关关系

三 评价与决策问题

评价方法分为两大类,区别在于确定权重上:一类是主观赋权:综合资讯评价定权;另一类为客观赋权:根据各指标相关关系或各指标值变异程度来确定权数

理想解法

模糊综合评判法

数据包络分析法

灰色关联分析法

主成分分析法(略)

秩和比综合评价法 理想解法

思想:与最优解(理想解)的距离作为评价样本的标准

模糊综合评判法 用于人事考核这类模糊性问题上。有多层次模糊综合评判法。

数据包络分析法 是评价具有多指标输入和多指标输出系统的较为有效的方法。是以相对效率为概念基础的。

灰色关联分析法 思想:计算所有待评价对象与理想对象的灰色加权关联度,与TOPSIS方法类似

主成分分析法(略)

秩和比综合评价法 样本秩的概念: 效益型指标从小到大排序的排名 成本型指标从大到小排序的排名 再计算秩和比,最后统计回归

四 预测问题

微分方程模型

灰色预测模型

马尔科夫预测

时间序列(略)

插值与拟合(略)

神经网络

微分方程模型 Lanchester战争预测模型。。

灰色预测模型 主要特点:使用的不是原始数据序列,而是生成的数据序列 优点:不需要很多数据·,能利用微分方程来充分挖掘系统的本质,精度高。能将无规律的原始数据进行生成得到规律性较强的生成序列。 缺点:只适用于中短期预测,只适合指数增长的预测

马尔科夫预测 某一系统未来时刻情况只与现在状态有关,与过去无关。

马尔科夫链

时齐性的马尔科夫链

时间序列(略)

插值与拟合(略)

神经网络(略)

因为教书,所以,在讲解相关的概念和技术的时候,总是习惯首先 从大处着眼 ,然后 在小处入手 。所谓 从大处着眼 ,就是梳理下概念和技术的源流和历史; 在小处入手 就是总是使用具体的例子来讲解。这样,才能既有对相关专题的宏观把握,又能直观地领会背后的数学。

统计学,想来理工科的人都学习过。不过,可能也都有头疼的感觉:似乎学习统计学就必须先学习概率论,可概率论就向一座山,想要弄懂并不容易(我要承认,我是没有深入体会的)。

因为自己学习某一理论总是习惯了解其后的历史,所以,也了解到统计学早期的一些有趣的轶事。知道,最早使用 统计学 来认知社会现象的时候,并不是学会了概率论才行的。更像是, 先做了,然后才是夯实理论基础 - 这在数学发展的过程中是屡见不鲜的。

所以,了解统计学的思想,并不需要严格的概率论的知识。不过,现在的书籍大多秉承了 倒叙 的方式,总是将后来的 解释- 也就是理论基础 先说一大堆,然后才是 严谨地 将 鲜活的 统计学思想妥善地隐藏在纷繁复杂的各个章节中。很多时候,学习统计学的人在概率论就已经 死去了 :smile:

其实,统计学的很新内容是很简洁明了的,也就是 基于分布的小概率逻辑推断 而已。

我们都有这样的经历,当你习惯了每天某一时刻会发生某件事时(如日出日落),突然有一天此事不再发生,你必然会觉得很奇怪,会推测是不是因为什么原因导致了此事在今天没有发生。

其实,将此种现象在数学(统计学)中提炼出来就是小概率事件(Small Probability Event)。为了量化这样的概念,统计学中做了严谨的理论构建,也就是概率论等的价值所在。

为此,统计学理论的基本任务就是:

常见统计学书籍的章节虽然很多,其实都是可以从上面衍生出来的。

下图即为标准正态分布(Standard Normal Distribution)的示意。横坐标上就是随机变量(与事件是绑定的)的取值;那个钟型曲线覆盖下的面积就是对应于相应取值范畴的可能程度(概率)。例如,变量取值在[0, 05]时,概率是191%。

对于像正态分布这类的对称形状,如果指定以0点所在的位置对称向左右等距扩展作为规则,得到的区间和概率是一一对应的。如,[-1,1]对应的概率就是2(15+191) = 30+382 = 682%。此时,-1和1就是概率682%所对应的的关键值(Critical Value)。

而按照惯例,我们通常会指定比较大的概率(常用的多是大于或等于95% - 如95%, 96%, 98%等)作为事件可能取值的极大可能程度,在统计学中称为置信度(Confidence Level)。如下图所示:954%是很大的概率了,对应的关键值是-2和2,[-2,2]也就是统计学书籍中对应954%置信度的置信区间(Confidence Interval)。

对应的,排除在置信区间之外的可能取值范畴就是我们所感兴趣的小概率事件区间(SPE Interval)。如下图示。如果再一次抽样中得到的统计变量的值落入此小概率事件区间中,那么,按照 核心就是基于分布的小概率逻辑推荐 中的叙述,我们就有理由做两种推断了。

剩下的就是如何计算给定置信度下的置信区间。这也是统计学书籍的主要内容。感谢前人的艰苦付出,他们完成了很多分布的计算表格,如果你遇到 计算给定置信度下的置信区间 的问题,去查表即可。

下面给出一个求解置信度95%的双尾(2 Tails,也就是要求对称的置信区间。与之对应的是单尾,即对应置信度95%的单尾置信区间是从-∞到关键值)置信区间的例子。想要完成计算,就必须了解如何使用计算表(Table of Normal Distribution)。

想要准确使用计算表,就要注意与表格对应的示意图(Indicator)。上面图中左侧就是对应的示意图,表示对应[0,045]的概率是01736,即计算表格中深蓝色箭头所示意的。

如果想要求解置信度95%的双尾置信区间,也就是要求找到某个x值,[-x,x]区间上的概率恰好就是95%。想要使用上面的计算表格完成x的查找,就要做一点小小的转换。

因为正态分布是对称的,那么,[-x,x]区间上的高绿要保证是95%,也就意味着[0,x]区间上的概率必须是95%的二分之一,即475%=04750。查表得到x=196。即置信区间是[-196,196]。

Example: Your business – Quality Control

Your company is majoring to produce some products, whose size is firmly required: μ=21 mm, and the variance should be smaller than σ≤01 5 mm

Today, you pick 9 products from that collection, and measure the average length of those 9 products is 214 mm

Are you confident (95%-2 tail) with the quality of your products

Solution :

前面提到,统计学的基本内容是依赖于分布的,一般教科书中提到的主要就是四种分布 - 前面的正态分布,学生分布,卡方分布,以及费舍尔分布。

如下图所示,针对不同的统计变量,就会有已经证明了的统计分布与之相对应;而剩下的计算也仍然是前面介绍的套路:或者估计相应分部的参数;或者计算给定置信度的置信区间,然后进行推断。

其中比较有趣的是所谓的ANOVA - ANalysis Of VAriance (方差估计)。虽然名字里有方差一次,实际的应用跟方差没啥关系。有兴趣的请自行检索。

在有了前面的储备后,看看常见的统计学的书籍,也就没那么障碍了。

个人觉得,多元统计分析,很多内容已经跟后来的数据挖掘和机器学习相重合了。已经不是严重依赖分布的统计学传统套路了。不过,这类方法也仍然称之为统计学习(Statistical Learning)

目录

第一篇 监督学习

第二篇 无监督学习

第13章 无监督学习概论

1311 无监督学习基本原理

1312 基本问题

1313 机器学习三要素

1314 无监督学习方法

第14章 聚类方法

141 聚类的基本概念

1411 相似度或距离

1412 类或簇

1413 类与类之间的距离

142 层次聚类

143 k均值聚类

1431 模型

1432 策略

1433 算法

1434 算法特点

本章概要

第15章 奇异值分解

151 奇异值分解的定义与性质

1511 定义与定理

1512 紧奇异值分解与截断奇异值分解

1513 几何解释

1514 主要性质

152 奇异值分解的计算

153 奇异值分解与矩阵近似

1531 弗罗贝尼乌斯范数

1532 矩阵的优近似

1533 矩阵的外积展开式

本章概要

第16章 主成分分析

161 总体主成分分析

1611 基本想法

1612 定义和导出

1613 主要性质

1614 主成分的个数

1615 规范化变量的总体主成分

162 样本主成分分析

1621 样本主成分的定义和性质

1622 相关矩阵的特征值分解算法

1623 数据局正的奇异值分解算法

本章概要

继续阅读

习题

参考文献

第17章 潜在语义分析

171 单词向量空间与话题向量空间

1711 单词向量空间

1712 话题向量空间

172 潜在语义分析算法

1721 矩阵奇异值分解算法

1722 例子

173 非负矩阵分解算法

1731 非负矩阵分解

1732 潜在语义分析模型

1733 非负矩阵分解的形式化

1734 算法

本章概要

第18章 概率潜在语义分析

181 概率潜在语义分析模型

1811 基本想法

1812 生成模型

1813 共现模型

1814 模型性质

182 概率潜在语义分析的算法

本章概要

第19章 马尔可夫链蒙特卡罗法

191 蒙特卡罗法

1911 随机抽样

1912 数学期望估计

1913 积分计算

192 马尔可夫链

1921 基本定义

1922 离散状态马尔可夫链

1923 连续状态马尔可夫链

1924 马尔可夫链的性质

193 马尔可夫链蒙特卡罗法

1931 基本想法

1932 基本步骤

1933 马尔可夫链蒙特卡罗法与统计学习

194 Metropolis-Hastings算法

1941 基本原理

1942 Metropolis-Hastings算法

1943 单分量Metropolis-Hastings算法

195 吉布斯抽样

1951 基本原理

1952 吉布斯抽样算法

1953 抽样计算

本章概要

第20章 潜在狄利克雷分配

201 狄利克雷分布

2011 分布定义

2012 共轭先验

202 潜在狄利克雷分配模型

2021 基本想法

2022 模型定义

2023 概率图模型

2024 随机变量序列的可交换性

2025 概率公式

203 LDA的吉布斯抽样算法

2031 基本想法

2032 算法的主要部分

2033 算法的后处理

2034 算法

204 LDA的变分EM算法

2041 变分推理

2042 变分EM算法

2043 算法推导

2044 算法总结

本章概要

第21章 PageRank算法

211 PageRank的定义

2111 基本想法

2112 有向图和随机游走模型

2113 PageRank的基本定义

2114 PageRank的一般定义

212 PageRank的计算

2121 迭代算法

2122 幂法

2133 代数算法

本章概要

第22章 无监督学习方法总结

221 无监督学习方法的关系和特点

2211 各种方法之间的关系

2212 无监督学习方法

2213 基础及其学习方法

222 话题模型之间的关系和特点

参考文献

附录A 梯度下降法

附录B 牛顿法和拟牛顿法

附录C 拉格朗日对偶性

附录D 矩阵的基本子空间

附录E KL散度的定义和狄利克雷分布的性质

索引

了解一下分布的由来也很有趣

CPI,GDP之类

还有股票市场的那些指数

BBC拍了几部有关数据分析的视频,值得看看

我不知道你想问什么。。问题太大。给你举些COV和COR的应用吧- -

比如时间序列里(比如高频或者超频时间序列在金融里应用蛮广的),COR的pattern可以反映序列的模型。而在financial econometrics里面基本分析都是针对VAR-COV MATRIC进行的。

因为CORR算是比较直观的一种线性相关性的度量,但是CORR也因此容易失去一些COV本来的特性,比如时间序列里平稳性就不能用CORR来决定。。。

欢迎分享,转载请注明来源:品搜搜测评网

原文地址:https://pinsoso.cn/meirong/1993269.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-11-01
下一篇2023-11-01

随机推荐

  • tornado是什么意思啊?

     TornadoTornado代表嵌入实时应用中最新一代的开发和执行环境。   Tornado 包含三个完整的部分:   (1)Tornado系列工具, 一套位于主机或目标机上强大的交互式开发工具和使用程序;   (2)VxWorks 系统

    2024-04-15
    57100
  • 精华素哪个牌子好用?

    肌肤经常出现干纹和细纹,是肌肤缺少水分导致的,而且肌肤在长期干燥的状态下也是会加速衰老的,因此,我们要及时给肌肤补充水分。一些保湿型的精华素能帮助缓解肌肤干燥,那么,精华素哪个牌子好用?哪个牌子精华素好用呢?1、好用的精华素推荐产品:巴黎欧

    2024-04-15
    54200
  • 在俄罗斯怎么买gucci

    如果你想在俄罗斯买 GUCCI 包包,你可以通过以下几种方式来实现:1前往俄罗斯的 GUCCI 官方旗舰店购买。俄罗斯有多个 GUCCI 官方旗舰店,位于莫斯科、圣彼得堡和其他城市。你可以前往这些店铺,选择你喜欢的包包,并直接购买。2通过俄

    2024-04-15
    47100
  • 雅诗兰黛线雕精华好吗

    去年线雕可算是火了一整年,今年雅诗兰黛就公司发布了一款叫雅诗兰黛线雕精华的产品。那雅诗兰黛线雕精华好吗?从成分上看,雅诗兰黛线雕精华真的有提拉紧致的效果吗?下面就来告诉你,雅诗兰黛线雕精华怎样?雅诗兰黛线雕精华好吗针对于雅诗兰黛线雕精华好吗

    2024-04-15
    49600
  • 韩国护肤品十大排名品牌

    韩国十大品牌护肤品如下:1、whoo后在韩国十大护肤品品牌中,whoo荣登榜首,这个品牌将宫廷的美容秘笈与现代的东方医学相互结合,让广大的亚洲女性为之倾心。2、呼吸37度在韩国十大护肤品品牌中,起着重要的地位,它一直坚持自然美丽的概念,致力

    2024-04-15
    54900
  • 润唇膏哪个牌子好

    润唇膏哪个牌子好要说什么护肤品走哪带哪,一定非润唇膏莫属了,随身必定携带一支,公司和家里也分别都留有存货。那么你们知道润唇膏哪个牌子好吗?有关唇膏的使用,个人有时一天涂十几次,最通常的情况是早上唇膏打底,晚上唇膏滋养,一年四季不间断,秋冬使

    2024-04-15
    40400
  • 精华液和精华露哪个先用?

    关于“精华液和精华露哪个先用”的问题,其实并没有一个固定的答案。不过根据使用经验和化妆师的建议,我们可以从以下几个角度探讨这个问题:我们需要了解两者的区别。精华液是一种含有高浓度有效成分的产品,可以深层滋养肌肤、修复细胞,并具有美白、保湿等

    2024-04-15
    48800

发表评论

登录后才能评论
保存