SPSS17.0中文版常用功能与应用实例精讲的目录_美容护肤

第一篇基础知识篇

第1章 SPSS for Windows简介 2

11 SPSS for Windows概述 2

12 SPSS的运行方式 3

13 SPSS模块与安装 3

131 SPSS for Windows 170模块介绍 3

132 SPSS for Windows 170安装步骤 4

14 SPSS的主要界面 9

141 SPSS的启动 9

142 SPSS的数据编辑窗口 10

143 SPSS的结果输出窗口 14

15 本章小结 17

第2章数据的基本操作 18

21 建立数据文件 18

211 输入数据建立数据文件 19

212 直接打开其他格式的数据文件 19

213 使用数据库查询建立数据文件 20

214 导入文本文件建立数据文件 22

22 编辑数据文件 22

221 输入数据 23

222 定义数据属性 23

223 插入或删除数据 32

224 数据的排序 33

225 选择个案 34

226 转置数据 36

227 合并数据文件 37

228 数据的分类汇总 42

229 数据菜单的其他功能 45

23 数据加工 46

231 数据转换 46

232 数据手动分组（编码） 49

233 数据自动分组（编码） 53

234 产生计数变量 54

235 数据秩（序）的确定 56

236 替换缺失值 59

24 数据文件的保存或导出 60

241 保存数据文件 60

242 导出数据文件 61

25 本章小结 62

第3章统计图表绘制 63

31 条形图 63

32 线图 69

33 面积图 71

34 饼图 73

35 高低图 75

36 箱图 77

37 直方图 79

38 本章小结 80

第4章基础统计描述 81

41 数理统计量概述 81

411 均值（Mean）和均值标准误差（SE mean） 81

412 中位数（Median） 82

413 众数（Mode） 82

414 全距（Range） 83

415 方差（Variance）和标准差（Standard Deviation） 83

416 峰度（Kurtosis）和偏度（Skewness） 84

417 四分位数（Quartiles）、十分位数（Deciles）和百分位数（Percentiles） 85

42 数据描述 85

43 频数分析 88

44 探索分析 92

45 交叉列联表分析 97

46 比率分析 103

47 P-P图、Q-Q图 106

48 本章小结 108

第二篇 SPSS统计分析常用模块篇

第5章均值分析与方差分析 110

51 均值分析 111

52 方差分析概述 117

521 方差分析的基本原理 117

522 方差分析的概念和假设 119

53 单因素方差分析 119

54 多因素方差分析 129

55 重复度量 139

551 数据重构 141

552 重复度量 143

56 协方差分析 149

561 非饱和模型的SPSS操作 150

562 饱和模型的SPSS操作 153

57 本章小结 155

第6章参数检验 156

61 参数检验概述 157

611 参数检验问题的提出 157

612 参数检验的基本步骤 158

62 单样本T检验 159

621 单样本T检验的基本方法 159

622 单样本T检验的实例 160

63 独立样本T检验 164

631 独立样本T检验的基本方法 164

632 独立样本T检验的实例 165

64 配对样本T检验 168

641 配对样本T检验的基本方法 168

642 配对样本T检验的实例 169

65 本章小结 172

第7章非参数检验 173

71 卡方检验 174

711 卡方检验的基本原理 174

712 卡方检验的实例 175

72 二项分布检验 179

721 二项分布检验的基本原理 179

722 二项分布检验的实例 179

73 游程检验 182

731 游程检验的基本原理 182

732 游程检验的实例 182

74 单个样本K-S检验 185

741 单个样本K-S检验的基本原理 185

742 单个样本K-S检验的实例 186

75 两个独立样本的非参数检验 190

751 两个独立样本Mann-Whitney U检验 191

752 两个独立样本非参数检验的实例 191

76 K个独立样本的非参数检验 195

77 两个相关样本的非参数检验 200

78 K个相关样本的非参数检验 204

79 本章小结 207

第8章相关分析 208

81 简单相关分析 208

811 简单相关分析的基本思想 208

812 相关系数 209

813 简单相关分析的操作步骤 211

82 散点图 213

83 偏相关分析 216

84 本章小结 218

第9章回归分析 219

91 线性回归 220

911 线性回归的基本原理 220

912 SPSS线性回归 223

913 一元线性回归 229

914 多元线性回归 236

92 非线性回归 241

921 非线性回归的基本原理 241

922 SPSS非线性回归 241

93 曲线估计 248

94 logistic回归 254

95 本章小结 263

第10章聚类分析 264

101 聚类分析概述 265

1011 聚类分析的基本原理 265

1012 聚类分析的基本方法 266

1013 不相似测度的度量方法 268

102 系统聚类分析 271

103 二阶聚类分析 280

104 K-均值聚类分析 292

105 本章小结 300

第11章判别分析 302

111 判别分析的基本原理 303

112 SPSS判别分析 303

113 本章小结 314

第12章因子分析与主成分分析 315

121 基本原理 316

1211 主成分分析 316

1212 因子分析 316

1213 方法用途 317

1214 使用条件 317

1215 常用概念和分析步骤 318

1216 主成分和公因子数量的确定 318

1217 主成分和因子分析的联系与区别 319

122 因子分析 320

1221 因子分析的数学模型 320

1222 因子分析的基本方法 320

1223 因子分析的实例 321

123 主成分分析 327

1231 主成分分析的数学模型 328

1232 主成分分析的基本方法 328

1233 主成分分析的实例 329

124 本章小结 338

第13章可靠性分析 339

131 可靠性分析概述 340

1311 可靠性分析的基本原理 340

1312 可靠性分析的基本方法 341

132 SPSS可靠性分析 342

133 可靠性分析的其他问题 348

1331 拆半可靠性系数模型 348

1332 Guttman模型 351

1333 平行模型 352

134 本章小结 353

第14章时间序列分析 354

141 时间序列分析概述 355

1411 时间序列数据及其分析方法 355

1412 时间序列分析的模型、公式和记号 355

1413 SPSS时间序列分析功能 359

142 时间序列数据的预处理 359

1421 定义日期变量 360

1422 创建时间序列 361

1423 填补缺失数据 365

143 指数平滑法 367

144 自回归模型 371

145 ARIMA模型 378

146 周期性分解 386

147 本章小结 390

第15章生存分析 391

151 生存分析概述 392

152 寿命表法 393

153 Kaplan-Meier分析 398

154 Cox回归分析 405

155 本章小结 412

第三篇 SPSS 170行业应用实例篇

第16章 SPSS行业应用实例——社会调查与统计 414

161 全国各地区农民家庭收支的分布规律分析 414

1611 实例内容说明 414

1612 实现方法分析 415

1613 具体操作步骤 416

162 判定新生婴儿的性别比例是否正常 434

1621 实例内容说明 434

1622 实现方法分析 435

1623 具体操作步骤 436

第17章 SPSS行业应用实例——市场研究/企业数据分析 440

171 某商品销售量与超市规模和摆放位置的方差分析 440

1711 实例内容说明 440

1712 实现方法分析 441

1713 具体操作步骤 442

172 汽车配件公司某产品尺寸的参数检验分析 455

1721 实例内容说明 455

1722 实现方法分析 455

1723 具体操作步骤 456

第18章 SPSS行业应用实例——证券金融统计 461

181 股票日历效应分析 461

1811 实例内容说明 461

1812 实现方法分析 462

1813 具体操作步骤 462

182 汇率影响因素分析 489

1821 实例内容说明 489

1822 实现方法分析 490

1823 具体操作步骤 491

第19章 SPSS行业应用实例——医学统计 513

191 两组不同治疗方法的生存率分析 513

1911 实例内容说明 513

1912 实现方法分析 514

1913 具体操作步骤 514

192 判断不同群体的患病比例有无差异 520

1921 实例内容说明 520

1922 实现方法分析 521

1923 具体操作步骤 521

第20章 SPSS行业应用实例——生物学统计 530

201 判断某种元素的缺乏是否对另一种元素含量有影响 530

2011 实例内容说明 530

2012 实现方法分析 531

2013 具体操作步骤 532

202 根据动物身体属性数据分析个体之间的相似性 535

2021 实例内容说明 535

2022 实现方法分析 535

2023 具体操作步骤 535

第1章spss综述

11spss 170概述

111spss 170特点

112spss各版本特性比较

12spss数据的管理

121定义变量属性

122个案标识

123数据的排序

124数据的转置

125数据的重组

126数据文件的合并

127数据文件的拆分

128数据的分类汇总

13spss数据的预处理

131spss表达式与函数

132变量计算

133选择个案

134个案计数与加权

135个案排秩

136数据的重新编码

137spss其他功能

14基本统计分析

141基本描述统计量的定义

142频数分析

143描述性分析

144探索性分析

145比率分析

146p-p图

147q-q图

148基本统计分析实例

15本章小结

思考题

第2章假设检验

21常用分布及参数估计

211几种与多元正态分布有关的概率分布

212参数估计

213正态分布的大样本推断

214样本容量的确定

22假设检验的一般问题

221假设检验的概念

222假设检验的基本思想

223显著性水平及两类错误

224假设检验的步骤

23正态总体参数的假设检验

231正态总体均值和方差的假设检验

232总体比率的假设检验

24假设检验的spss操作

241单样本的t检验

242两独立样本的t检验

243两配对样本的t检验

25假设检验实例

26本章小结

思考题

第3章方差分析

31方差分析的基本原理

32单因素方差分析

321数据结构与线性模型

322平方和分解与自由度

323显著性检验

324多重比较

325单因素方差分析的spss操作

326单因素方差分析实例

33多因素方差分析

331多因素方差分析的分类

332无交互作用的多因素方差分析

333有交互作用的多因素方差分析

334多因素方差分析的spss操作

335多因素方差分析实例

34重复测量方差分析

341重复测量方差分析的基本原理

342重复测量方差分析的spss操作

343重复测量方差分析实例

35协方差分析

351协方差分析的基本原理

352协方差分析的spss操作

353协方差分析实例

36本章小结

思考题

第4章非参数检验

41单样本非参数检验

411卡方检验

412二项分布检验

413游程检验

414单样本k-s检验

42两独立样本非参数检验

421曼-惠特尼u检验

422moses极端反应检验

423k-s z检验

424wald-wolfowitz游程检验

43多独立样本非参数检验

431中位数检验

432kruskal-wallis检验

433jonckheere-terpstra检验

44两相关样本非参数检验

441mcnemar变化显著性检验

442符号检验

443wilcoxon符号秩检验

45多相关样本非参数检验

451friedman双向评秩方差检验

452kendall w协同系数检验

453cochran q检验

46非参数检验的spss操作

461卡方检验

462二项分布检验

463游程检验

464单样本k-s检验

465两独立样本非参数检验

466多独立样本非参数检验

467两相关样本非参数检验

468多相关样本非参数检验

47非参数检验实例

48本章小结

思考题

第5章回归分析

51回归分析的概念和方法

511概述

512回归分析的研究范围

513实际问题建立回归模型的过程

52线性回归分析

521一元线性回归

522多元线性回归

523回归诊断

524多元线性回归的有偏估计

525线性回归spss操作全过程

526权重估计spss操作全过程

527两阶最小二乘法spss操作全过程

53非线性回归分析

531可化为线性回归的曲线回归分析

532曲线估计spss操作全过程

533多项式回归分析

534部分最小平方回归spss操作全过程

535非线性回归分析

536非线性回归spss操作全过程

54logistic回归分析

541自变量中含有定性变量的回归模型

542处理定性变量的最优尺度回归spss操作全过程

543逻辑回归模型

544二元逻辑回归spss操作全过程

545多项逻辑回归spss操作全过程

546概率回归分析spss操作全过程

547有序回归分析spss操作全过程

55回归分析实例

551线性回归实例

552非线性回归实例

553逻辑回归实例

56本章小结

思考题

第6章聚类分析与判别分析

61聚类分析和判别分析的基本原理

62相似性度量

621区间变量

622二值变量

623定序变量

63聚类分析方法

631系统聚类法

632逐步聚类法

633二阶聚类法

64聚类分析的spss操作

641系统聚类

642k-均值聚类

643 二阶聚类

65判别分析方法

651距离判别

652bayes判别

653fisher判别

654判别分析步骤

66判别分析的spss操作

67聚类分析和判别分析实例

671聚类分析实例

672判别分析实例

68本章小结

思考题

第7章主成分分析与因子分析

71主成分分析与因子分析的基本思想

72主成分分析的模型与方法

721主成分分析的代数模型与几何意义

722总体的主成分

723样本的主成分

73主成分分析的spss操作

74因子分析的模型与方法

741正交因子模型

742相关性分析

743因子的提取

744因子旋转

745因子得分

75因子分析的spss操作

76主成分分析和因子分析实例

761主成分分析实例

762 因子分析实例

77本章小结

思考题

第8章对应分析

81列联表与列联表分析

811列联表

812列联表分析

82简单对应分析的基本原理

821行轮廓与列轮廓

822总惯量

823行列轮廓的坐标

824对应分析图

825简单对应分析的步骤

826简单对应分析的逻辑框图

83简单对应分析的spss操作

84多重对应分析及其spss操作

841多重对应分析

842多重对应分析的基本操作

85对应分析实例

86本章小结

思考题

第9章时间序列分析

91时间序列的相关概念以及时间序列分析步骤

911时间序列与统计学其他分析方法的关系

912时间序列的相关概念

913时间序列分析原理与分类

914时间序列分析一般步骤

915spss时间序列分析

92时间序列的数据准备与检验

921时间序列的数据准备

922时间序列的数据检验

923时间序列的数据图形化检验

924时间序列的数据统计量检验

93时间序列的数据预处理

931时间序列缺失数据的处理

932时间序列数据的变换处理

94时间序列的确定性分析

941非平稳时间序列的组成要素

942平滑法

943趋势分析法

944季节性分解法

95时间序列的随机性分析

951适用于平稳性序列的随机性时间序列模型

952适用于非平稳性序列的随机性时间序列模型

953时间序列随机性分析步骤

954arima模型的参数设置

96时间序列模型的spss操作

97spss时间序列的案例分析

98本章小结

思考题

第10章信度分析

101信度的基本原理

1011信度的统计学原理

1012信度影响因素

1013信度评价指标

102信度分析及其基本方法

1021信度分析

1022信度分析的基本方法

103信度分析的spss操作

104信度分析实例

1041 α信度系数法分析

1042折半信度系数法分析

105本章小结

思考题

第11章联合分析

111联合分析的基本原理

112联合分析的步骤

1121属性和属性水平的确定

1122受测设计

1123受测体的评价

1124效用值的估计

1125效用值的聚集

113联合分析的spss操作

1131生成正交设计

1132显示设计

1133运行联合分析

114联合分析实例

115本章小结

思考题

第12章生存分析

121生存分析的基本概念和内容

1211生存分析的定义

1212生存分析的基本概念

1213生存分析的基本内容和方法

1214spss中的生存分析过程

122寿命表分析

1221寿命表分析的基本原理及步骤

1222spss中的寿命表分析过程

123kaplan-meier分析

1231kaplan-meier分析的基本原理及步骤

1232spss中的kaplan-meier分析过程

124cox回归模型分析

1241cox回归模型的基本形式和原理

1242spss中的cox回归模型分析过程

1243依时协变量cox回归模型的基本原理

1244spss中的依时协变量cox回归模型分析过程

125生存分析实例

1251寿命表分析实例

1252kaplan-meier分析实例

1253cox回归模型分析实例

126本章小结

思考题

第13章神经网络分析

131神经网络的发展历史以及神经网络相关概念

1311时间序列的发展历史简介

1312生物神经元模型

1313人工神经元模型

1314spss神经网络分析

132多层感知器模型

1321感知器神经元模型

1322感知器的网络结构

1323感知器神经网络的学习规则

1324感知器神经网络的训练

133径向基函数模型

1331径向基函数神经网络结构

1332径向基函数的学习算法

134神经网络的spss操作

1341变量设置

1342分区设置

1343体系结构设置

1344培训的设置

1345输出的设置

1346保存的设置

1347导出的设置

1348选项的设置

135spss神经网络的案例分析

1351数据准备

1352数据分析

1353过程摘要

136本章小结

思考题

第14章结构方程模型

141结构方程模型概述

1411结构方程模型方法与统计学其他分析方法的关系

1412模型方程模型相关概念

1413结构方程模型原理与基本假定

1414结构方程模型特性

1415结构方程模型方法一般步骤

142结构方程模型设定和识别

1421结构方程模型设定

1422结构方程模型识别

1423amos模型设定操作

143结构方程模型数据准备

1431缺失数据的处理

1432数据的信度与效度

1433数据文件导入

144结构方程模型参数估计

1441参数估计常用方法

1442amos参数估计操作

145结构方程模型评价与修正

1451参数检验

1452模型整体拟合评价

1453模型限制修正

1454模型扩展修正

146结构方程模型解释

1461相关关系

1462因果关系

147本章小结

思考题

附录spss函数名及其含义

参考文献

在实际的应用中，有时候我们会遇到数据的维度太少，我们需要新生成新的维度，可以用我们之前的分享（如何自动化进行特征工程）；有时候维度太多，这时候我们就需要降维了。降维的方法有许多，我们这里介绍了sklearn中介绍的7种，供大家学习和收藏。

主成分分析（PCA）用于将多维的数据集分解为一组具有最大方差的连续正交分量。在sklearn这个包中，PCA是一个transformer对象，使用fit方法可以选择前n个主成分，并且用于投射到新的数据中。

PCA有两种实现方式，一种是特征值分解去实现，一种是奇异值分解去实现。特征值分解是一个提取矩阵特征很不错的方法，但是它只是对方阵而言的，如果不使用SVD，PCA只会寻找每个特征的中心，但并不会对数据进行缩放（scaled）。使用参数whiten=True ，可以将数据投射到奇异空间中，并且将每个组分缩放到方差为1，这个对于后续分析中，假设每个特征是isotropy 是很有帮助的，例如SVM和Kmeans聚类。

PCA不仅仅是对高维数据进行降维，更重要的是经过降维去除了噪声，发现了数据中的模式。PCA把原先的n个特征用数目更少的m个特征取代，新特征是旧特征的线性组合，这些线性组合最大化样本方差，尽量使新的m个特征互不相关。

SVD是一种矩阵分解法，把一个大矩阵分解成易于处理的形式，这种形式可能是两个或多个矩阵的乘积。

参数

例子2：获取每个主成分与特征的关系

PCA虽然很有用，但是需要将数据全部都存入内存，因此当当要分解的数据集太大，会导致内存很大。这时候，增量主成分分析（IPCA）通常用作主成分分析（PCA）的替代，可以通过部分计算的方式，获得跟PCA一样的结果。

IPCA使用与输入数据样本数无关的内存量为输入数据建立低秩近似。它仍然依赖于输入数据功能，但更改批量大小可以控制内存使用量。

该函数，增加了一个batch_size的参数，用来控制批次，其余都一样，至此不再赘述。

实例

对于大型矩阵的分解，我们往往会想到用SVD算法。然而当矩阵的维数与奇异值个数k上升到一定程度时，SVD分解法往往因为内存溢出而失败。因此，Randomized SVD算法，相比于SVD，它更能适应大型矩阵分解的要求，且速度更快。

此外，在某些场景下，我们期望丢掉某些lower sigular values，来达到减少噪音，保留尽可能多的方差，从而达到更好的预测效果。比如人脸的识别，如果是64X64的像素，那么整个维度有4096个。我们利用这个方法，可以保留重要的维度，从而利于后续的分析。

使用 svd_solver='randomized' 可以实现随机化的SVD，来去掉部分的奇异矩阵。

主成分分析（Principal Components Analysis, PCA）适用于数据的线性降维。而核主成分分析（Kernel PCA，KPCA）可实现数据的非线性降维，用于处理线性不可分的数据集。kernel的选择有 {'linear', 'poly', 'rbf', 'sigmoid', 'cosine', 'precomputed'}，默认是'linear'。

详细说明见官方说明，与普通的PCA差不多。

SparsePCA 期望找到一组可以最优地重构数据的稀疏主成分。稀疏性的大小由参数alpha给出的L1惩罚系数来控制。Mini-batch sparse PCA是sparsePCA的变种，提高了速度，但是降低了精度。

主成分分析（PCA）的缺点是，该方法提取的成分是一种密集表达式，即用原始变量的线性组合表示时，它们的系数是非零的。这可能会使解释模型变得困难。在许多情况下，真实的基础分量可以更自然地想象为稀疏向量;例如，在人脸识别中，主成分会只包含部分的图像，映射到人脸的某些部分。稀疏主成分产生了一种更简洁的、可解释的表示，清楚地强调是哪些原始特征导致了样本之间的差异。

通过调节alpha来调整惩罚度，alpha越大，越导致许多系数为0。

TruncatedSVD是普通SVD的一个变种，只计算用户指定的前K个奇异值。TSVD通常用于语义分析中，是LSA的其中的一部分，可以解决一词多义和一义多词的问题。

LSA潜在语义分析的目的，就是要找出词（terms）在文档和查询中真正的含义，也就是潜在语义，从而解决上节所描述的问题。具体说来就是对一个大型的文档集合使用一个合理的维度建模，并将词和文档都表示到该空间，比如有2000个文档，包含7000个索引词，LSA使用一个维度为100的向量空间将文档和词表示到该空间，进而在该空间进行信息检索。而将文档表示到此空间的过程就是SVD奇异值分解和降维的过程。降维是LSA分析中最重要的一步，通过降维，去除了文档中的“噪音”，也就是无关信息（比如词的误用或不相关的词偶尔出现在一起），语义结构逐渐呈现。相比传统向量空间，潜在语义空间的维度更小，语义关系更明确。

使用例子如下：

用事先预定义好的字典来对矩阵进行稀疏化编码，达到降维和简化的目的。就像人类的所有语言都是由单词组成一样，因此使用已知的词典可以减少维度；其次，稀疏化可以减少计算的成本，让后续的计算更快。

这个对象没有fit的方法，transformation方法会将数据表示为尽可能少的字典原子的线性组合。可以用transform_method来控制初始化参数，有以下几种：

使用的函数为sklearndecompositionDictionaryLearning，会找到一个可以将fitted data足够好稀疏化的字典。

将数据表示为一个overcomplete的字典这个过程，同大脑处理数据的过程类似。这个方法在图像补丁的字典学习已被证明在诸如图像完成、修复和去噪以及监督识别任务的图像处理任务中给出良好的结果。

使用函数为sklearndecompositionMiniBatchDictionaryLearning，是一种快速的，但是精确度降低的版本，适应于大数据集合。

默认情况下，MiniBatchDictionaryLearning将数据分成小批量，并通过在指定次数的迭代中循环使用小批量，以在线方式进行优化。但是，目前它没有退出迭代的停止条件。也可以用partial_fit来实现小批次的fit。

从变量中提取共性因子。

因子分析要求原有变量间具有较强的相关性，否则，因子分析无法提取变量间的共性特征，如果相关系数小于03，则变量间的共线性较小，不适合因子分析；因子分析得到因子和原变量的关系，因此能够对因子进行解释。

因子分析可以产生与 PCA 相似的特征（载荷矩阵的列）。不过，不能对这些特征做出任何一般性的说明（例如他们是否正交）。

使用的函数为sklearndecompositionFactorAnalysis。

使用的函数为sklearndecompositionFastICA，ICA可以提取出一系列的主成分，彼此最大的独立。因此，ICA一般不用于降维，而用于区分叠加信号。ICA不考虑noise，为了使模型正确，必须使用whitening，可以使用whiten这个参数。

ICA 通常用于分离混合信号（称为盲源分离的问题），也可以作为一种非线性降维方法，可以找到具有一些稀疏性的特征。

主成分分析假设源信号间彼此非相关，独立成分分析假设源信号间彼此独立。

主成分分析认为主元之间彼此正交，样本呈高斯分布；独立成分分析则不要求样本呈高斯分布。

非负矩阵分解，顾名思义就是，将非负的大矩阵分解成两个非负的小矩阵。在数据矩阵不包含负值的情况下，应用NMF而不是PCA或其变体。

NMF可以产生可以代表数据的主成分，从而可以来解释整个模型。

参数init，可以用来选择初始化的方法，不同的方法对结果会有不同的表现。

在PCA处理中，假使将特征降维为600个，那么降维后的每个人脸都包含了600个特征（所以我们看到降维后的人脸有种“伏地魔”的感觉，这是因为降维处理相当于删去了部分细节特征，导致一部分信息丢失，在中最直观的体现就是变模糊）。而在NMF的处理中，这1000个特征相当于是被分离了。相当于，一张人脸是由鼻子、耳朵等这些独立的特征叠加出来的。

LDA是文档主题生成模型，对离散数据集（如文本语料库）的集合的生成概率模型。它也是一个主题模型，用于从文档集合中发现抽象主题。LDA是一种非监督机器学习技术，可以用来识别大规模文档集（document collection）或语料库（corpus）中潜藏的主题信息。

sklearndecompositionLatentDirichletAllocation是用于进行LDA的函数。

1、 https://wwwjianshucom/p/1adef2d6dd88

2、 https://wwwjianshucom/p/e574e91070ad

3、 https://scikit-learnorg/stable/modules/decompositionhtml#decompositions

4、 https://shankarmsygithubio/posts/pca-sklearnhtml

5、 https://mpweixinqqcom/s/Tl9ssjmGdeyNrNuIReo1aw

6、 https://wwwcnblogscom/eczhou/p/5433856html

7、 https://scikit-learnorg/stable/auto_examples/applications/plot_face_recognitionhtml#sphx-glr-auto-examples-applications-plot-face-recognition-py

8、 https://blogcsdnnet/fkyyly/article/details/84665361 LSA(Latent semantic analysis)

9、 https://blogcsdnnet/fjssharpsword/article/details/74964127

10、 https://wwwjianshucom/p/e90900a3d03a

理论上是这么要求的，但是实际操作要求并非那么严格，楼主可以做下KMO检验，一般检验通过，累计贡献率到达80%左右是可以做主成分分析和因子分析的。某些教科书上的主成分分析实例，贡献率在70%多的还是照样拿出来做了嘛~

另外同意楼上的说法，看下是不是数据相关性很大。

大数据的分析从所周知，大数据已经不简简单单是数据大的事实了，而最重要的现实是对大数据进行分析，只有通过分析才能获取很多智能的，深入的，有价值的信息。那么越来越多的应用涉及到大数据，而这些大数据的属性，包括数量，速度，多样性等等都是呈现了大数据不断增长的复杂性，所以大数据的分析方法在大数据领域就显得尤为重要，可以说是决定最终信息是否有价值的决定性因素。基于如此的认识，大数据分析普遍存在的方法理论有哪些呢？1 可视化分析。大数据分析的使用者有大数据分析专家，同时还有普通用户，但是他们二者对于大数据分析最基本的要求就是可视化分析，因为可视化分析能够直观的呈现大数据特点，同时能够非常容易被读者所接受，就如同看图说话一样简单明了。2 数据挖掘算法。大数据分析的理论核心就是数据挖掘算法，各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点，也正是因为这些被全世界统计学家所公认的各种统计方法（可以称之为真理）才能深入数据内部，挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据，如果一个算法得花上好几年才能得出结论，那大数据的价值也就无从说起了。3 预测性分析。大数据分析最终要的应用领域之一就是预测性分析，从大数据中挖掘出特点，通过科学的建立模型，之后便可以通过模型带入新的数据，从而预测未来的数据。4 语义引擎。非结构化数据的多元化给数据分析带来新的挑战，我们需要一套工具系统的去分析，提炼数据。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。5数据质量和数据管理。大数据分析离不开数据质量和数据管理，高质量的数据和有效的数据管理，无论是在学术研究还是在商业应用领域，都能够保证分析结果的真实和有价值。大数据分析的基础就是以上五个方面，当然更加深入大数据分析的话，还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。大数据的技术数据采集：ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。数据存取：关系数据库、NOSQL、SQL等。基础架构：云存储、分布式文件存储等。数据处理：自然语言处理(NLP，Natural Language Processing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机”理解”自然语言，所以自然语言处理又叫做自然语言理解(NLU，Natural Language Understanding)，也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支，另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。统计分析：假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析（最优尺度分析）、bootstrap技术等等。数据挖掘：分类（Classification）、估计（Estimation）、预测（Prediction）、相关性分组或关联规则（Affinity grouping or association rules）、聚类（Clustering）、描述和可视化、Description and Visualization）、复杂数据类型挖掘(Text, Web ,图形图像，视频，音频等)模型预测：预测模型、机器学习、建模仿真。结果呈现：云计算、标签云、关系图等。大数据的处理1 大数据处理之一：采集大数据的采集是指利用多个数据库来接收发自客户端（Web、App或者传感器形式等）的数据，并且用户可以通过这些数据库来进行简单的查询和处理工作。比如，电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据，除此之外，Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。在大数据的采集过程中，其主要特点和挑战是并发数高，因为同时有可能会有成千上万的用户来进行访问和操作，比如火车票售票网站和淘宝，它们并发的访问量在峰值时达到上百万，所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。2 大数据处理之二：导入/预处理虽然采集端本身会有很多数据库，但是如果要对这些海量数据进行有效的分析，还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算，来满足部分业务的实时计算需求。导入与预处理过程的特点和挑战主要是导入的数据量大，每秒钟的导入量经常会达到百兆，甚至千兆级别。3 大数据处理之三：统计/分析统计与分析主要利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等，以满足大多数常见的分析需求，在这方面，一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata，以及基于MySQL的列式存储Infobright等，而一些批处理，或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。4 大数据处理之四：挖掘与前面统计和分析过程不同的是，数据挖掘一般没有什么预先设定好的主题，主要是在现有数据上面进行基于各种算法的计算，从而起到预测（Predict）的效果，从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes，主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂，并且计算涉及的数据量和计算量都很大，常用数据挖掘算法都以单线程为主。整个大数据处理的普遍流程至少应该满足这四个方面的步骤，才能算得上是一个比较完整的大数据处理。End

欢迎分享，转载请注明来源：品搜搜测评网

原文地址:https://pinsoso.cn/meirong/1934592.html