生物信息学(Bioinformatics)
是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。
生物信息学是一门利用计算机技术研究生物系统之规律的学科。
目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。
1990年代以来,伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?
生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪,如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者W Gilbert在1991年曾经指出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。
生物信息学的主要研究方向: 基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学
姑且不去引用生物信息学冗长的定义,以通俗的语言阐述其核心应用即是:随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,目前已达到每14个月翻一番的速度。同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初组阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。
原始的生物信息资源挖掘出来后,生命科学工作者面临着严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学产业的高级阶段体现于此,人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。
[编辑本段]发展简介
生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就必须先对分子生物学的发展有一个简单的了解研究生物细胞的生物大分子的结构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物成分存在,1871年Miescher从死的白细胞核中分离出脱氧核糖核酸(DNA),在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前,人们仍然认为染色体蛋白质携带基因,而DNA是一个次要的角色1944年Chargaff发现了著名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧定的量总是相等,腺嘌呤与胸腺嘧啶的量相等与此同时,Wilkins与Franklin用X射线衍射技术测定了DNA纤维的结构1953年James Watson 和FrancisCrick在Nature杂志上推测出DNA的三维结构(双螺旋)DNA以磷酸糖链形成发双股螺旋,脱氧核糖上的碱基按Chargaff规律构成双股磷酸糖链之间的碱基对这个模型表明DNA具有自身互补的结构,根据碱基对原则,DNA中贮存的遗传信息可以精确地进行复制他们的理论奠定了分子生物学的基础DNA双螺旋模型已经预示出了DNA复制的规则,Kornberg于1956年从大肠杆菌(Ecoli)中分离出DNA聚合酶I(DNA polymerase I),能使4种dNTP连接成DNADNA的复制需要一个DNA作为模板Meselson与Stahl(1958)用实验方法证明了DNA复制是一种半保留复制Crick于1954年提出了遗传信息传递的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码得到了破译限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程的技术基础正是由于分子生物学的研究对生命科学的发展有巨大的推动作用,生物信息学的出现也就成了一种必然2001年2月,人类基因组工程测序的完成,使生物信息学走向了一个高潮由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每天106bp速度增长,生物信息迅速地膨胀成数据的海洋毫无疑问,我们正从一个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发现的可能,"生物信息学"正是从这一前提产生的交叉学科粗略地说,该领域的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA序列,结构,演化及其与生物功能之间的关系,其研究课题涉及到分子生物学,分子演化及结构生物学,统计学及计算机科学等许多领域生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取,处理,存储,分配和解释基因组信息学的关键是"读懂"基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计了解基因表达的调控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律它的研究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律",解释生命的遗传语言生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿
[编辑本段]主要研究方向
生物信息学在短短十几年间,已经形成了多个研究方向,以下简要介绍一些主要的研究重点
1,序列比对(Sequence Alignment)
序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效因此,启发式方法的引入势在必然,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的
2, 蛋白质结构比对和预测
基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等氨基酸的序列内在的决定了蛋白质的3维结构一般认为,蛋白质有四级不同的结构研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构同源建模(homology modeling)和指认(Threading)方法属于这一范畴同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构然而,蛋白结构预测研究现状还远远不能满足实际需要
3, 基因识别,非编码区分析研究
基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中分析非编码区DNA序列目前没有一般性的指导方法在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等
4, 分子进化和比较基因组学
分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化在匹配不同种族的基因时,一般须处理三种情况:Orthologous: 不同种族,相同功能的基因;Paralogous: 相同种族,不同功能的基因;Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现
5, 序列重叠群(Contigs)装配
根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs)逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配从算法层次来看,序列的重叠群是一个NP-完全问题
6, 遗传密码的起源
通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材
7, 基于结构的药物设计
人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物这一领域目的是发现新的基因药物,有着巨大的经济效益
8生物系统的建模和仿真
随着大规模实验技术的发展和数据累积,从全局和系统水平研究和分析生物学系统,揭示其发展规律已经成为后基因组时代的另外一个研究 热点-系统生物学。目前来看,其研究内容包括生物系统的模拟(Curr Opin Rheumatol,2007,463-70),系统稳定性分析(Nonlinear Dynamics Psychol Life Sci,2007,413-33),系统鲁棒性分析(Ernst Schering Res Found Workshop, 2007,69-88)等方面。以SBML(Bioinformatics,2007,1297-8)为代表的建模语言在迅速发展之中,以布尔网络 (PLoS Comput Biol,2007,e163)、微分方程(Mol Biol Cell,2004,3841-62)、随机过程(Neural Comput,2007,3262-92)、离散动态事件系统等(Bioinformatics,2007,336-43)方法在系统分析中已经得到应 用。很多模型的建立借鉴了电路和其它物理系统建模的方法,很多研究试图从信息流、熵和能量流等宏观分析思想来解决系统的复杂性问题(Anal Quant Cytol Histol,2007,296-308)。当然,建立生物系统的理论模型还需要很长时间的努力,现在实验观测数据虽然在海量增加,但是生物系统的模型辨 识所需要的数据远远超过了目前数据的产出能力。例如,对于时间序列的芯片数据,采样点的数量还不足以使用传统的时间序列建模方法,巨大的实验代价是目前系 统建模主要困难。系统描述和建模方法也需要开创性的发展。
9生物信息学技术方法的研究
生物信息学不仅仅是生物学知识的简单整理和、数学、物理学、信息科学等学科知识的简单应用。海量数据和复杂的背景导致机器学习、统 计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难, 需要像非参数统计(BMC Bioinformatics,2007,339)、聚类分析(Qual Life Res,2007,1655-63)等更加灵活的数据分析技术。高维数据的分析需要偏最小二乘(partial least squares,PLS)等特征空间的压缩技术。在计算机算法的开发中,需要充分考虑算法的时间和空间复杂度,使用并行计算、网格计算等技术来拓展算法的 可实现性。
10, 生物图像
没有血缘关系的人,为什么长得那么像呢?
外貌是像点组成的,像点愈重合两人长得愈像,那两个没有血缘关系的人像点为什么重合?
有什么生物学基础?基因是不是相似?我不知道,希望专家解答。
11, 其他
如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学从现在的发展不难看出,基因工程已经进入了后基因组时代我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识
[编辑本段]生物信息学与机器学习
生物信息的大规模给数据挖掘提出了新课题和挑战,需要新的思想的加入常规的计算机算法仍可以应用于生物数据分析中,但越来越不适用于序列分析问题究其原因,是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完备的生命组织理论西蒙曾给出学习的定义:学习是系统的变化,这种变化可使系统做相同工作时更有效。机器学习的目的是期望能从数据中自动地获得相应的理论,通过采用如推理,模型拟合及从样本中学习,尤其适用于缺乏一般性的理论,"噪声"模式,及大规模数据集因此,机器学习形成了与常规方法互补的可行的方法机器学习使得利用计算机从海量的生物信息中提取有用知识,发现知识成为可能机器学习方法在大样本,多向量的数据分析工作中发挥着日益重要的作用,而目前大量的基因数据库处理需要计算机能自动识别,标注,以避免即耗时又花费巨大的人工处理方法早期的科学方法—观测和假设----面对高数据的体积,快速的数据获取率和客观分析的要求---已经不能仅依赖于人的感知来处理了因而,生物信息学与机器学习相结合也就成了必然机器学习中最基本的理论框架是建立在概率基础上的,从某种意义来说,是统计模型拟合的延续,其目的均为提取有用信息机器学习与模式识别和统计推理密切相关学习方法包括数据聚类,神经网络分类器和非线性回归等等隐马尔可夫模型也广泛用于预测DNA的基因结构目前研究重心包括:1)观测和探索有趣的现象目前ML研究的焦点是如何可视化和探索高维向量数据一般的方法是将其约简至低维空间,如常规的主成分分析(PCA),核主成分分析(KPCA),独立成分分析(Independent component analysis),局部线性嵌套(LocallyLinear embedding)2)生成假设和形式化模型来解释现象[6]大多数聚类方法可看成是拟合向量数据至某种简单分布的混合在生物信息学中聚类方法已经用于microarray数据分析中,癌症类型分类及其他方向中机器学习也用于从基因数据库中获得相应的现象解释机器学习加速了生物信息学的进展,也带了相应的问题机器学习方法大多假定数据符合某种相对固定的模型,而一般数据结构通常是可变的,在生物信息学中尤其如此,因此,有必要建立一套不依赖于假定数据结构的一般性方法来寻找数据集的内在结构其次,机器学习方法中常采用"黑箱"操作,如神经网络和隐马尔可夫模型,对于获得特定解的内在机理仍不清楚
[编辑本段]生物信息学的数学问题
生物信息学中数学占了很大的比重统计学,包括多元统计学,是生物信息学的数学基础之一;概率论与随机过程理论,如近年来兴起的隐马尔科夫链模型(HMM),在生物信息学中有重要应用;其他如用于序列比对的运筹学;蛋白质空间结构预测和分子对接研究中采用的最优化理论;研究DNA超螺旋结构的拓扑学;研究遗传密码和DNA序列的对称性方面的群论等等总之,各种数学理论或多或少在生物学研究中起到了相应的作用但并非所有的数学方法在引入生物信息学中都能普遍成立的,以下以统计学和度量空间为例来说明
1, 统计学的悖论
数学的发展是伴随悖论而发展的对于进化树研究和聚类研究中最显著的悖论莫过于均值了,就说明了要采用常规的均值方法不能将这两类分开,也表明均值并不能带来更多的数据的几何性质那么,如果数据呈现类似的特有分布时,常有的进化树算法和聚类算法(如K-均值)往往会得错误的结论统计上存在的陷阱往往是由于
对数据的结构缺乏一般性认识而产生的
2, 度量空间的假设
在生物信息学中,进化树的确立,基因的聚类等都需要引入度量的概念举例来说,距离上相近或具有相似性的基因等具有相同的功能,在进化树中满足分值最小的具有相同的父系,这一度量空间的前提假设是度量在全局意义下成立那么,是否这种前提假设具有普适性呢,我们不妨给出一般的描述:假定两个向量为A,B,其中,,则在假定且满足维数间线性无关的前提下,两个向量的度量可定义为:(1)依据上式可以得到满足正交不变运动群的欧氏度量空间,这也是大多数生物信息学中常采用的一般性描述,即假定了变量间线性无关然而,这种假设一般不能正确描述度量的性质,尤其在高维数据集时,不考虑数据变量间的非线性相关性显然存在问题,由此,我们可以认为,一个正确的度量公式可由下式给出:(2)上式中采用了爱因斯坦和式约定,描述了变量间的度量关系后者在满足(3)时等价于(1),因而是更一般的描述,然而问题在于如何准确描述变量间的非线性相关性,我们正在研究这个问题
[编辑本段]统计学习理论在生物信息学中应用的困难
生物信息学中面对的数据量和数据库都是规模很大的,而相对的目标函数却一般难以给出明确的定义生物信息学面临的这种困难,可以描述成问题规模的巨大以及问题定义的病态性之间的矛盾,一般从数学上来看,引入某个正则项来改善性能是必然的[7]以下对基于这一思想产生的统计学习理论,Kolmogorov复杂性[98]和BIC(Bayesian Information Criterion)[109]及其存在的问题给出简要介绍支持向量机(SVM)是近来较热门的一种方法,其研究背景是Vapnik的统计学习理论,是通过最大化两个数据集的最大间隔来实现分类,对于非线性问题则采用核函数将数据集映射至高维空间而又无需显式描述数据集在高维空间的性质,这一方法较之神经方法的好处在于将神经网络隐层的参数选择简化为对核函数的选择,因此,受到广泛的注意在生物信息学中也开始受到重视,然而,核函数的选择问题本身是一个相当困难的问题,从这个层次来看,最优核函数的选择可能只是一种理想,SVM也有可能象神经网络一样只是机器学习研究进程中又一个大气泡Kolmogorov复杂性思想与统计学习理论思想分别从不同的角度描述了学习的性质,前者从编码的角度,后者基于有限样本来获得一致收敛性Kolmogorov复杂性是不可计算的,因此由此衍生了MDL原则(最小描述长度),其最初只适用于离散数据,最近已经推广至连续数据集中,试图从编码角度获得对模型参数的最小描述其缺陷在于建模的复杂性过高,导致在大数据集中难以运用BIC准则从模型复杂性角度来考虑,BIC准则对模型复杂度较高的给予大的惩罚,反之,惩罚则小,隐式地体现了奥卡姆剃刀("Occam Razor")原理,近年也广泛应用于生物信息学中BIC准则的主要局限是对参数模型的假定和先验的选择的敏感性,在数据量较大时处理较慢因此,在这一方面仍然有许多探索的空间
生物信息学(BT)
中文名称:生物信息学 英文名称:bioinformatics
定义1:综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。包括生物学数据的研究、存档、显示、处理和模拟,基因遗传和物理图谱的处理,核苷酸和氨基酸序列分析,新基因的发现和蛋白质结构的预测等。
所属学科:生物化学与分子生物学(一级学科);总论(二级学科)
定义2:运用计算机技术和信息技术开发新的算法和统计方法,对生物实验数据进行分析,确定数据所含的生物学意义,并开发新的数据分析工具以实现对各种信息的获取和管理的学科。
所属学科:细胞生物学(一级学科);总论(二级学科)
定义3:运用计算机技术和信息技术开发新的算法和统计方法,对生物实验数据进行分析,确定数据所含的生物学意义,并开发新的数据分析工具以实现对各种信息的获取和管理的学科。
所属学科:遗传学(一级学科);总论(二级学科) 本内容由全国科学技术名词审定委员会审定公布
生物信息学(Bioinformatics)是研究生物信息的采集,处理,存储,传播,分析和解释等各方面的一门学科,它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。
主要研究方向
生物信息学在短短十几年间,已经形成了多个研究方向,以下简要介绍一些主要的研究重点
1、序列比对(Sequence Alignment)
序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效因此,启发式方法的引入势在必然,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的
2、蛋白质结构比对和预测
基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等氨基酸的序列内在的决定了蛋白质的3维结构一般认为,蛋白质有四级不同的结构研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构同源建模(homology modeling)和指认(Threading)方法属于这一范畴同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构然而,蛋白结构预测研究现状还远远不能满足实际需要
3、基因识别非编码区分析研究
基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中分析非编码区DNA序列目前没有一般性的指导方法在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等
4、分子进化和比较基因组学
分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化在匹配不同种族的基因时,一般须处理三种情况:Orthologous: 不同种族,相同功能的基因;Paralogous: 相同种族,不同功能的基因;Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现
5、序列重叠群(Contigs)装配
根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs)逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配从算法层次来看,序列的重叠群是一个NP-完全问题
6、遗传密码的起源
通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材
7、基于结构的药物设计
人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物这一领域目的是发现新的基因药物,有着巨大的经济效益
8、生物系统的建模和仿真
随着大规模实验技术的发展和数据累积,从全局和系统水平研究和分析生物学系统,揭示其发展规律已经成为后基因组时代的另外一个研究 热点-系统生物学。目前来看,其研究内容包括生物系统的模拟(Curr Opin Rheumatol,2007,463-70),系统稳定性分析(Nonlinear Dynamics Psychol Life Sci,2007,413-33),系统鲁棒性分析(Ernst Schering Res Found Workshop, 2007,69-88)等方面。以SBML(Bioinformatics,2007,1297-8)为代表的建模语言在迅速发展之中,以布尔网络 (PLoS Comput Biol,2007,e163)、微分方程(Mol Biol Cell,2004,3841-62)、随机过程(Neural Comput,2007,3262-92)、离散动态事件系统等(Bioinformatics,2007,336-43)方法在系统分析中已经得到应 用。很多模型的建立借鉴了电路和其它物理系统建模的方法,很多研究试图从信息流、熵和能量流等宏观分析思想来解决系统的复杂性问题(Anal Quant Cytol Histol,2007,296-308)。当然,建立生物系统的理论模型还需要很长时间的努力,现在实验观测数据虽然在海量增加,但是生物系统的模型辨 识所需要的数据远远超过了目前数据的产出能力。例如,对于时间序列的芯片数据,采样点的数量还不足以使用传统的时间序列建模方法,巨大的实验代价是目前系 统建模主要困难。系统描述和建模方法也需要开创性的发展。
9、生物信息学技术方法的研究
生物信息学不仅仅是生物学知识的简单整理和、数学、物理学、信息科学等学科知识的简单应用。海量数据和复杂的背景导致机器学习、统 计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难, 需要像非参数统计(BMC Bioinformatics,2007,339)、聚类分析(Qual Life Res,2007,1655-63)等更加灵活的数据分析技术。高维数据的分析需要偏最小二乘(partial least squares,PLS)等特征空间的压缩技术。在计算机算法的开发中,需要充分考虑算法的时间和空间复杂度,使用并行计算、网格计算等技术来拓展算法的 可实现性。
10、生物图像
没有血缘关系的人,为什么长得那么像呢? 外貌是像点组成的,像点愈重合两人长得愈像,那两个没有血缘关系的人像点为什么重合? 有什么生物学基础?基因是不是相似?我不知道,希望专家解答。
11、其他
如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学,成为系统生物学的重要研究方法从现在的发展不难看出,基因工程已经进入了后基因组时代我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识
编辑本段生物信息学与机器学习
生物信息的大规模给数据挖掘提出了新课题和挑战,需要新的思想的加入常规的计算机算法仍可以应用于生物数据分析中,但越来越不适用于序列分析问题究其原因,是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完备的生命组织理论西蒙曾给出学习的定义:学习是系统的变化,这种变化可使系统做相同工作时更有效。机器学习的目的是期望能从数据中自动地获得相应的理论,通过采用如推理,模型拟合及从样本中学习,尤其适用于缺乏一般性的理论,"噪声"模式,及大规模数据集因此,机器学习形成了与常规方法互补的可行的方法机器学习使得利用计算机从海量的生物信息中提取有用知识,发现知识成为可能机器学习方法在大样本,多向量的数据分析工作中发挥着日益重要的作用,而目前大量的基因数据库处理需要计算机能自动识别,标注,以避免即耗时又花费巨大的人工处理方法早期的科学方法—观测和假设----面对高数据的体积,快速的数据获取率和客观分析的要求---已经不能仅依赖于人的感知来处理了因而,生物信息学与机器学习相结合也就成了必然机器学习中最基本的理论框架是建立在概率基础上的,从某种意义来说,是统计模型拟合的延续,其目的均为提取有用信息机器学习与模式识别和统计推理密切相关学习方法包括数据聚类,神经网络分类器和非线性回归等等隐马尔可夫模型也广泛用于预测DNA的基因结构目前研究重心包括:1)观测和探索有趣的现象目前ML研究的焦点是如何可视化和探索高维向量数据一般的方法是将其约简至低维空间,如常规的主成分分析(PCA),核主成分分析(KPCA),独立成分分析(Independent component analysis),局部线性嵌套(LocallyLinear embedding)2)生成假设和形式化模型来解释现象[6]大多数聚类方法可看成是拟合向量数据至某种简单分布的混合在生物信息学中聚类方法已经用于microarray数据分析中,癌症类型分类及其他方向中机器学习也用于从基因数据库中获得相应的现象解释机器学习加速了生物信息学的进展,也带了相应的问题机器学习方法大多假定数据符合某种相对固定的模型,而一般数据结构通常是可变的,在生物信息学中尤其如此,因此,有必要建立一套不依赖于假定数据结构的一般性方法来寻找数据集的内在结构其次,机器学习方法中常采用"黑箱"操作,如神经网络和隐马尔可夫模型,对于获得特定解的内在机理仍不清楚
问题一:因子分析法的优缺点 ・ 简化系统结构,探讨系统内核。可采用主成分分析、因子分析、对应分析等方法,在众多因素中找出各个变量最佳的子 ,从子 所包含的信息描述多变量的系统结果及各个因子对系统的影响。“从树木看森林”,抓住主要矛盾,把握主要矛盾的主要方面,舍弃次要因素,以简化系统的结构,认供系统的内核。 ・ 构造预测模型,进行预报控制。在自然和社会科学领域的科研与生产中,探索多变量系统运动的客观规律及其与外部环境的关系,进行预测预报,以实现对系统的最优控制,是应用多元统计分析技术的主要目的。在多元分析中,用于预报控制的模型有两大类。一类是预测预报模型,通常采用多元线性回归或逐步回归分析、判别分析、双重筛选逐步回归分析等建模技术。另一类是描述性模型,通常采用聚类分析的建模技术。 ・ 进行数值分类,构造分类模式。在多变量系统的分析中,往往需要将系统性质相似的事物或现象归为一类。以便找出它们之间的联系和内在规律性。过去许多研究多是按单因素进行定性处理,以致处理结果反映不出系统的总的特征。进行数值分类,构造分类模式一般采用聚类分析和判别分析技术。 如何选择适当的方法来解决实际问题,需要对问题进行综合考虑。对一个问题可以综合运用多种统计方法进行分析。例如一个预报模型的建立,可先根据有关生物学、生态学原理,确定理论模型和试验设计;根据试验结果,收集试验资料;对资料进行初步提炼;然后应用统计分析方法(如相关分析、逐步回归分析、主成分分析等)研究各个变量之间的相关性,选择最佳的变量子 ;在此基础上构造预报模型,最后对模型进行诊断和优化处理,并应用于生产实际。
问题二:因子分析法和数据包络分析法 有何区别? 100分 因子分析是指研究从变量群中提取共性因子的统计技术。最早由英国心理学家CE斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。
数据包络分析方法(DataEnvelopmentAnalysis,DEA)是运筹学、管理科学与数理经济学交叉研究的一个新领域。它是根据多项投入指标和多项产出指标,利用线性规划的方法,对具有可比性的同类型单位进行相对有效性评价的一种数量分析方法。DEA方法及其模型自1978年由美国著名运筹学家ACharnes和WWCooper提出以来,已广泛应用于不同行业及部门,并且在处理多指标投入和多指标产出方面,体现了其得天独厚的优势。
问题三:因子分析是否一定能得分析得到主因子 主成分分析法在SPSS中没有办法直接实现,是通过因子分析来构建模型的它们的区别还是模型构建体系不一样,因子分析是 F=AX; 主成分分析则是用特征根向量求出的矩阵算出因子得分,与因子分析直接得出的得分是不一样的
问题四:因子分析是否一定能得分析得到主因子 因子分析有前提条件的
问题五:因子分析法在研究企业业绩评价中有什么优点 可以用因子熵值法:
因子熵值法的原理是运用因子分析法减少评价指标,在尽量减少原指标所含信息的损失的基础上,将众多的单项指标综合为少数综合指标;运用熵值法客观确定指标权重,在数学变换中伴随生成综合评价所涉及的权数,最大限度减少评价者个人因素对评价结果的影响。
如下:案例
某建筑集团公司下属有六个施工企业,每年需要对其进行绩效评价。评价指标体系为塔式结构,包含3个指标层,共49个指标(具体评价指标体系略)。以往采用加权合成法、模糊综合评价等方法进行评价,评价工作复杂,评价结果往往受到评价者个人因素的较大影响。因此,该企业尝试在绩效评价体系中应用因子熵值法。
项目管理者联盟文章,深入探讨。
因子熵值法首先需要对因子分析以提取主因子并命名,它的过程包含以下内容:①对原始数据进行标准化处理,对标准化指标求相关系数矩阵。相关系数可反映指标间信息重迭的程度,其值越大,信息重迭的程度越高;其值越小,重迭的程度越低。②计算相关系数矩阵的特征值、特征向量、特征值贡献率和特征值累积贡献率。③根据特征值贡献率和累积贡献率确定主因子个数。确定的一般原则为:当累积贡献率>80%,某一主因子贡献率 问题六:怎么判断样本能不能因子分析? 基本指标层面的因子分析检验
在对数据进行因子分析前首先要对其进行检验,来判断是否适合做因子分析,检验所采用的方法为巴特利特球度检验(BartlettTestofSphericity)和KMO(Kaiser-Meyer-Olkin)检验。
巴特利特球度检(BartlettTestofSphericity)是假设相关系数矩阵是一个单位阵,如果统计量值比较大,且其相对应的相伴概率值小于用户指定的显著性水平,拒绝原假设,认为适合作因子分析。反之,接受原假设,不适合作因子分析。
问题七:探索性因子分析的目的意义有哪些 看你对变量理论的分组符不符合实际的情况,是确保模型合理性的前提
常见的分析方法有:分类分析,矩阵分析,漏斗分析,相关分析,逻辑树分析,趋势分析,行为轨迹分析,等等。 我用HR的工作来举例,说明上面这些分析要怎么做,才能得出洞见。
01) 分类分析
比如分成不同部门、不同岗位层级、不同年龄段,来分析人才流失率。比如发现某个部门流失率特别高,那么就可以去分析。
02) 矩阵分析
比如公司有价值观和能力的考核,那么可以把考核结果做出矩阵图,能力强价值匹配的员工、能力强价值不匹配的员工、能力弱价值匹配的员工、能力弱价值不匹配的员工各占多少比例,从而发现公司的人才健康度。
03) 漏斗分析
比如记录招聘数据,投递简历、通过初筛、通过一面、通过二面、通过终面、接下Offer、成功入职、通过试用期,这就是一个完整的招聘漏斗,从数据中,可以看到哪个环节还可以优化。
04) 相关分析
比如公司各个分店的人才流失率差异较大,那么可以把各个分店的员工流失率,跟分店的一些特性(地理位置、薪酬水平、福利水平、员工年龄、管理人员年龄等)要素进行相关性分析,找到最能够挽留员工的关键因素。
05) 逻辑树分析
比如近期发现员工的满意度有所降低,那么就进行拆解,满意度跟薪酬、福利、职业发展、工作氛围有关,然后薪酬分为基本薪资和奖金,这样层层拆解,找出满意度各个影响因素里面的变化因素,从而得出洞见。
06) 趋势分析
比如人才流失率过去12个月的变化趋势。
07)行为轨迹分析
比如跟踪一个销售人员的行为轨迹,从入职、到开始产生业绩、到业绩快速增长、到疲惫期、到逐渐稳定。
毕业论文必须要用实证。
如下:
现在写论文都要求实证过程,就是利用模型拟合数据达到自己预期的结果,论文实证的模型主要有:普通回归,静态面板回归,动态面板回归,门槛回归,断点回归,两阶段回归,双重差分回归,分位数回归,逻辑回归,空间回归,结构方程还有时间序列等一系列的处理方法。
确定权重计算综合得分的模型主要有因子分析,主成分分析,熵值法,层次分析法还有综合迷糊评价法等等,本科生应用的模型可以稍微简单一些,普通回归,静态面板回归就差不多了,研究生毕业论文的模型要复杂一些,目前门槛和断点模型运用的比较广泛。
实证分析这一章直接决定了整篇文章的价值以及这篇文章能否顺利进行下去,因此对于现阶段的论文来说,实证分析章节是一篇文章最为核心的部分,也是每一位写毕业论文的同学应该最先处理的一个章节,只要这一章的内容搞定了,整篇文章水到渠成。
为什么说实证部分最重要应该最先写呢,第一,实证不通过整篇文章是没有意义的,没有写下去的必要,可能需要更换主题;第二,实证一旦通过,你最担忧的问题已经解决,并且你已经读了一些的文献,你对研究的主题有了较深的认识,整篇文章你已经做到了心中有数。
因此,各位同学,如果有实证要求,请一定先写实证部分,即使不写,也要把数据处理的结果先做出来。
如何做实证分析呢,首先一定明确自己的研究主题,因为研究主题一般就确定了实证模型的因变量和核心自变量,比如说“养老金收入与农村老年人口的劳动供给--基于断点回归的分析”,从标题中,我们可以确定文章的因变量是农村老年人口的劳动供给,自变量养老金收入,用到的模型是断点回归。
欢迎分享,转载请注明来源:品搜搜测评网