2017年 10 月 11 日,阿里巴巴达摩院正式成立,马云的一句 “ 活得要比阿里巴巴长”,让外界对它的未来发展,有了更 “意味深长” 的期待。
在近三年多的时间里,达摩院在人工智能学术科研与应用上齐头并进,无论在国际学术顶会以及各类竞赛上,还是在推动学术成果的商业化落地上,都交出了亮眼的成绩单,这也反过来吸引着人工智能领域的顶尖研究者们都汇聚于此。
对于这些顶尖研究者们目前正在开展的研究工作,想必大家都充满了探知欲!
7月9日(晚)19:30-21:00 ,AI科技评论就将联合阿里达摩院,外加阿里集团在学术科研上同样“坚挺”的存在——阿里安全,给大家呈上一场 “ACL 2020 系列论文解读·阿里巴巴专场” 直播!
届时,来自阿里达摩院机器智能技术团队和阿里安全安全智能团队的 6 位高级算法专家、算法工程师以及研究型实习生们,将分别聚焦于多任务学习、少样本文本分类、 任务型对话、神经机器翻译、知识蒸馏、跨域分词标注等NLP 细分领域,为大家带来一场论文解读盛宴!
本次分享的嘉宾具体都有谁呢?下面一一揭晓:分享主题: SpanMlt:一种基于跨度的用于属性词和观点词配对抽取的多任务学习框架 分享嘉宾:黄龙涛
分享内容:
属性词和观点词抽取,是细粒度的基于属性的情感分析(ABSA)的两个关键问题。属性-观点词对( aspect-opinion pairs)可以为消费者和观点挖掘系统提供相关产品或服务的全局配置文件。但是,传统方法无法在没有给定属性词和观点词的情况下,直接输出属性-观点词对。尽管研究者最近提出了一些共提取方法来联合提取属性词和观点词,但是并不能配对抽取两者。为此,本文提出了一种端到端方法来解决属性词和观点词的配对抽取(PAOTE)任务。此外,本文从联合词和关系抽取的角度而非此前大多数工作中执行的序列标注方法的角度,来处理该问题。我们提出了一个基于共享跨度的多任务学习框架,其中在跨度边界的监督下提取词。同时,使用跨度表示法来联合识别配对关系。大量实验表明,我们的模型始终优于 SOTA 方法。
分享内容:
现有的工作往往使用元学习(meta learning)的方法,通过在一系列meta-task中切换来获得少样本学习的能力,但是在task间的切换会带来遗忘的问题,因此考虑使用记忆机制来辅助meta learning的训练。在本工作中,我们将监督学习得到的分类参数作为meta learning的全局记忆,并提出了动态记忆路由算法,基于dynamic routing的方式将全局记忆信息融入到meta task的训练和预测阶段。此外,动态记忆路由算法还可以使用query信息来增强归纳类别表示的能力,对口语场景下的语言多样性表达有更好的泛化性能。在中英文场景少样本分类任务数据集上,均取得了STOA的结果。
分享主题:多领域对话动作和回复联合生成分享嘉宾:田俊峰
分享内容:
在任务型对话中,产生流畅且信息丰富的回复至关重要。现有pipeline方法通常先预测多个对话动作,然后使用它们的全局表示来辅助回复生成。这种方法有两个缺陷:第一,在预测对话动作时,多领域的固有结构被忽略了;其次,在生成回复时没有考虑到对话动作和回复之间的语义联系。为了解决这些问题,我们提出了一种同时生成对话动作和回复的神经联合生成模型。与以往的方法不同,我们的对话动作生成模块可以保留多领域对话动作的层次结构,同时我们的回复生成模块可以动态地关注到相关的对话动作。在训练时,我们采用不确定性损失函数来自适应地调整两个任务的权重。在大规模MultiWOZ数据集上进行了评估,实验结果表明,我们的模型在自动评估和人工评估上都比SOTA模型有很好的提升。分享主题:神经机器翻译的多尺度协同深度模型分享嘉宾:魏相鹏
近年来,神经机器翻译(NMT)方法凭借其出色的翻译性能在大量应用场景中取代了基于统计的机器翻译方法。目前,制约NMT模型性能的因素主要包括模型的特征表达能力和数据规模。因此,我们提出一种基于多尺度协作(MSC)机制的深度神经机器翻译模型,以提高模型对底层(具象化)和高层(抽象化)特征的建模能力。
实验证明,(1) 多尺度协作机制有助于构建极深的NMT模型的同时带来性能上的提升,(2) 基于MSC机制的深度NMT模型能够更好地翻译语义结构复杂的自然语言句子。
分享主题:多语种序列标注的结构级知识蒸馏分享嘉宾:王新宇
多语言序列标注是一项使用单一统一模型预测多语言标签序列的任务。与依赖于多个单语模型相比,使用多语言模型具有模型规模小、在线服务容易和对低资源语言通用的优点。然而,由于模型容量的限制,目前的多语种模型仍然远远低于单独的单语模型。本文提出将多个单语言模型(teachers)的结构知识提取到统一的多语言模型(student)中,以缩小单语言模型与统一的多语言模型之间的差距。我们提出了两种基于结构层次信息的知识挖掘方法:
分享主题:跨域中文分词的远程标注与对抗耦合训练分享嘉宾:丁宁
完全监督神经方法在中文分词(CWS)的任务上取得了重大进展。但是,如果由于域间的分布差异和集外词(OOV)问题导致域迁移,则监督模型的性能始终一直大幅下降。为了实时缓解此问题,本文将跨域中文分词的远程标注和对抗性训练直观地结合在一起。
7月9日,6位来自阿里的分享嘉宾,与大家不见不散!
ACL 2020原定于2020年7月5日至10日在美国华盛顿西雅图举行,因新冠肺炎疫情改为线上会议。为促进学术交流,方便国内师生提早了解自然语言处理(NLP)前沿研究,AI 科技评论将推出「ACL 实验室系列论文解读」内容,同时欢迎更多实验室参与分享,敬请期待!
在慢性感染和肿瘤生长过程中,长期的抗原刺激导致T细胞逐渐失去效应功能,这一过程通常被称为T细胞的衰竭。淋巴细胞脉络丛脑膜炎病毒(LCMV)模型是研究得最好的小鼠病毒感染模型系统之一,在阐明T细胞衰竭生物学方面发挥了重要作用。在慢性LCMV感染的背景下,大多数研究集中在来自脾脏的病毒特异性T细胞。
在Sandu等人最近的研究中,应用单细胞测序技术研究了六种不同组织(脾脏、血液、骨髓、淋巴结、肝脏和肺)中的CD8 T细胞多样性,以确定组织微环境如何影响和塑造T细胞表型。他们发现T细胞采用组织特异性的转录组学谱,在不同器官中特定基因的表达存在差异,例如与抗原接触和TCR激活相关的基因。
在本期的案例演示中,Immugent将通过实操使用ProjecTILs重新分析Sandu等人的单细胞数据,并在LCMV参考图谱的背景下研究组织特异性T细胞的异质性。
在Sandu等人的研究中,作者使用基于无监督聚类、分类和差异表达的传统方法,描述了CD8 T细胞在多个组织中的异质性。细胞群的定义,包括批效应与组织相关的生物学差异的考虑,有意义的细胞类型的注释,差异表达分析以确定亚型间差异和组织间差异,所有这些都需要大量的系统生物学背景和专业知识。
通过这个案例研究,我展示了投射如何用最少的努力和领域专业知识得到非常相似的结果。通过分析结果我们可以发现,ProjecTILs预测的T细胞亚型的组织特异性组成,与原始研究以无监督的方式定义的亚型有很好的相关性,可以检测到与特定组织和T细胞亚型相关的特定基因和基因模块。
安装工作流程所需的 biconductor 包
VariantAnnotation包能够有效的从Variant Calling Format(VCF)文件读取部分或所有内容。
这些文本文件包括元信息行(meta-information lines),标题行(header line)和数据行(data lines),其中数据行每一行都含有基因组位置信息。这类格式同样包含每个位置上样本的基因型信息。更多该文件相关的信息可以看 VCF specs
本文所介绍的工作流程需要一些Biocondutor的包,下面几节会仔细介绍每个包的具体用法。
可以用 biocLite 安装那些未安装的包
本工作流程着眼于17号染色体上Transient Receptor Potential Vanilloid (TRPV)基因家族的变异位点。样本数据来自于Bioconductor的cgdv17实验数据包,内部包含46个17号染色体上的完整的基因组多样性面板数据(pannel data)如果想知道这些数据是如何组织的信息,可以查看包的小品文。
我们所使用的包中的VCF文件,是CEU群体其中一个17号染色体的子集。
为了大致了解该文件有哪些数据,我们可以查看标题部分。 scanVcfHeader() 解析文件的标题部分,将解析的内容存入 VCFHeader 对象,然后就可以使用 info() 和 geno() 存取器(accessor)提取字段特定(field-specific)数据
由下可知,VCF中的变异比对到NCBI构建的基因组GRCh37
使用 orgHsegdb 包将基因符号转为基因ID。
我们使用USCS的hg19已知基因轨道(hg19 known gene track)识别TRPV基因范围。这些基因范围最终会根据VCF文件提取变异位点。
载入注释包
我们的VCF已经比对到NCBI的基因组,并且已知基因轨道来自于UCSC。这些机构对染色体有不同的命名传统。为了在匹配(match)或者重叠(overlap)操作用到这些数据,染色体命名方式(或者叫seqlevels)需要匹配。我们会修改txdb以匹配VCF文件
根据基因创建转录本列表
为TRPV基因创建基因范围
ScanVcfParam 对象用于提取数据子集。该对象能够指定基因组坐标(范围)或单独的VCF元素。提取范围(vs 字段)需要一个tabix索引。使用 indexTabix 查看细节。
locateVariants 根据基因结构(例如exon, utr, splice site等)判断变异位点的位置。我们使用之前加载的 TxDbHsapiensUCSChg19knownGene 包内的基因模型。
CDS的每一行都代表一个变异位点-转录本匹配,因此一行变异位点对应多行也是可以的。如果我们对基因中心的问题感兴趣,数据就可以根据基因进行描述性分析,而不用考虑转录本。
可用 predictCoding 函数得到非同义变异的氨基酸改变。 BSgenomeHsapiensUCSChg19 包用作参考等位基因的源。变异的等位基因由使用者提供。
predictCoding 仅仅返回编码变异位点的结果。与 locateVariants 一样,每个变异位点-转录匹配项的输出都有一行,因此每个变异位点可以有多行。
当 predictCoding 调用时,变异位点“not translated”在抛出的警告进行说明。 在varAllele中缺少varAllele或“N”的变异位点不会被翻译。 如果varAllele替换已经导致了移位,则后果将是“frameshift”。 有关详细信息,请参阅 predictCoding
ensemblVEP 包能够访问在线Ensembl Variant Effect Predictor (VEP tool)。VEP工具输出的已知或者未知变异位点的功能后果预测,通过序列本体论(Sequence Ontology)或Ensembl报告。可选输出有Regulatory region consequences, HGNC, Ensembl protein identifiers, HGVS, co-located variants。 ensemblVEP() 接受VCF文件名,在R工作环境中返回一个磁盘上的VCF或者GRanges
加载ensemblVEP:
ensemblVEP的 file 参数必须是硬盘上的VCF
在基因组调控元件分析中,HOMER 可以用于发现新的motif。HOMER 通过比较两个序列集,再使用ZOOPS scoring (zero or one occurrence per sequence)和超几何检验进行富集分析。HOMER主要被用于 ChIP-Seq 和 promoter 分析,但是核酸序列motif寻找问题都可以尝试使用HOMER。
HOMER预测Motif 需要的两个序列集
HOMER 分析基本步骤:
1 预处理
11 提取序列 (findMotifspl/findMotifsGenomepl)
提供的数据是基因组位置信息,就需要提取对应的DNA信息;提供基因号时,需要选择启动子区域。
12 背景选择 (findMotifspl/findMotifsGenomepl)
未指定背景序列时,HOMER 会自动选择。
对基因组某些区域进行分析时,从基因组随机选择GC含量一致的序列作为背景序列。
对启动子进行分析时,除用来分析外的所有启动子将被作为背景。
自定义背景使用参数"-bg <file>"。
13 GC 标准化 (findMotifspl/findMotifsGenomepl)
目标序列和背景序列会基于GC含量按5%作为bin 查看GC含量的分布。背景序列会得到权值,从而使得其GC含量分布与目标序列一致。
ChIP-Seq 实验得到序列GC含量。
14 自动标准化 (New with v30, homer2/findMotifspl/findMotifsGenomepl)
需要分析的序列除了GC含量会带来误差,其他的生物学现象,外显子中密码子偏好性或测序实验中偏好性都会影响分析。对于足够强的偏差,HOMER 会自动追踪目标序列和背景中显著差异的特征序列,并通过调整背景序列的权重来平衡输入数据和背景中短寡聚核酸序列不平衡。短寡聚核酸序列长度可以通过参数"-nlen <#>"指定。
2 重头预测Motifs (homer2)
默认情况下,HOMER 调用homer2 进行motif 分析;通过参数"-homer1" 可以指定老版本工具。
21 将输入序列解析为寡聚核苷酸序列
将输入序列按照motif 长度期望值解析为寡聚核苷酸序列,以及创建Oligo 数据表。Oligo 数据表中记录着每条oligo 在目标序列和背景中被发现的次数。
22 Oligo 自动标准化 (可选)
23 全局搜索阶段
Oligo 表格信息构建好之后,HOMER 对富集的Oligo 进行全局搜索。如果一个Motif是富集的,那么属于这个Motif的Oligo 也应该会富集。首先,HOMER 会搜索可能富集的Oligo 。HOMER 允许错配 ,使用参数"-mis <#>" 调节允许的错配数目。
231 Motif 富集分析
Motif 富集分析使用超几何分布和二项式分布。一般情况下,序列较多或者背景序列远远多于目标序列,二项式分布计算比较快,因此findMotifsGenomepl默认使用二项式分布;当自定义背景序列时,这时序列较少,使用超几何检验比较好("-h")。findMotifspl用于启动子分析,并且默认使用超几何检验。
24 矩阵优化
25 Mask and Repeat
当最优oligo被优化成motif后,motif 对应的序列从要分析的数据中移除,接下来再分析最优的直到 25(默认值,"-S <#>")个motifs 被发现。
3 计算已知Motifs是否富集 (homer2)
31 导入Motif库
为了搜索输入数据中已知Motifs ,HOMER 可以输入已知Motifs 数据,可以时HOMER 默认的 ("data/knownTFs/knownmotifs"),也可以是自己构建("-mknown <file>") 。
32 筛选每一个Motif
对于每个motif,HOMER 计算丰度(包含motif的序列/background sequences), ZOOPS (zero or one occurence per sequence)计数以及使用超几何检验或二项式计算显著性。
4 Motif 分析结果
41 Motif Files (homer2, findMotifspl, findMotifsGenomepl)
" motif"包含motifs的信息
" motif"文件格式:
一个motif 的信息分为一块。motif 信息首行是motif 各种统计信息;其他行对应各个A/C/G/T的占比。
motif 信息首行解析:
42 重头预测的 motif (findMotifspl/findMotifsGenomepl/compareMotifspl)
首先会对motif进行去冗余,将每个motif 的概率矩阵转换为向量,求motif之间的Pearson 相关性。
HTML 结果:
42 已知 motif 的富集情况
参考:
Homer
ChIP-Seq 数据挖掘系列文章目录:
ChIP-Seq数据挖掘系列-1:Motif 分析(1)-HOMER 安装
ChIP-Seq数据挖掘系列-2: Motif 分析(2) - HOMER Motif 分析基本步骤
ChIP-Seq数据挖掘系列-3: Motif 分析(3) - 利用ChIP-Seq结果在基因组区域中寻找富集的Motifs
ChIP-Seq数据挖掘系列-4: liftOver - 基因组坐标在不同基因组注释版本间转换
ChIP-Seq数据挖掘系列-51: ngsplot 可视化ChIP-Seq 数据
ChIP-Seq数据挖掘系列-52: ngsplot 画图工具ngsplotr 和 replotr 参数详解
作者丨小兴
来源丨医数思维云课堂(ID:Datamedi)
通过上一期的内容,我们对Meta分析有了一定的了解。但是Meta分析怎样进行,怎样来做,也许大家仍然还是一头雾水。这一期,小兴将给大家介绍一下 Meta分析的大致流程 ,希望大家对Meta分析过程能有一定的理解。
Meta分析 可以大致分为如下图所示的是一个步骤。
01 提出需要评价的问题
提出的临床问题应具有 科学性 ,并可能通过研究的结果得以回答。
好的问题应当是临床决策所要用到的 证据或依据 。
合适的问题应该是基于实际临床问题提出来,再根据初步检索的实际情况进一步调整。
如欲使用Meta分析的方法评价牙周病与支气管炎的相关性,初步检索发现有只有很少的研究,那么可以考虑将评价的问题改为评价牙周病与慢性阻塞性肺病(注:慢性阻塞性肺病主要包括慢性支气管炎和肺气肿)。
02 制定合格标准
合格标准包括纳入标准和排除标准。合格标准建议根据“ PICOS "进行制定。
"P" 是指参与者(participant)、患者(patient)或目标疾病(disease)
"I" 是指干预(intervention)或暴露(exposure)
"C" 是指对照(control)或比较(comparison)
"O" 是指结局(outcome)或终点(endpoint)
"S" 是指研究设计类型(study design)
可以说“ PICOS "内的信息也涵盖了 构建所分析问题的研究的合格标准 。当然,制作团队还可以根据实际情况增加相关的限制,如增加时间段(timing)的限制、研究开展场所的限制(住院患者、社区人群、门诊患者)等。
03
制定检索策略
例如,检索“ 慢性肾病患者服用长链多不饱和脂肪酸(n-3 LCPULA),相比于安慰剂对照,能否预防或延缓肾病的进展? ”
检索词:
第一组多不饱和脂肪酸的各种可能的词汇(OR)
第二组慢性肾病的各种可能的词汇(OR)
第三组研究方法(OR)
三组之间用“AND”相连——检索策略。
使用PICO中的C、O和研究设计类型(study)或研究的环境和条件(setting)对检索进行限制。获得242篇相关文献。
04 时序预测分析步骤
在检索开始前,制作者应该意识到建立PRISMA流程图,并应该说明研究的鉴定、筛选、合格条件、入选标准和分析过程。
05 时序预测分析步骤
上述步骤完成之后,就可以考虑在注册平台进行注册。
当然, 研究注册并非必须环节 ,若未行注册,则建议在投稿时咨询阅读稿约,避开要求注册的那些期刊。到目前为止, 仅动物实验的Meta分析尚无平台可以注册 。
06 研究筛选
执行检索之后,一边根据PRISMA流程图来记录相关的检索结果,一边要及时将检索的相关研究导人到EndNote软件、NoteExpress软件、Microsoft Access软件或其他文献管理软件中保存。
前面几期,小兴介绍过EndNote软件的使用,该软件可以有助于研究的记录、查重等。筛选过程大致如下图:
07 评价方法学质量
队列研究/病例对照研究:纽卡斯尔-渥太华量表(NOS)
横断面研究:(1)美国卫生保健研究和质检局(AHRQ)推荐的,有11个条目,用“是”、“否”及“不清楚”作答(2)澳大利亚乔安娜循证护理中心(JBI)研制的
现况调查偏倚风险评价标准(JBI)
经验总结、案例分析、述评类文献偏倚风险评价标准(JBI)
临床试验的评价:Jadad量表
08 资料提取
在筛选出合格的研究后,就可以对相关的资料进行提取了。
资料的提取可以使用Microsoft Excel软件,我们建议使用Microsoft Access软件。提取表可以直接使用Cochrane协作网相关小组的资料提取表,亦可以进行相关的修改;或者按照cochrane手册的建议进行设置。
提取资料的内容一般应该包括纳入研究的第一作者、发表年限、人口学资料、待评价试验与参照试验、方法学质量相关信息等。
纳入研究基本特征表格也同时制作出来了。
09 统计分析
首先 ,应对纳入研究间的异质性进行评价。评价方法常见的仍然是使用卡方检验和检验, 卡方检验的p值取01 。
其次 ,对异质性来源进行调查,当异质性来源于偶然机会或计算诊断性精确性指标所致误差时,重要的是要考虑单个研究的真实异质性。此外,评估单个研究的方法学质量可作为识别异质性来源的有用工具。
根据 异质性 的情况,判定使用何种效应模型并采用相关的软件对相关的结局指标进行分析。
一般来讲,若异质性可以接受则采用固定效应模型,反之则采用随机效应模型。 再根据纳人研究的特征及临床背景开展相应的亚组分析、累积Meta 分析、发表偏倚分析等。
统计分析的内容比较多,也比较重要,小兴会单独做一期 Meta统计分析与结果解读 的内容,大家不要错过哟!
10 结果解读
下期见!
11 Meta更新
Meta分析需要随着新的研究的出现而不断更新。Cochrane协作网建议至少每两年更新一次,也有的CRG建议每年更新一次。当然,还可以根据临床的实际需求进行更新。
好了,这一期,小兴就给大家分享到这里,相信大家对Meta分析流程有了一定的了解。下期小兴将给大家介绍 Meta统计分析与结果解读 ,然后就可以实际操作做Meta分析了!希望每期都能与你相见,我们下期见!点击文末 阅读全文 ,了解更多内容哦!
最后,衷心祝愿大家再科研的道路上越走越远,越走越顺!
1可以去NCBI进行blast,搜索其同源基因,这样其功能便知道个大概了。
2已知这个基因的核苷酸序列,如果你已有其质粒,想要得到,最简单的方法就是使用PCR扩增,如果没有就只有去相关基因公司购买或者请专业的基因合成公司来为你合成。
3这个问题太过复杂,关于抗体的制备有杂交瘤技术,噬菌体筛选技术等等。
你问的这些问题牵涉到分子生物学,免疫学等极为专业的知识,详细解答恐怕几年也说不完,建议你先去学习相关知识。
另外二楼的回答第一句是不正确的,从已知基因是可以推出蛋白序列的,但反过来,由于简并密码子的原因,从蛋白是不能推出准确的核苷酸序列的。
欢迎分享,转载请注明来源:品搜搜测评网