人人范文网 范文大全

南方医科大学生物信息学复习资料

发布时间:2020-03-01 17:14:22 来源:范文大全 收藏本文 下载本文 手机版

生物信息学的研究意义:1.认识生物本质:了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系;2.改变生物学的研究方式:改变传统研究方式,引进现代信息学方法,从博物学到实验性学科到设想.实验验证;3.为疾病的诊断和治疗提供依据,为设计新药提供依据。

生物信息学的概念:在生命科学研究中发展起来的一门由分子生物学与计算机信息处理技术相结合,以计算机为研究工具对生物信息进行获取.处理.储存.传播.分析.模拟和解释的交叉学科。

一.生物分子数据库

常用核酸及蛋白质数据库:一级数据库:直接来源于实验获得的原始数据,只经过简单的归类.整理和注释;核酸:GenBank.EMBL.DDBJ;蛋白质序列:SWISS-PROT.PIR;蛋白质结构:PDB。二级数据库:在一级数据库.实验数据和理论分析的基础上,针对不同的研究内容和需要,对生物学知识和信息的进一步整理得到的数据库。

三大公共核酸序列数据库:1.GenBank具有目录和生物学注释综合数据库。查询系统是NCBI(美国国立生物技术信息中心)Entrez系统。2.EMBL:EBI通过EMBL核酸数据库提供序列搜索服务。通过序列提取系统SRS6搜索序列。3.DDBJ是一个全面的核酸序列数据库,由SIR维护。使用的SRS工具进行数据检索和序列分析。用Sequin软件提交序列。 特殊类型核酸数据库:非编码RNA数据库(ncRNA);表达序列标签数据库(dbEST);序列标签位点数据库(dbSTS);miRBase;tRNAdb等。

基因组相关数据库:人类基因组数据库(HGD);基因组序列数据库(GSDB);基因组在线数据库(GOLD)

核苷酸三维数据结构数据库:核苷酸三维结构数据库(NDB);普纳大学核酸结构数据库(BNASDB)等。

三大数据库集成系统:NCBI(National Center for Biotechnology Information,美国国家生物技术信息中心):基于GenBank数据库。Entrez是NCBI用于提取序列信息的工具,它将科学文献.DNA和蛋白质序列数据库.蛋白质三维结构数据.种群研究数据以及全基因组组装数据整合成一个高度集成的系统。EBI(European Bioinformatics Institute,欧洲生物信息学研究所):基于EMBL数据库。搜索系统为SRS。SIB(Swi Institue of Bioinformatics,瑞士生物信息研究所):基于CIB数据库。序列搜索系统为Getentry。

三大蛋白质序列数据库:PIR(蛋白质信息库):主要包括1.UniProt-通用蛋白质资源库2.iProCla-蛋白质知识整合数据库 3.PIRSF-蛋白质家族分类系统 4.iProLINK-蛋白质文献.信息和知识整合数据库

MIPS(慕尼黑蛋白质序列信息中心)。Swi-Prot:用于获取蛋白质序列和相关数据的最有用的资源之一,SIB提供的蛋白质专家分析系统。蛋白质功能.结构域.家族:PROSITE.InterPro.Pfam.ProDom.SMART。三维结构:PDB.BioMagResBank.SWISS-MODEL Repository.ModBase.CATH.SCOP等。二维凝胶电泳:WORLD-2DPAGE.Phoretix links。信号传导及蛋白质相互作用:DIP.INTERACT.ProNet.KEGG.CANSITE.SPAD.CSNDB

获取基因或者蛋白序列的方法:1.Entrez Gene or Protein(NCBI):Entrez是一个很流行的用于提取序列信息的工具,是一个查询.提取和显示系统。可从NCBI主页中点击Entrez或者直接从Entrez的地址进入。输入要搜索的词,将得到数个返回结果。2.UniGene (NCBI):为每个基因给出了一组序列。Unigene条目存储了GenBank中对应于检索词的所有的记录列表,包括EST。还给出了图谱信息.同源基因和表达信息。(有基因表达的组织列表,也就是说这些组织中获取了cDNA库,用来产生相应的EST)从NCBI主页中点击Unigene。3.European Bioinformatics Institute (EBI) and Ensembl: EBI通过EMBL核酸数据库提供了序列搜索的服务。通过他的序列提取系统-SRS6,我们可用十几种不同的方法(如用关键字)搜索我们想要的序列。且资助了Ensembl项目,这是一个用于对人类基因组进行生物信息学分析的非常完备的网站。4.ExPASy Sequence Retrieval System (SIB) 用于获取蛋白质序列和相关数据的最有用的资源之一,也就是蛋白质专家分析系统。查询页面有四个长方形的输入框,每一个都对应一个下拉菜单,默认选项都是“AllText”修改相应的选项可得到链接,注意必须保证查询用的关键字是一个单词;5.Locuslink:基因和蛋白质信息的概括性资源。

序列的常见格式:

1.GBFF格式(GenBankflatfile)是GenBank数据库的基本信息单位,用于GenBank.EMBL.DDBJ之间信息交换。基本结构:头部包含整个记录的信息(描述符);第二部分包含了注释这一记录的特性;第三部分是核苷酸序列本身;所有序列数据库记录都在最后一行以“//”结尾。(1)LOCUS行:第一项是LOCUS名称,在数据库中独一无二,无其他意义。第二项是序列长度,第三项表明分子类型,第四项是GenBank分类码,最后一项是其最后修订日期。(2)DEFINITION行:LOCUS行的下一行,对GenBank记录中所含的生物学意义做出总结。内容包括了来源物种.基因/蛋白质名称。若序列是非编码区,则包含对序列功能的描述;若是编码区则标明该序列是部分序列(partial cds)还是全序列(complete cds)。

(3)acceion行:检索号是序列记录的惟一指针。通常由1字母5数字或2字母6数字组成。在数据库中惟一且不变。

(4)VERSION行:格式为检索号.版本号。版本号用于识别数据库中一条单一的特定核苷酸序列。如序列数据发生变化则版本号以及GI号增加而检索号不变。GI编号是NCBI网站所有序列相关数据库的流水编号,特征是唯一性。

(5)KEYWORD行:用来描述序列。(6)SOURCE行:来源生物。(7)references行:与该数据有关的参考文献,最先发表的文献列于第一位。(8)Features:特性表描述基因和基因的产物以及与序列相关的生物学特性。特性表提供一个参考词汇表以对合法的特性进行注释。(9)ORIGIN: 文件的最后给出了所记录的序列。

2.FASTA序列格式:第一行:“>GI号|数据库|检索号|locus号|注释”,第二行开始为序列内容,每60个字符换一行,允许以小写字母表示氨基酸。文件扩展名为“.fasta”。

3.NBIR/PIR序列格式:第一行 “>(P1:蛋白质序列,N1:核酸);序列标识号;说明行(没有长度限制)”。接下来是序列本身,以“*”终止。文件的扩展名为“.pir”或“.seq”。 4.GDE序列格式:与FASTA的格式基本相同,但行首为“%”,文件扩展名为“.gde”。

Acceion number:是一串用字符和数字组合来区分特定序列的标签。Complete genome: NC_######;Complete chromosome:NC_######;Genomic contig:NT_######;mRNA (DNA format):NM_######;Protein:NP_######.RefSeq:给出了对应于基因和蛋白质的索引号码,对应于最稳定.最被人承认的Genbank序列,GenBank中一个基因的索引号有上百个,但对应一个基因的RefSeq只有一个。

三.序列比对

双序列比对的概念:通过对两条序列中各个字符的一一对应关系,或字符的对比排列进行定性描述,揭示两条序列的最大相似程度,指出序列之间的根本差异,评估序列的相似性和是否具有同源性。

双序列比对的原理:通过插入间隔(gap)的方法使不同长度的序列对齐(长度一致);优化的序列排列应使间隔的数目达到最小,同时使相似性区域的长度达到最大。空格的生物学意义:序列的差异都是由突变引起的,常见的突变包括替换.插入和删除,后两者都导致在比对中引入空格。一个碱基的替换可能导致对应位置氨基酸的变化,也可能不变。一个碱基的插入和删除一定会导致对应位置及后续氨基酸的变化。突变是否显著地影响蛋白质的功能,取决于突变的位置是否在关键性的结构域。

双序列比对的流程:确定需要比对的序列,选择合适的得分系统,选择合适的比对算法,判断比对结果的显著性。 典型算法:全局比对:在整个序列上达到尽可能多的字符匹配。1序列在全长上有比较高的相似度;2比对的序列长度基本接近;3比对中允许插入空格(Needleman-Wunsch算法)。局部比对:仅保留最高的得分区域以达到最佳的匹配。1序列在全长上不一定相似,但是在某些区域有很高的相似度;2允许序列长度差别较大;3比对中尽可能少插入空格。(Smith-Waterman算法)

关键因素:得分矩阵:为方便的处理替换,要求把不同的处理方法参数化,这些参数就是替换得分矩阵。e-value 的意义:对某个已识别出相似度值S,E 值是分值大于等于S 的期望频率,该值可被理解为期望随机得到大于或等于S 值得分值数目。控制搜索的敏感性,越小越显著。把一个已知得比对分值S 同预期的分布相关联可能会计算出P 值,从而给出这个分值的比对显著性的可能性。通常,P 值越趋近于零,分值越有意义。

同源性与相似性:相似性是指序列之间相关的一种量度,两序列的的相似性可以基于序列的一致性的百分比;而同源性是指序列所代表的物种具有共同的祖先,强调进化上的亲缘关系。

序列比对的种类:1.序列相似性比较(两两序列比对):将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。2.序列同源性分析(多序列比对):将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。 多序列比对概念:把2条以上可能有系统进化关系的序列(相似度不一定很高)进行比对的方法。

BLAST:Basic Local Alignment Search Tool基本局部相似性对比搜索工具。用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。

BLAST原理:找出探测序列和目标序列间所有匹配程度超过一定阈值的序列片段对,将得到的序列片段对根据给定的相似性阈值延伸,得到一定长度的相似性片段,然后给出高分值片段对。

BLAST四步骤:1.选择序列2.选择BLAST程序3.选择数据库4.调整可选参数5.BLAST

1选择序列:FASTA格式和Acceion number均可

2.BLAST的五个子程序:Blastp待搜索蛋白序列与蛋白数据库比较,可找到具有远源进化关系的匹配序列;Blastn待搜索核酸序列与核酸数据库比较,适合寻找分值较高的匹配,不适合远源关系;Blastx待搜索核酸序列按6个读框翻译成蛋白质序列,然后与数据库中的蛋白质比较,适合新DNA序列和EST序列的分析;TBlastn待搜索核酸序列按6个读框翻译成蛋白质序列,然后与数据库中的蛋白质比较,适合寻找数据库中尚未标注的编码区;TBlastx无论是待搜索核酸序列还是数据库中核酸序列,都按6个读框翻译成蛋白序列,适合分析EST序列,最终36种。

3.选数据库:nr = non-redundant (most general database)一般默认选项;dbest = database of expreed sequence tags;dbsts = database of sequence tag sites;g = genomic survey sequences;htgs = high throughput genomic sequence。

4.参数调整:Max target sequence:100。指最多显示100条BLAST出来的序列。Expect threshold:10。仅仅因为随机性造成获得这一比对结果的可能次数为10次。Word size:3。以3个字符进行分组,从而进行BLAST对比。 BLAST搜索返回太多或者太少结果:结果太多:1.使用参数序列(带“refseq”的)数据库,可减少许多冗余结果;2.使探测序列只包含一个结构域,减少多结构域带来的多匹配;3.根据探测序列与数据库序列的关系使用更合适的替换记分矩阵;4.降低E 值。结果太少:1.提高E 值;2.使用更大的PAM 矩阵或更小的BLOSUM 矩阵;3.减少字长以及减小阈值。

BLAST结果解读:一个典型的BLAST输出包括E值和得分,E值是返回比对得分大于阈值S的期望值,当E

PSI-BLAST步骤:[1] 选择待查序列(query)和蛋白质数据库;[2] PSI-BLAST 构建一个多序列比对,然后创建一个序列表谱(profile)又称特定位置打分矩阵(PSSM);[3] PSSM被用作 query搜索数据库[4] PSI-BLAST 估计统计学意义 (E values);[5] 重复 [3] 和 [4] , 直到没有新的序列发现。

PAM矩阵和BLOSUM矩阵都是用于序列相似性的记分矩阵(scoring matrix)。记分矩阵中含有对齐时具体使用的数值。一般FASTA和BLAST都提供BLOSUM或PAM系列矩阵供选择,若要进行突变性质的进化分析时可使用PAM,FASTA缺省推荐BLOSUM50矩阵。

PAM矩阵(Point Accepted Mutation)基于进化的点突变模型,如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高。一个PAM就是一个进化的变异单位, 即1%的氨基酸改变,但这并不意味100次PAM后,每个氨基酸都发生变化,因为其中一些位置可能会经过多次突变,甚至可能会变回到原来的氨基酸。

模块替换矩阵BLOSUM(BLOcks Substitution Matrix)首先寻找氨基酸模式,即有意义的一段氨基酸片断(如一个结构域及其相邻的两小段氨基酸序列),分别比较相同的氨基酸模式之间氨基酸的保守性(某种氨基酸对另一种氨基酸的取代数据),然后,以所有 60%保守性的氨基酸模式之间的比较数据为根据,产生BLOSUM60;以所有80%保守性的氨基酸模式之间的比较数据为根据,产生BLOSUM80。

多序列比对概念:两个以上DNA序列.RNA序列或蛋白质序列的比对;

多序列比对相关软件: 1动态规划法:MSA;2渐进多序列比对:Cluster W;3迭代法:PRRN.RRP.MAFFT.PRALINE;4基于一致性的算法ProbCons。

多序列对比的意义:1)分析多个序列的一致序列;2)用于进化分析,是用系统发育方法构建进化树的初始步骤;3)寻找个体间单核苷酸多态性;4)通过序列比对发现直亲同源与旁系同源基因;5)寻找同源基因(相似的序列往往具有同源性);6)寻找蛋白家族识别多个序列的保守区域;7)相似的蛋白序列往往具有相似的结构与功能;8)辅助预测新序列的二级或三级结构;9)可直观地看到基因的哪些区域对突变敏感;10)PCR引物设计。

四.核酸序列特征分析

核酸序列基本分析的内容:1.分子量.碱基组成.碱基分布A)DNA序列碱基组成B)两联核苷酸频率c)三联核苷酸-基因密码子;2.序列变换(反向序列.互补序列.反向互补序列.转换为RNA序列.显示DNA双链);3.限制性酶切分析:限制性核酸内切酶;是一类能识别双链DNA分子特异性核酸序列的DNA水解酶。它是基因工程中用于体外剪切基因片段的重要工具酶;4.重复序列分析

核酸序列分析意义:1.对所获得的DNA序列进行生物信息学分析为后续的实验确定初步的方向;2.通过核酸序列分析能反应蛋白质水平所不能表现的与进化过程相关的信息。

主要软件:1.DNAMAN:所有日常核酸和蛋白质序列分析工作,包括多重序列对齐.PCR引物设计.限制性酶切分析.蛋白质分析.质粒绘图等2.BioEdit3.PRIMER PREMIER:引物设计.限制性内切酶位点分析.DNA 基元(motif)查找和同源性分析。

五.分子进化分析

系统发生法假设:A.序列必须正确无误;B.待分析的序列同源,所有的序列起源于同一个祖先序列,且必须是直系同源(orthologs)而不是旁系同源(paralogs);C.在序列比对中,不同序列的同一个位点都是同源的。D.两个物种在系统

发生树上分化后各自独立进化发展。E.系统发生分析的样本足以反映感兴趣的问题,样本序列间差异包含足以解决感兴趣的问题的系统发生信息。

系统发生法原理:从一条序列转变为另一条序列所需要的变换越多,那么,这两条序列的相关性就越小,从共同祖先分歧的时间就越早,进化距离就越大;相反,两个序列越相似,那么它们之间的进化距离就可能越小。为了便于分析,一般假设序列变化的速率相对恒定。 系统发生法流程:分子序列或特征数据的分析;系统发生树的构造;结果的检验。

系统发生树构建分析步骤:1.多序列比对(自动比对,手工比对)2.建立取代模型(建树方法)3.建立进化树.4.进化树评估

Mega4构建进化树的一般流程:1.双序列比对;2.选择双序列比对参数,包括距离类型;3.获得距离矩阵;4.构造进化树(参数设置同双序列比对);5.获得进化树;6.评估进化树的稳定性。

进化树的可靠性分析(自展法):1.从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列;2.重复上面的过程,得到多组新的序列;3.对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性。

系统发生树的构建方法、经典算法以及原理:

(1)最大简约法(MP法):构造一棵反映分类单元之间最小变化的系统发生树。处理过程:A针对待比较的物种,选择核酸或蛋白质序列。有些分子比其它分子的变化速率稳定,适合于进行进化分析,例如哺乳类的线粒体DNA.管家蛋白质等; B比较各个序列,产生序列的多重比对,确定各个序列字符的相对位置; C根据每个序列比对的位置(即多重序列比对的每一列),确定相应的系统发生树,该树用最少的进化动作产生序列的差异,最终生成完整的树。

(2)距离法:通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。如FM法.NJ法/邻接法.UPGMA法。

(3)最大似然法(ML法):由于最大似然法的分析过程需要耗费较多的时间,针对这种情况,发展出了许多优化的可加快最大似然法寻找最优树的搜索方法,如启发式搜索,分枝交换搜索等。最大似然法具有坚实的统计学理论基础,充分的使用了分析序列中的信息资源,只要采用了合理的替代模型,可得出很好的进化树分析结果。

六.芯片

基因芯片工作的原理:将大量探针分子固定于支持物上后与带荧光标记的DNA样品分子进行杂交,通过检测每个探针分子的杂交信号强度进而获取样品分子的数量和序列信息。

基因芯片数据分析的流程及目的:一.数据预处理(获取的芯片原始数据来自不同的芯片平台,数据信息会有差异,需要前期的数据预处理后才能进行深层次的挖掘):1.数据提取;2.数据对数转化(原始数据一般呈偏态分布,对数化后,数据可接近正态分布,为后续数据分析带来方便);3.数据过滤(去除表达水平是负值或很小的数据或者明显的噪音数据);4.补缺失值();5.标准化处理(去除系统误差发现真正的生物学变异,确保后期数据分析的可靠性)。二.差异表达分析(识别差异表达基因和非差异表达基因);三.聚类分析(基于研究对象的属性的相似性对研究对象进行分组,使组内样本相似,组间样本有差异)。

七.蛋白质

理化性质分析的基本内容:蛋白质分子量.氨基酸组成.等电点.消光系数.亲水性和疏水性.跨膜区.信号肽.翻译后修饰位点等

软件:ProtParam(physico-chemical parameters of a protein sequence )是计算氨基酸理化参数常用的在线工具;利用ProtScale分析蛋白质的亲水性或疏水性;利用TMpred分析蛋白质的跨膜区;利用SignalP分析蛋白质的前导肽;利用COILS分析蛋白质的卷曲螺旋。

蛋白质组学(proteomics)以细胞内全部蛋白质的存在及其活动方式作为研究对象,注重研究参与特定生理或病理状态的所有蛋白质种类及其与周围环境(分子)的关系。

蛋白质的高级结构:(书):即蛋白质构象,有其自身形成规律;活性蛋白质有最适构象但此构象有动态性。(网)肽链在空间上的排列.分布和走向,包括二级结构(肽链依靠氢键在空间的卷曲).超二级结构(同一主链的多个二级结构组装形成).三级结构(肽链在二级结构基础上进一步折叠卷曲).四级结构(独立三级结构的单元通过非共价键聚集成的非共价复合物)。

蛋白质三级结构测定1.比较建模(comparative modeling):基于同源蛋白质的序列及其已知的三维结构2.穿线(threading):没有已知结构的同源蛋白质,基于更广泛的已知结构3.自由建模(free modeling):基于物理化学性质而不是同源结构4.其他预测方法:折叠识别法.

蛋白质结构数据库:1.蛋白质三维结构数据库PDB 2.蛋白质结构分类数据库SCOP是一个包含已有结构的蛋白质分类数据库,依据不同蛋白质的氨基酸组成的相似性及三级结构,详细描述已知结构蛋白质之间的功能及进化关系 3.蛋白质分类数据库CATH(C蛋白质的种类;A蛋白质中二级结构构架;T蛋白质的拓扑结构; H数据库中最高层的分类类别-蛋白质同源超家族)

蛋白质功能分类数据库:1.Pfams数据库2.PIR蛋白质功能预测数据库:全称The Protein Information Resource,是集成了蛋白质功能预测数据的公用数据库3.InterPro数据库:集成的蛋白质结构域和功能位点数据库

蛋白序列数据库:1)蛋白质信息库(PIR):这是一个全面的.经过注释的.非冗余的蛋白质序列数据库。包括4个: UniProt-通用蛋白质资源库;iProCla-蛋白质知识整合数据库;PIRSF-蛋白质家族分类系统;iProLINK-蛋白质文献.信息和知识整合数据库 2)SWISS-PROT :是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。利用序列提取系统(SRS)可方便地检索 SWISS-PROT 和其它 EBI 的数据库。3)PROSITE:收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。PROSITE 的主页上提供各种相关检索服务。4)蛋白质结构数据库:PDB 是国际上唯一的生物大分子结构数据档案库。 RCSB 的主服务器和世界各地的镜像服务器提供数据库的检索和下载服务,以及关于 PDB 数据文件格式和其它文档的说明,PDB 数据还可从发行的光盘获得。使用Rasmol等软件可在计算机上按 PDB 文件显示生物大分子的三维结构。(5)蛋白质功能数据库:KEGG,京都基因和基因组百科全书(KEGG)是系统分析基因功能,联系基因组信息和功能信息的知识库。

南方医科大学

南方医科大学回执

南方医科大学校史校史

南方医科大学教学大纲

南方医科大学复试

南方医科大学学生社会实践

南方医科大学保送生招生简章

南方医科大学双学位招生简章

个人工作总结 南方医科大学

个人总结 南方医科大学

南方医科大学生物信息学复习资料
《南方医科大学生物信息学复习资料.doc》
将本文的Word文档下载到电脑,方便编辑。
推荐度:
点击下载文档
点击下载本文文档