计算生物学讲座x 196页

  • 2.90 MB
  • 2022-08-12 发布

计算生物学讲座x

  • 196页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
计算生物学讲座\n基本概念主要类容数据库序列比较RNA二级结构预测外源基因高效表达数学模型蛋白质结构预测进化树构建基因预测:codingregion,noncodingRNAgenes基因表达谱分析计算工具:数据挖掘、模式识别等BioSun软件介绍\nWhatiscomputationalbiologyComputationalbiologyisanewfieldofresearchwhichdevelopsmodelsandsoftwareimplementationsforcomputationalproblemsinmolecularbiology,biotechnology,andgenetics.Suchmeansareneededbothinthebasicresearchandintheindustrialapplicationsofbiotechnology.Computer-aidedDNAsequencing,sequencecomparison,predictionofproteinstructures,dockingofmolecules,andtheinterpretationofelectronmicroscopyorNMRdataareexamplesoftypicalcomputationallyintensivetasks.Bioinformaticsreferstothedevelopmentanduseofthe(molecular)biologicaldatabases\n计算生物学定义计算生物学是一门概念性学科,以生物信息为基础,以计算为工具,解决生物学问题。与生物信息学的定义类似,只是侧重点有所不同。计算生物学侧重于计算与问题,通过计算解决问题;生物信息学侧重于数据的管理与数据库的构建。\n组成部分表现形式创新点相关背景数据数据库数据数据库管理系统算法程序高效算法数学、物理、计算机解决问题理论问题提出新的问题生物学计算生物学/生物信息学定义解析\n数据库目前,各式各样的生物数据库很多,比较著名的有美国NCBI提供的Genbank,欧洲生物信息学研究所的EBI,日本国家遗传学研究所的DDBJ等。每年的NucleicAcidRes.数据库专刊了解目前的生物信息资源为计算生物学研究提供基础\n序列比较计算分子生物学中基本技术、非常重要多方面应用:蛋白质结构预测、RNA二级结构预测、进化树构建、进化谱构建、序列模式构建、基因功能预测和基因预测等。比较形式多样:两个序列比较、多个序列比较;全局比较、局部比较;最优比较、次优比较;扫描数据库等。流行的比较:blast,参见NCBI,EBI网页目前的难点:多序列的最优比较\n序列比较中的基本参数空格罚分:单独空格、延伸空格Wx=g+rx基本的相似性矩阵:残基与残基之间的相似性,碱基与碱基之间相似性。最简单的就是单位矩阵。\nNeedleman-Wunsch算法ATTGCTTG0001000T0110011T0110011C0000100T0110011T0110011Seq1=ATTGCTTSeq2=GTTCTTATTGCTTG5434210T4543221T3443221C20222310T1221121T0110011ATTGCTT:::::GTTCTT\nRNA二级结构预测\n为什么要研究RNA二级结构预测tRNA的转运氨基酸功能核酶的催化功能5’和3’端的非翻译区(UTR)的结构对基因表达的影响\nRNA二级结构中的基本结构螺旋区(helicalregions):稳定发卡环(hairpinloop):不稳定内部环(interiorloop):不稳定膨胀圈(bulgeloop):不稳定多分支环(multibranchloop):不稳定评价指标:自由能\n\nRNA二级结构自由能计算RNA二级结构自由能=各个基本结构的自由能之和基本结构的自由能由自由能计分系统确定具体计算方法见:军事医学科学院院刊,1995,19:293\n自由能计分系统\n自由能计算5`-AC-3`-1.85`-CG-3`-3.43`-UG-5`3`-GC-5`5`-GU-3`-1.8H(4,10)=4.43`-CA-5`TotalG=-1.8-3.4-1.8+4.4=-2.6(Kcal/Mol)\nRNA二级结构预测方法分类DynamicprogrammingalgorithmsKineticfoldingalgorithmsGeneticalgorithmsComparativemethodsHiggs.QuarterlyReviewsofBiophysics33:199-253,2000\nDynamicprogrammingalgorithms基于自由能计分系统,以最低自由能为目标函数,首先采用迭代方法求出所有可能子片断的二级结构自由能,再用回归方法求出RNA序列的最低自由能结构。Maximummatchingmodel(Nussinovetal.1980)Minimumfreeenergy(Zuker,NAR1981)\nZuker’sMinimumfreeenergyV(i,j)表示i与j配对时的子片断最低自由能;W(i,j)表示不论i与j配对与否时的子片断最低自由能;基于W,寻找多分枝环,基于V,寻找分枝环的结构。\nKineticfoldingalgorithms鉴于RNA的二级结构最终是由若干个螺旋区组合而成,所以RNA二级结构的预测目标就是想办法找出有关的螺旋区。动力学折叠算法的主要思想就是沿着自由能降低的折叠方向,以最低自由能为目标函数,去模拟RNA二级结构。\n如果不考虑所有可能的折叠路径,尽管动力学折叠算法以最低自由能为目标去模拟RNA二级结构,并不能保证最终获得的结构为最低自由能结构。\nGeneticalgorithms遗传算法,本质上是一种模仿生物进化的优化算法,对一个复杂问题,如果没有数学上严格的最优解获得办法,可用遗传算法来获得比较优化的解,但并没有严格的数学证明,保证获得的解是最优解,从这个意义上讲,是Monte-Carlo模拟方法的特殊情况。\n对RNA二级结构预测来说,由于已有动态编程算法来求RNA的最低自由能结构,所以,可视遗传算法为动力学折叠算法的一种。\nComparativemethods基本假定:来自不同物种的RNA序列如Phe-tRNA序列,如果它们拥有相同的功能,那么这些序列就应该拥有相同或类似的结构。因此,必须有多个相关的序列,方可使用此方法来研究RNA二级结构预测。\n收集来自不同物种的具有相同功能的RNA序列多序列比较识别所有可能的螺旋区,并按一定的计分方法排序RNA二级结构的组装Juan(JMB,1999,289:935只要有5个序列即可。排序的指标:自由能和保守性;Likelihood-ratiotest.将排序后的螺旋区依次加入到RNA二级结构中去,直至形成一个稳定结构比较方法预测RNA二级结构流程\n两种最低自由能预测方法比较Zuker的动态规划算法与Pipas的螺旋区组合算法均可以用来求最低自由能结构,在多数情况下,结果是一致的,导致不一致的原因有:在Pipas算法中,通常只考虑全长的螺旋区,而对其子螺旋区不予考虑,在有些情况下,可能是其子螺旋区在最终的最低自由能结构中。在Zuker算法中,是以单点配对为基础来求最低自由能结构,而在最终的最低自由能结构中,要将之过滤掉。\n哪一个结构最好无论是改进的Zuker算法(MFOLD),还是螺旋区组合类算法,对一个特定的RNA序列来说,均可以求出多个RNA二级结构,如果不考虑实验数据,究竟哪一个结构比较合理?目前,一般认为由比较方法求出的结构比较合理。但如果没有相关的序列数据,如何寻找合理的结构?\n我们的工作\n螺旋区每个螺旋区H(S,E,L)用三个参数表示:S:螺旋区起点;E:螺旋区终点;L:螺旋区长度\n一级螺旋区概念设有一个RNA序列,长度为N,Hk(Sk,Ek,Lk)(k=1,2,…,n)为区间[i,j](1≤i