- 1.41 MB
- 2022-08-12 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
现代生物学实验技术生物信息与数据处理毛理凯本课件在安装微软雅黑字体后有最好效果【详细说明见jiaoan.htm】\n机房注意事项不得做课堂以外的事情,一经发现,立刻驱逐并记录通报。严禁随意设置、升级系统。将自己产生的垃圾带走;爱护机房设备。有问题通报老师。部分鼠标不好使,下面垫张白纸就可以了。注意脚不要踢到下面的线。仔细阅读教案,提问前先在本教案上找答案。2\n电脑操作相关事项登录开机自动进入Ubuntu系统(Linux的一个版本)后,输入用户名"owner"和密码"buxudong!"登录。复制教案(可选)点击菜单栏上的“Places/HomeFolder”打开文件查看器(FileBrowser;相当于Windows的资源管理器),如果没有看到jiaoan.ppt(或jiaoan.htm)文件,按照下列步骤复制。3\n如何复制教案(可选)打开终端窗口(双击桌面上的或单击菜单栏上的黑色Terminal按钮)。在终端窗口输入“scp192.168.0.1:/home/owner/jiaoan.htm.”后回车(注意最后有个点号),将拷贝教案文件(如有提示则按要求输入密码)。注意:在终端窗口输入密码不会有任何显示!!!(实际上密码已经输入,输完后回车即可)。回到文件查看器,找到并双击jiaoan.htm即可打开教案(或者先打开Firefox浏览器,从File/FileOpen菜单中找到该文件再打开)。4\n本课目录生物数据查询分子进化与系统分析5\n一、生物数据查询6\n网上查资料Google(“谷歌”)http://g.cn/7\nGoogle查询结果8\n查中文生物文献9\n查英文生物文献PubMed(pubmed.com)可编程10\n关键词的选择不是特殊情况,尽量使用名词原形,不使用复数、所有格等尽量使用专业用语,不使用the,of,and,research等常用词作为关键词为了减少遗漏,使用尽可能少而精的关键词11\nPubMed查询结果(1)–所有文章12\nPubMed查询结果(2)–综述文章保存搜索结果查看该文摘要13\n增加搜索选项14\n精确使用PubMed查找(高级搜索)标签(tag)字段(field)关键词(keyword)操作符(operator)检索条件(searchterms)15\n查找帮助(1)16\n查找帮助(2)17\nNCBI美国国家生物技术信息中心(NationalCenterforBiotechnologyInformation)前身是NIH所属的一个研究所的计算生物学研究室,1988年独立为NCBI,形式上属于国家医学图书馆(NationalLibraryofMedicine/NLM)管理着许多著名数据库,如GenBank、Medline、dbSNP、COG、OMIM等提供Entrez、BLAST等服务http://www.ncbi.nlm.nih.gov18\n国际核苷酸序列数据库联盟InternationalNucleotideSequenceDatabaseCollaboration(INSDC)包括GenBank[美]http://www.ncbi.nlm.nih.gov/GenbankEMBL[欧]http://www.ebi.ac.uk/embl/DDBJ[日]http://www.ddbj.nig.ac.jp/每天这三个数据库作数据同步操作在任何一个数据库操作(查找、投递数据等)是等效的19\nGenBank主页可编程20\nGenBank结构GenBank包括三个子数据库CoreNucleotidedbESTdbGSS其中CoreNucleotide还分为更小的BLAST数据库nrhtgswgsenv_nt21\nGenBank查询(1)已知收录号(accessionnumber)的情况选数据库输入收录号查询结果摘要点击查看详细结果不知收录号时,如要搜索人体中的解旋酶,可以在下拉框中选择“Nucleotide”后,输入“helicaseANDhuman[orgn]”(不要输入引号)22\n作业【作业一般性的要求参见附录一,本作业具体的要求见下。】题目用PubMed搜索你感兴趣的课题相关的序列或综述文献(review)。要求将搜到的文献/序列的基本信息(文献包括标题、杂志名、卷、期、页码、时间、作者,注意不要摘要;序列只要简单注释)上交。文献总篇数/序列总条数限制在20以内。如果超过20不列出超出的部分,只列出实际的总数。在步骤中说明你选择关键词和限制条件的理由。23\n二、分子进化与系统分析24\nFASTA序列格式也叫Pearson格式简单使用最多例子(单序列)>NameofthesequencectgcgagNcgcgcgatgatagMMM-NNNnnnnatgancgcggcgagcatgtagcatgctagctgtcgcgagcactUUUURRRrrrrrrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVvvvcgtaggcagccgcc“-”表示间隔25\n多序列FASTA>sequence1,E.colictgcgagNcgcgcgatgatagMMM-NNNngnnatgancgcggcgagcatgtagcatgctagctgtcgcgagcactUgaURRRrrrtrrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVagvcgtaggcagccgcc>sequence2,B.subtilisctgcgagNcgcgcgatgatagctgactNntnatganncgcggcgagcatgtagcatgctagctgtcgcgagcactUctURRRrrrcrrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVcgvcgtaggcagccgcc>sequence3,B.nattoctgcgagNcgcgcgatgatagMcgatcccnatgannncgcggcgagcatgtagcatgctagctgtcgcgagcactUggURRRrrrggrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVaavcgtaggcagccgcc26\nFASTA序列格式中的核苷酸表示法A腺嘌呤(adenosine)MA或C(amino)C胞嘧啶(cytidine)SG或C(strong)G鸟嘌呤(guanine)WA或T(weak)T胸腺嘧啶(thymidine)BG或T或CU尿嘧啶(uridine)DG或A或TRG或A(purine)HA或C或TYT或C(pyrimidine)VG或C或AKG或T(keto)NA或G或C或T(any)–不确定长度间隔27\nFASTA序列格式中的氨基酸表示法A丙(alanine)P脯(proline)BD或NQ谷氨酰胺(glutamine)C半胱(cystine)R精(arginine)D天冬(asparticacid)S丝(serine)E谷(glutamicacid)T苏(threonine)F苯丙(phenylalanine)U硒代半胱(selenocysteine)G甘(glycine)V缬(valine)H组(histidine)W色(tryptophan)I异亮(isoleucine)Y酪(tyrosine)K赖(lysine)ZE或QL亮(leucine)X任何氨基(any)M甲硫(methionine)*翻译终止(translationstop)N天冬酰胺(asparagine)–不确定长度间隔28\n如何用PubMed找蛋白(BLAST第一步)选Protein输入关键词选一个蛋白29\nblastp(1)–BLAST主页点此进入blastp起始页30\nblastp(2)–blastp起始页在这里输入要搜索的蛋白质的收录号(accessionnumber)或序列点此开始搜索如果要限制搜索的物种(如水稻),可在"Organism"处输入"Oryzasativa"(水稻的拉丁名)31\n点此看结果blastp(3)–提交后页面32\nblastp(4)–结果页(1.基本信息)33\nblastp(5)–结果页(2.比对图)34\nblastp(6)–结果页(3.高分序列)35\nblastp(7)–结果页(4.高分序列详细结果)consensus36\n比对(MEGA)37\n比对38\n比对39\n建树(MEGA)关闭比对窗口后自动弹出对话框40\n建树41\n作业【作业一般性的要求参见附录一,本作业具体的要求见下。】搜索你所感兴趣的蛋白及其同源物的序列(序列不超过20条),分析这些序列之间的进化关系,建立系统树。将树输出为(File/Export;相当于另存为)Newick格式,将输出的nwk文件的内容(例子见下)复制在作业正文内(不要贴图)。并对结果进行解释。【Newick树例子】((gi|42673|emb|CAA23618.1|_recA_gene_pr...,gi|86449963|gb|ABC96175.1|_RecA_prote...)0.18,(gi|37362719|gb|AAQ91336.1|_RecA_Esche...,gi|86449965|gb|ABC96176.1|_RecA_prote...)0.21,gi|86449967|gb|ABC96177.1|_RecA_prote...);42\n附录一作业一般性的要求请严格按照要求(包括一般性和具体要求)做作业,这些要求将作为打分的重要依据。任选以上作业之一上交。作业要包括详细完成步骤,其中的所有引用或用到的网页/文献请注明网址或出处。作业请在第8周(4月19日)之前在online.ncu.edu.cn上交。43\n附录二常见问题集什么是文件的扩展名?怎样才能看到扩展名?扩展名是文件名末尾点号(.)后面的部分,如文件"实验报告.doc"的扩展名是doc。缺省情况下,WindowsXP会(Linux一般不会)隐藏已知的文件扩展名。要想看到扩展名,打开资源管理器,点击菜单项"工具/文件夹选项",选择"查看"标签,去掉"隐藏已知文件类型的扩展名"复选框即可。什么是纯文本文件?什么是二进制文件?纯文本文件一般也叫文本文件。一个简单的判断文本文件的方法:用记事本(Windows下)或gedit(Linux下)打开这个文件,能够阅读的为纯文本文件,不能阅读的为二进制文件。另一个方法,由扩展名判断。常见的纯文本文件有:文本文件(txt)、网页文件(htm,html)等;常见的二进制文件有:Word文件(doc)、PowerPoint文件(ppt)、Excel文件(xls)、图形文件(jpg,gif,png,..)、音频文件(wav,mp3,..)、视频文件(avi,wmv,rm,rmvb,mov,..)、可执行文件(exe)等。Linux下如何编辑纯文本文件?在终端窗口输入命令"gedit&"(不要引号),再回车即可。44\n完45