练习:使用 NCBI 与 CNGB 网站做在线序列比对

本页为动手练习指南:在浏览器中分别对核酸蛋白做一次在线 BLAST,并比较 NCBI BLASTCNGBdb BLAST 的流程与结果。示例序列来自 CNGBdb 数据资源(与 GenBank 同源),可在源页面核对元数据。

一、练习说明

  • 目标
    ① 使用 BLASTN 检索核酸记录 LC656365.1(人源 ACE2 基因部分 CDS,129 bp);
    ② 使用 BLASTP 检索蛋白记录 BAB40370.1(ACE2[Homo sapiens],805 aa)。
    两条查询均在 NCBI 与 CNGBdb 各运行一次,并记录关键结果。
  • 环境:浏览器即可;若站点响应慢可更换网络或错峰重试。
  • 安全提示:勿在公开平台提交未发表或涉密序列;本练习仅使用页面提供的公开序列。

二、实验准备

2.1 核酸序列(BLASTN)

记录 LC656365.1CNGBdb 序列页Homo sapiens ACE2 gene … partial cds,DNA,129 bp)。下面为可复制的 FASTA(与 NCBI/GenBank 一致):

>LC656365.1 Homo sapiens ACE2 gene for angiotensin converting enzyme 2, partial cds
ATGAGCACCATCTACAGTACTGGAAAAGTTTGTAACCCAGATAATCCACAAGAATGCTTATTACTTGAAC
CAGGTAGGCTACTAATTTTTAGTAGTGATTATGAAATTTACTTTTCTCTCAGATTTTAA

2.2 蛋白序列(BLASTP)

记录 BAB40370.1CNGBdb 序列页(ACE2[Homo sapiens],蛋白质,805 aa)。下面为可复制的 FASTA:

>BAB40370.1 ACE2 [Homo sapiens]
MSSSSWLLLSLVAVTAAQSTIEEQAKTFLDKFNHEAEDLFYQSSLASWNYNTNITEENVQNMNNAGDKWSAFLKEQSTLAQMYPLQEIQNLTVKLQLQALQQNGSSVLSEDKSKRLNTILNTMSTIYSTGKVCNPDNPQE
CLLLEPGLNEIMANSLDYNERLWAWESWRSEVGKQLRPLYEEYVVLKNEMARANHYEDYGDYWRGDYEVNGVDGYDYSRGQLIEDVEHTFEEIKPLYEHLHAYVRAKLMNAYPSYISPIGCLPAHLLGDMWGRFWTNLYS
LTVPFGQKPNIDVTDAMVDQAWDAQRIFKEAEKFFVSVGLPNMTQGFWENSMLTDPGNVQKAVCHPTAWDLGKGDFRILMCTKVTMDDFLTAHHEMGHIQYDMAYAAQPFLLRNGANEGFHEAVGEIMSLSAATPKHLKS
IGLLSPDFQEDNETEINFLLKQALTIVGTLPFTYMLEKWRWMVFKGEIPKDQWMKKWWEMKREIVGVVEPVPHDETYCDPASLFHVSNDYSFIRYYTRTLYQFQFQEALCQAAKHEGPLHKCDISNSTEAGQKLFNMLRL
GKSEPWTLALENVVGAKNMNVRPLLNYFEPLFTWLKDQNKNSFVGWSTDWSPYADQSIKVRISLKSALGDRAYEWNDNEMYLFRSSVAYAMRQYFLKVKNQMILFGEEDVRVANLKPRISFNFFVTAPKNVSDIIPRTEV
EKAIRMSRSRINDAFRLNDNSLEFLGIQPTLGPPNQPPVSIWLIVFGVVMGVIVVGIVILIFTGIRDRKKKNKARSGENPYASIDISKGENNPGFQNTDDVQTSF
建议事先打开的标签页
练习记录
对每条查询分别记录:程序(BLASTN / BLASTP)、数据库名、最优命中 AccessionIdentityQuery coverE-value;并简要对比 NCBI 与 CNGBdb 第一条命中是否一致及可能原因。

三、任务 A:NCBI 在线 BLAST

入口:NCBI BLASTblast.ncbi.nlm.nih.gov)。首页按序列类型分别进入 Nucleotide BLAST(BLASTN)与 Protein BLAST(BLASTP),与 CNGBdb 命名习惯一致。

A.1 入口与程序选择

  1. 在浏览器打开上述 NCBI BLAST 首页。
  2. 核酸任务使用 Nucleotide BLAST,蛋白任务使用 Protein BLAST;建议先完成 BLASTN,再新开或返回首页进入 BLASTP,避免混用查询类型。

A.2 核酸:BLASTN(LC656365.1)

  1. 进入 Nucleotide BLAST(BLASTN)页面。
  2. LC656365.1 的 FASTA 粘贴到查询框。
  3. 数据库可先保持默认(如 nr 或页面推荐集合),运行并记录最优命中是否指向 ACE2 / 同源基因及统计量。
  4. 视频教程NCBI BLASTN 操作演示(MP4)

A.3 蛋白:BLASTP(BAB40370.1)

  1. 进入 Protein BLAST(BLASTP)页面。
  2. BAB40370.1 的 FASTA 粘贴到查询框。
  3. 使用默认蛋白库运行,记录最优命中与关键参数;勿与 BLASTN 页面混淆。

四、任务 B:CNGBdb 在线 BLAST

入口:CNGBdb BLAST。程序命名与 NCBI 习惯一致:核酸用 BLASTN,蛋白用 BLASTP

B.1 入口与程序选择

  1. 打开上述 BLAST 页面。
  2. 先选择 BLASTN,完成核酸任务后再切换到 BLASTP 做蛋白任务。

B.2 核酸:BLASTN(LC656365.1)

  1. 粘贴 2.1 节核酸 FASTA,选择合适核酸数据库(按页面选项或课程要求)。
  2. 提交运行,将结果与 NCBI BLASTN 对照(基因/Accession、排序差异等)。
  3. 视频教程CNGBdb BLASTN 操作演示(MP4)

B.3 蛋白:BLASTP(BAB40370.1)

  1. 切换到 BLASTP,粘贴 2.2 节蛋白 FASTA。
  2. 提交运行,同样记录并与 NCBI BLASTP 结果对照。
  3. 若几乎无命中,检查是否误用 BLASTN、序列是否截断或含非法字符。

五、两个平台对比

核心结论:两平台在线 BLAST 均基于 NCBI BLAST+ 算法体系,局部比对模型、打分与显著性统计(如 E-value、比特分)及主要参数释义一致,比对结果的解读口径可通用

系统性差异主要体现在:序列数据库的收录范围、更新策略与地域/项目侧重,以及 Web 检索界面、物种过滤与配套数据服务(API、批量与图形化展示等)——即计算内核同源,数据资源与服务平台不同构。

一、底层与算法:基本一致。CNGBdb BLAST 基于 NCBI BLAST+ 开源引擎(线上常见版本如 2.8.1 / 2.6.0);NCBI BLAST 为官方部署(版本更新更快,如 2.15.0 及以上)。两者均支持 blastn / blastp / blastx / tblastn / tblastx;核心参数(E-value、word size、identity、coverage、打分矩阵)含义相同;结果指标(E 值、一致性、覆盖度、比特分)解读规则一致,结果判定标准可以通用。

二、数据库(最关键差异)。

NCBI BLAST:数据库覆盖 GenBank / RefSeq / nr / nt / WGS / 16S / ITS / PATRIC 等全球公共库;规模约 30 亿条序列、3.5 PB 以上,全物种、全球提交;最全面、最权威、文献关联最强,冗余度高、更新极快(每日级),适合物种鉴定、同源查找、功能注释与全球比对。

CNGBdb BLAST:数据库以 CNGB 自身归档与测序项目库为主,来自中国团队、华大系、CNGB 测序项目、国家专项数据等;特色库包括 MacroBank、宏基因组、单细胞、植物/海洋/微生物专项、中国特有物种等;规模约 数亿条数百 PB,以亚洲/中国样本、本土物种、独家测序数据为主;很多序列不在 NCBI 出现(中国独家数据);冗余较低、更新较慢(按月/季度);适合中国本土物种、CNGB 项目内数据、宏基因组与国产组学数据。

三、界面与功能对比。

维度 NCBI BLAST CNGBdb BLAST
入口 blast.ncbi.nlm.nih.gov db.cngb.org/blast
界面风格 经典、选项与参数丰富 相对简洁、中文友好、参数精简
MegaBLAST 有(高相似核酸常用) 有(同类算法)
物种过滤 强(完整 NCBI 分类体系) 相对弱(CNGB 自有分类)
结果图形 丰富(如 MapViewer、分类相关展示) 基础图形、展示更简
批量 / API 强(NCBI API、Entrez 等) 有限(以平台内接口为主)
多序列 / 批量 支持较好 支持,限制通常更严
访问体验 国际节点,高峰可能较慢 国内节点,国内访问常更快、更稳

四、适用场景(怎么选)。

  • 更适合 NCBI BLAST:全球物种鉴定(细菌、真菌、动物等通用场景);查找已知功能基因、RefSeq、模式生物;需要文献关联、完整注释与跨库验证;撰写国际期刊、需标准参考序列支撑时。
  • 更适合 CNGBdb BLAST:序列来自 CNGB/SRA 相关测序、华大平台或国内项目;研究中国特有物种、本土菌株与环境样本;希望优先比对国内已发布数据、控制冗余;追求国内网络速度与稳定性、减少访问障碍。

五、实战建议。优先双库互查:先用 NCBI nt/nr 做全球鉴定,再用 CNGBdb 查中国本土数据补漏。结果解读完全一样:可看 E-value < 1e-10、Identity ≥ 97%(16S 等场景常用经验)、Query cover ≥ 90% 等(具体阈值需结合序列类型与课题要求)。国内数据优先 CNGB:速度常更快、数据更贴合本土样本、访问更稳。

六、一句话总结。算法同源、指标通用;NCBI 侧重全球最全与权威通用;CNGBdb 侧重中国数据、本土项目与国内访问体验。

六、作业与拓展

  • 必做:对 LC656365.1BAB40370.1 各写一行小结:在 NCBI 与 CNGBdb 上第一条命中的标题(或 Accession)与 E-value 是否一致,若不一致简述可能原因(库范围、版本、注释差异等)。
  • 选做:在 CNGBdb 源序列页查看两条记录的谱系(Lineage)与分子类型,对照 BLAST 结果中的物种信息。
  • 拓展阅读教程 · 序列比对(NCBI 详解)