练习:使用 NCBI 与 CNGB 网站做在线序列比对
本页为动手练习指南:在浏览器中分别对核酸与蛋白做一次在线 BLAST,并比较 NCBI BLAST 与 CNGBdb BLAST 的流程与结果。示例序列来自 CNGBdb 数据资源(与 GenBank 同源),可在源页面核对元数据。
一、练习说明
- 目标:
① 使用 BLASTN 检索核酸记录 LC656365.1(人源 ACE2 基因部分 CDS,129 bp);
② 使用 BLASTP 检索蛋白记录 BAB40370.1(ACE2[Homo sapiens],805 aa)。
两条查询均在 NCBI 与 CNGBdb 各运行一次,并记录关键结果。 - 环境:浏览器即可;若站点响应慢可更换网络或错峰重试。
- 安全提示:勿在公开平台提交未发表或涉密序列;本练习仅使用页面提供的公开序列。
二、实验准备
2.1 核酸序列(BLASTN)
记录 LC656365.1:CNGBdb 序列页(Homo sapiens ACE2 gene … partial cds,DNA,129 bp)。下面为可复制的 FASTA(与 NCBI/GenBank 一致):
>LC656365.1 Homo sapiens ACE2 gene for angiotensin converting enzyme 2, partial cds
ATGAGCACCATCTACAGTACTGGAAAAGTTTGTAACCCAGATAATCCACAAGAATGCTTATTACTTGAAC
CAGGTAGGCTACTAATTTTTAGTAGTGATTATGAAATTTACTTTTCTCTCAGATTTTAA
2.2 蛋白序列(BLASTP)
记录 BAB40370.1:CNGBdb 序列页(ACE2[Homo sapiens],蛋白质,805 aa)。下面为可复制的 FASTA:
>BAB40370.1 ACE2 [Homo sapiens]
MSSSSWLLLSLVAVTAAQSTIEEQAKTFLDKFNHEAEDLFYQSSLASWNYNTNITEENVQNMNNAGDKWSAFLKEQSTLAQMYPLQEIQNLTVKLQLQALQQNGSSVLSEDKSKRLNTILNTMSTIYSTGKVCNPDNPQE
CLLLEPGLNEIMANSLDYNERLWAWESWRSEVGKQLRPLYEEYVVLKNEMARANHYEDYGDYWRGDYEVNGVDGYDYSRGQLIEDVEHTFEEIKPLYEHLHAYVRAKLMNAYPSYISPIGCLPAHLLGDMWGRFWTNLYS
LTVPFGQKPNIDVTDAMVDQAWDAQRIFKEAEKFFVSVGLPNMTQGFWENSMLTDPGNVQKAVCHPTAWDLGKGDFRILMCTKVTMDDFLTAHHEMGHIQYDMAYAAQPFLLRNGANEGFHEAVGEIMSLSAATPKHLKS
IGLLSPDFQEDNETEINFLLKQALTIVGTLPFTYMLEKWRWMVFKGEIPKDQWMKKWWEMKREIVGVVEPVPHDETYCDPASLFHVSNDYSFIRYYTRTLYQFQFQEALCQAAKHEGPLHKCDISNSTEAGQKLFNMLRL
GKSEPWTLALENVVGAKNMNVRPLLNYFEPLFTWLKDQNKNSFVGWSTDWSPYADQSIKVRISLKSALGDRAYEWNDNEMYLFRSSVAYAMRQYFLKVKNQMILFGEEDVRVANLKPRISFNFFVTAPKNVSDIIPRTEV
EKAIRMSRSRINDAFRLNDNSLEFLGIQPTLGPPNQPPVSIWLIVFGVVMGVIVVGIVILIFTGIRDRKKKNKARSGENPYASIDISKGENNPGFQNTDDVQTSF
- NCBI BLAST:blast.ncbi.nlm.nih.gov
- CNGBdb BLAST:db.cngb.org/blast
三、任务 A:NCBI 在线 BLAST
入口:NCBI BLAST(blast.ncbi.nlm.nih.gov)。首页按序列类型分别进入 Nucleotide BLAST(BLASTN)与 Protein BLAST(BLASTP),与 CNGBdb 命名习惯一致。
A.1 入口与程序选择
- 在浏览器打开上述 NCBI BLAST 首页。
- 核酸任务使用 Nucleotide BLAST,蛋白任务使用 Protein BLAST;建议先完成 BLASTN,再新开或返回首页进入 BLASTP,避免混用查询类型。
A.2 核酸:BLASTN(LC656365.1)
- 进入 Nucleotide BLAST(BLASTN)页面。
- 将 LC656365.1 的 FASTA 粘贴到查询框。
- 数据库可先保持默认(如
nr或页面推荐集合),运行并记录最优命中是否指向 ACE2 / 同源基因及统计量。 - 视频教程:NCBI BLASTN 操作演示(MP4)
A.3 蛋白:BLASTP(BAB40370.1)
- 进入 Protein BLAST(BLASTP)页面。
- 将 BAB40370.1 的 FASTA 粘贴到查询框。
- 使用默认蛋白库运行,记录最优命中与关键参数;勿与 BLASTN 页面混淆。
四、任务 B:CNGBdb 在线 BLAST
入口:CNGBdb BLAST。程序命名与 NCBI 习惯一致:核酸用 BLASTN,蛋白用 BLASTP。
B.1 入口与程序选择
- 打开上述 BLAST 页面。
- 先选择 BLASTN,完成核酸任务后再切换到 BLASTP 做蛋白任务。
B.2 核酸:BLASTN(LC656365.1)
- 粘贴 2.1 节核酸 FASTA,选择合适核酸数据库(按页面选项或课程要求)。
- 提交运行,将结果与 NCBI BLASTN 对照(基因/Accession、排序差异等)。
- 视频教程:CNGBdb BLASTN 操作演示(MP4)
B.3 蛋白:BLASTP(BAB40370.1)
- 切换到 BLASTP,粘贴 2.2 节蛋白 FASTA。
- 提交运行,同样记录并与 NCBI BLASTP 结果对照。
- 若几乎无命中,检查是否误用 BLASTN、序列是否截断或含非法字符。
五、两个平台对比
核心结论:两平台在线 BLAST 均基于 NCBI BLAST+ 算法体系,局部比对模型、打分与显著性统计(如 E-value、比特分)及主要参数释义一致,比对结果的解读口径可通用。
系统性差异主要体现在:序列数据库的收录范围、更新策略与地域/项目侧重,以及 Web 检索界面、物种过滤与配套数据服务(API、批量与图形化展示等)——即计算内核同源,数据资源与服务平台不同构。
一、底层与算法:基本一致。CNGBdb BLAST 基于 NCBI BLAST+ 开源引擎(线上常见版本如 2.8.1 / 2.6.0);NCBI BLAST 为官方部署(版本更新更快,如 2.15.0 及以上)。两者均支持 blastn / blastp / blastx / tblastn / tblastx;核心参数(E-value、word size、identity、coverage、打分矩阵)含义相同;结果指标(E 值、一致性、覆盖度、比特分)解读规则一致,结果判定标准可以通用。
二、数据库(最关键差异)。
NCBI BLAST:数据库覆盖 GenBank / RefSeq / nr / nt / WGS / 16S / ITS / PATRIC 等全球公共库;规模约 30 亿条序列、3.5 PB 以上,全物种、全球提交;最全面、最权威、文献关联最强,冗余度高、更新极快(每日级),适合物种鉴定、同源查找、功能注释与全球比对。
CNGBdb BLAST:数据库以 CNGB 自身归档与测序项目库为主,来自中国团队、华大系、CNGB 测序项目、国家专项数据等;特色库包括 MacroBank、宏基因组、单细胞、植物/海洋/微生物专项、中国特有物种等;规模约 数亿条、数百 PB,以亚洲/中国样本、本土物种、独家测序数据为主;很多序列不在 NCBI 出现(中国独家数据);冗余较低、更新较慢(按月/季度);适合中国本土物种、CNGB 项目内数据、宏基因组与国产组学数据。
三、界面与功能对比。
| 维度 | NCBI BLAST | CNGBdb BLAST |
|---|---|---|
| 入口 | blast.ncbi.nlm.nih.gov | db.cngb.org/blast |
| 界面风格 | 经典、选项与参数丰富 | 相对简洁、中文友好、参数精简 |
| MegaBLAST | 有(高相似核酸常用) | 有(同类算法) |
| 物种过滤 | 强(完整 NCBI 分类体系) | 相对弱(CNGB 自有分类) |
| 结果图形 | 丰富(如 MapViewer、分类相关展示) | 基础图形、展示更简 |
| 批量 / API | 强(NCBI API、Entrez 等) | 有限(以平台内接口为主) |
| 多序列 / 批量 | 支持较好 | 支持,限制通常更严 |
| 访问体验 | 国际节点,高峰可能较慢 | 国内节点,国内访问常更快、更稳 |
四、适用场景(怎么选)。
- 更适合 NCBI BLAST:全球物种鉴定(细菌、真菌、动物等通用场景);查找已知功能基因、RefSeq、模式生物;需要文献关联、完整注释与跨库验证;撰写国际期刊、需标准参考序列支撑时。
- 更适合 CNGBdb BLAST:序列来自 CNGB/SRA 相关测序、华大平台或国内项目;研究中国特有物种、本土菌株与环境样本;希望优先比对国内已发布数据、控制冗余;追求国内网络速度与稳定性、减少访问障碍。
五、实战建议。优先双库互查:先用 NCBI nt/nr 做全球鉴定,再用 CNGBdb 查中国本土数据补漏。结果解读完全一样:可看 E-value < 1e-10、Identity ≥ 97%(16S 等场景常用经验)、Query cover ≥ 90% 等(具体阈值需结合序列类型与课题要求)。国内数据优先 CNGB:速度常更快、数据更贴合本土样本、访问更稳。
六、一句话总结。算法同源、指标通用;NCBI 侧重全球最全与权威通用;CNGBdb 侧重中国数据、本土项目与国内访问体验。
六、作业与拓展
- 必做:对 LC656365.1 与 BAB40370.1 各写一行小结:在 NCBI 与 CNGBdb 上第一条命中的标题(或 Accession)与 E-value 是否一致,若不一致简述可能原因(库范围、版本、注释差异等)。
- 选做:在 CNGBdb 源序列页查看两条记录的谱系(Lineage)与分子类型,对照 BLAST 结果中的物种信息。
- 拓展阅读:教程 · 序列比对(NCBI 详解)。