引言
北京时间2026年1月28日,浙江大学沈星星教授课题组联合中国科学院分子植物科学卓越创新中心王四宝研究员课题组和华南农业大学周筱帆教授课题组在Cell Research期刊发表题为“Structural genomics sheds light on protein functions and remote homologs across the insect tree of life”的研究论文。该研究整合了公开发表的4854个昆虫组学大数据,构建了目前物种覆盖范围最广的昆虫生命之树;基于该“昆虫生命之树2.0”框架,成功构建了一个跨越整个昆虫演化历史的蛋白结构“宇宙”。通过深入解析该蛋白结构“宇宙”,研究发现大量昆虫的蛋白一级序列存在显著差异,但其三级结构却高度相似。进一步分析揭示了先天免疫受体(cGAS-like receptor,cGLR)具有广泛且长期结构保守的分布模式,并首次鉴定出蚊虫中存在cGLR,进一步通过实验验证发现埃及伊蚊的cGLR在抗登革热和寨卡病毒中发挥重要作用。基于此,研究团队提出“蛋白序列分化-结构保守-功能等价”的应用新范式。

背景
昆虫起源于约4.8亿年前,是地球上最繁盛的动物类群之一。至今已描述的昆虫物种超过100万种,占所有动物物种的50%以上。这一古老类群在发育可塑性(如完全变态)、复杂社会行为(如真社会性)、生态功能(如传粉)等方面展现出独特的演化创新,为解析生命多样性机制提供了理想模型。
理解昆虫在形态创新、生态适应和行为复杂化等方面的演化机制,重要的基础之一是对基因功能的准确解析。在比较基因组学领域,基于序列的同源性搜索,是蛋白质功能注释中长期依赖的核心方法。然而,当蛋白在演化过程中发生剧烈分化导致序列相似性显著下降时,基于序列的方法往往难以识别远缘同源关系,限制了对蛋白功能的全面理解。例如,模式生物黑腹果蝇依然包含超2000个功能未知“暗物质”基因。

图1 结构比对揭示远缘同源关系。尽管两个蛋白在氨基酸序列层面差异显著(序列相似度仅为0.16),其三维结构却高度一致(结构相似度TM-score为0.82),呈现出相同的折叠框架。这一对比表明,蛋白结构在演化过程中往往比序列更加保守,结构比对因此能够识别序列方法难以检测到的远缘同源关系。
基于生物学中经典的序列-结构-功能范式,蛋白质的三维结构在演化过程比其氨基酸序列更为保守,也与分子功能更为直接关联。从蛋白结构层面探索这些序列难以识别、长期处于 “暗物质” 基因的功能及其演化规律,成为一种极具潜力的研究策略(图1)。本研究基于人工智能的蛋白结构预测方法,对代表性昆虫物种的蛋白质组开展了前所未有规模的结构预测,构建了一个涵盖超过1300万个蛋白的昆虫结构图谱,并揭示了大量此前未知的蛋白功能及其深层次的演化规律。该研究建立了首个系统性的蛋白结构基因组学研究范式,为解析蛋白功能与演化提供重要的基石。
正文
昆虫生命之树2.0
理解昆虫的演化历程,离不开一个覆盖主要类群、结构稳健的系统发育框架。当前被广泛采用的昆虫系统发育格局,主要源自Misof等人2014年在Science的里程碑式研究。该研究基于126个昆虫物种,首次建立了较为完整的昆虫纲系统发育关系,对后续研究产生了深远影响。十年之后,本研究团队整合了来自17个公开数据库的昆虫基因组与转录组数据,重建了一棵昆虫的高分辨率系统发育树(图2)。该昆虫生命之树2.0包含4854种昆虫,并覆盖全部28个目[1, 2]。在Misof等人研究中支持度有限的关键分支,在本研究中获得了更为稳定的解析。这棵稳定且分辨率高的昆虫生命之树,不仅为后续基于蛋白质结构的比较与演化分析提供了可靠的基因组系统发育背景,也为相关领域研究奠定了更加稳固的框架基础。

图2 基于来自17个公开数据库的大规模数据集重建了一棵迄今为止物种取样最为广泛的昆虫系统发育树。这张昆虫生命之树汇集了4854种昆虫,824个基因的分子信息,涵盖了所有昆虫目以及几乎所有主要昆虫类群,呈现出这一古老类群在漫长演化历程中的分化格局。
昆虫蛋白结构图谱
在这棵昆虫生命之树2.0之上,研究团队综合考虑数据质量与物种多样性,从中选取了824个具有代表性的昆虫物种,作为结构研究的基础。通过整合公共数据库中已有的蛋白结构数据,并利用基于人工智能的结构预测工具对尚无公开结构的蛋白结构进行预测,最终构建了一个包含1329万个蛋白结构的综合数据集(图3a)。这一覆盖广泛演化谱系的结构图谱,为从蛋白结构角度理解昆虫蛋白功能的起源与演化,提供了前所未有的视角。为探究昆虫蛋白结构的多样性,研究团队进一步对海量昆虫蛋白结构进行聚类分析,结合结构预测置信度分数分布的观察,最终选择约8.7万个高质量蛋白结构簇,进行后续分析。通过我们的方法所甄别出的高质量结构簇,其特征稳健:其中低置信度结构、短序列与无序蛋白的占比明显低。这一结果也为以往的相关结论提供了新的有力佐证(图3b)[3]。通过比较蛋白结构基因组学分析,表明这些蛋白结构家族成员之间具有显著的同源性(图3c~d)。相比之下,在相同参数条件下进行的序列分析将这些蛋白拆分为多个彼此差异明显的小簇。这一对比表明,尽管氨基酸序列在演化过程中可能发生显著分化,蛋白质的三维结构仍保留着相似性,从而为识别功能与同源关系提供了更加稳健的依据。

图3 昆虫蛋白结构图谱的构建与总体特征。a,昆虫蛋白结构图谱的构建流程示意。b,小型结构簇(成员数<10)与大型结构簇(成员数≥10)中蛋白质特征的组成比较。c,大型结构簇内部结构相似性分布。d,大型结构簇在系统发育尺度上的分布。
结构视角下的远缘同源
为了进一步理解这些结构簇所蕴含的生物学意义,研究团队建立了一套基于蛋白三维结构的功能注释流程。通过与功能已知的蛋白结构库进行系统比对,研究成功揭示了78.2%的结构簇获得了精准的功能注释。值得注意的是,其中有14.4%的蛋白无法通过传统序列同源方法获得功能信息。这些蛋白往往长期处于功能未知状态,属于蛋白质组中的“暗物质”,而结构相似性为解析其潜在功能提供了新的线索(图4b)。结构注释结果显示,这些蛋白并非在生物学上无足轻重,而是参与了多种关键生命过程。部分被注释的蛋白与程序性细胞死亡、毒素作用等过程相关,甚至提示了潜在的基因编辑功能。为追溯这些功能注释的来源,研究进一步从每个结构簇代表蛋白的最佳匹配结构中提取物种分类信息。结果表明,功能信息广泛来源于动物、真菌、植物、细菌及古菌等多个类群,其中相当一部分来自非昆虫的模式物种(如人、小鼠等,图4a)。这一现象提示,结构相似性能够跨越较大的系统发育距离,连接分子功能在不同类群中的保守线索。

图4 蛋白功能精准注释。
a,功能注释来源生物类群的统计。远缘物种的功能已知蛋白为昆虫蛋白精准注解提供了重要的资源。b,三个通过结构比对获得功能注释的代表性示例。每个案例中,上方为来源于昆虫的未知功能蛋白结构(黄色),下方为其在结构与功能数据库中的最佳匹配结构(紫色)。尽管这些蛋白在序列层面差异显著,结构相似性仍表明它们共享相似折叠,从而揭示了潜在的功能。
研究团队进一步聚焦于远缘同源关系的鉴定(图5a~b)。研究团队将序列相似度低于0.25且结构相似性高于0.5的蛋白对定义为远缘同源物:前者代表序列层面已难以检测到同源信号,后者则表明两者仍共享相同或相近的三维折叠[4~6]。在这一标准下,研究团队在昆虫中鉴定出约7.5亿对远缘同源蛋白。这些蛋白在氨基酸序列上高度分化,却在结构层面保持稳定的相似性。功能分析显示,这些远缘同源蛋白多参与细胞过程、信号调控、刺激响应、细胞定位及发育等关键生物学功能(图5c)。演化层面的追溯进一步揭示,在包含远缘同源关系的结构簇中,有34.1%的簇可追溯至昆虫生命之树的根部,62.6%的簇起源于不同目之间的共同祖先,仅有3.3%的簇形成于较近的目内分化阶段。这一分布格局表明,大量远缘同源关系在昆虫漫长的演化历史中持续保留至今。

图5 结构比对揭示昆虫生命之树中的广泛远缘同源关系。a,一对远缘同源蛋白的示例。尽管两者氨基酸序列相似性低于0.25,已难以通过传统序列方法识别同源性,但其三维结构仍高度相似。b,含远缘同源蛋白的12308个结构簇分布情况。c,存在远缘同源关系的12308个结构簇参与的主要(前十位)GO功能类别。
先天免疫受体在昆虫中广泛存在
先天免疫受体cGAS最初在哺乳动物中被发现,随后在模式生物黑腹果蝇中鉴定出与其对应的受体(cGAS-like receptor,以下简称cGLR)。值得注意的是,由于序列差异较大,过去在其它昆虫中未能识别出与果蝇cGLR相对应的同源基因。因此,领域内的研究者普遍认为,包括蚊子在内的其它昆虫体内并不存在先天免疫受体cGLR。研究团队注意到,在昆虫纲内高度保守的一个结构簇中,远缘同源蛋白对比例最高。这个簇中不仅包含了两个来源于果蝇的先天免疫受体蛋白cGLRs,还鉴定到了来自埃及伊蚊等所有其它昆虫的同源蛋白(图6a)。基于这一结构线索,研究团队进一步对埃及伊蚊中识别出的两个cGLRs同源蛋白进行了功能验证。
实验结果表明,敲降埃及伊蚊体内的cGLRs会显著提高登革热病毒和寨卡病毒的感染水平。而在细胞中过表达cGLRs则明显抑制这两种病毒的复制,这显示这些受体在埃及伊蚊的抗病毒免疫中发挥着重要作用(图6b~c)。此外,生化与细胞实验揭示,cGLR能够激活抗病毒基因的表达,并产生环状二核苷酸信号分子2′3′-cGAMP。进一步的体内实验表明,在埃及伊蚊体内注射该信号分子可以增强其抗病毒能力(图6d~e)。
综合结构分析与功能实验结果可以看出,埃及伊蚊中的cGLR与果蝇cGLR在功能上具有一致性,可以感知RNA病毒并产生第二信使,介导先天免疫反应。结构层面揭示的远缘同源关系,为理解这一古老免疫机制在昆虫中的广泛保守性提供了关键线索,也为未来针对媒介昆虫的干预策略提供了新的潜在分子靶点。

图6 埃及伊蚊cGLRs的结构保守性及其抗病毒功能验证。a,人cGAS、果蝇cGLR1/2与埃及伊蚊cGLR1/2的蛋白结构比较及序列比对。尽管序列相似性非常低,但蛋白在三维结构层面表现出高度相似性。b,敲降埃及伊蚊cGLRs对其感染登革病毒和寨卡病毒阳性率(%)的影响。c,在C6/36细胞中过表达埃及伊蚊cGLRs对DENV和ZIKV感染的影响。d,两种埃及伊蚊cGLRs对双链RNA类似物poly(I:C)的响应。e,在埃及伊蚊体内注射2′3′-cGAMP后对DENV和ZIKV感染水平的影响。
研究意义
近年来,人工智能驱动的蛋白结构预测技术迅速发展,使蛋白质三维结构以前所未有的规模进入生命科学研究领域。如何系统利用这些蛋白结构,仍是一个崭新的研究方向。本研究以昆虫这一物种多样性极其丰富、演化历史深远的类群为范式,首次在整个主要类群尺度上系统性描绘了蛋白结构图谱,建立了面向宏观演化问题的蛋白结构比较基因组学研究框架,为从蛋白结构层面理解蛋白功能的大规模演化提供了关键资源与方法学基础。在具体生物学层面,本研究揭示了先天免疫受体在昆虫中的广泛分布与深层结构保守性,并在埃及伊蚊中验证了其功能,为理解昆虫抗病毒免疫机制提供了新的分子线索,也为未来面向病原媒介昆虫的干预策略提供了潜在分子靶点。此外,为方便获得这些蛋白结构与其精准的功能信息,研究团队同步发布了在线数据库The Insect Protein Structure (TIPS) database(https://tips.shenxlab.com/)。
浙江大学博士生吴伟寅、朱逸骁和中国科学院分子植物科学卓越创新中心/华东师范大学研究员崔春来为共同第一作者。浙江大学沈星星教授、中国科学院分子植物科学卓越创新中心王四宝研究员和华南农业大学周筱帆教授为共同通讯作者。此外,陈学新教授、杨景华教授、蔡华教授、张国捷教授、潘荣辉研究员、陈云教授和陈景轩博士等给与了大力的支持。该研究受到了国家自然科学基金重点项目(32530086)和新基石研究员项目(NCI202328)等经费资助。
原文链接:https://www.nature.com/articles/s41422-026-01220-0
参考文献
[1] Misof, B. et al. Phylogenomics resolves the timing and pattern of insect evolution. Science 346, 763–767 (2014).
[2] Rainford, J. L., Hofreiter, M., Nicholson, D. B. & Mayhew, P. J. Phylogenetic distribution of extant richness suggests metamorphosis is a key innovation driving diversification in insects. PLoS One 9, e109085 (2014).
[3] Kim, R. S., Levy Karin, E., Mirdita, M., Chikhi, R. & Steinegger, M. BFVD—a large repository of predicted viral protein structures. Nucleic Acids Res. 53, D340–D347 (2025).
[4] Hamamsy, T. et al. Protein remote homology detection and structural alignment using deep learning. Nat. Biotechnol. 42, 975–985 (2024).
[5] Kilinc, M., Jia, K. & Jernigan, R. L. Improved global protein homolog detection with major gains in function identification. Proc. Natl. Acad. Sci. USA 120, e2211823120 (2023).
[6] Rost, B. Twilight zone of protein sequence alignments. Protein Eng. Des. Sel. 12, 85–94 (1999).
(昆虫科学研究所)