过氧化物酶体(Peroxisome)是与真核生物的生长、发育以及抗逆密切相关的多功能细胞器。在植物中,过氧化物酶体负责脂质动员、光呼吸、激素合成、活性氧清除等,对植物的发芽、光合、育性、抗性等生理过程均至关重要(Pan et al., 2019, 2020)。植物过氧化物酶体的一大特征是其高度多样化的蛋白组成和代谢网络,具有明显的物种特异性,且因发育阶段的不同和环境的变化而存在差异(Pan et al., 2019, 2020)。当前植物过氧化物酶体的代谢功能研究大部分局限于少量双子叶植物,在包括水稻等禾本科植物在内的大部分作物物种中还远未被完全认知。此外,植物和酵母的过氧化物酶体在面向生物制造和农业的细胞器代谢工程研究中也表现出独特优势(Song et al., 2024)。
过氧化物酶体基质中的绝大部分蛋白含有I型信号肽(PTS1),主要包括PTS1核心三肽序列以及PTS1上游的辅助序列。充分解析PTS1的信号肽规律有助于通过生物信息方法挖掘植物过氧化物酶体中的蛋白和代谢功能,也有利于对过氧化物酶体代谢网络进行工程改造。2022年,浙江大学潘荣辉课题组通过大规模的统计学和细胞生物学实验分析,揭示了位于PTS1上游的辅助序列特征,解释了为何很多含有PTS1的蛋白不能定位于过氧化物酶体,以及为何PTS1能存在大量变异形式这两个长期存在的重要问题(Deng et al., 2022)。然而,PTS1核心三肽到底可能有多少种变异形式仍然未知。
近日,我系潘荣辉课题组在New Phytologist在线发表了题为“Comprehensive identification of plant Peroxisome Targeting Signal type 1 tripeptides”的论文(http://doi.org/10.1111/nph.19955)。该研究构建了分别基于PTS1天然序列进化信息和小规模实验信息的两个机器学习模型,成功预测并验证了数百个PTS1三肽序列,并预估植物PTS1三肽的总数为847个。该研究系统鉴定了植物PTS1的核心三肽序列,极大促进了对PTS1规律的全面认识。
作者首先进行已知拟南芥PTS1蛋白在362个被子植物中的同源蛋白搜索以获取足够的蛋白数据,随后截取核心PTS1信号肽所在的羧基端三肽(C-3aa)区域构建成C-3aa文库,结合体内亚细胞定位实验组装了一个包含224个PTS1三肽(PTS1-3aa)以及149个非PTS1-3aa(nonPTS1-3aa)的数据集,用于机器学习模型的训练和评估(图1)。
随后,作者使用包含进化信息的eValue以及包含湿实验信息的sValue来表征各个三肽(图2)。带有径向基函数核的支持向量机模型(Support Vector Machine,SVM)由于其具有强大的正则化和泛化功能,以及相对较高的准确性,被选为基于 eValue 的机器学习模型;线性判别分析模型(Linear Discriminant Analysis,LDA)由于其相对较高的召回率,且不需要进行超参数调整,被选为基于sValue的机器学习模型(图2)。
SVM 和 LDA 模型在重新训练后用于预测所有三肽组合空间(203 或 8000)中的新型 PTS1三肽。SVM和 LDA 分别预测了 423 和 1158 种推定的新型 PTS1-3aa。除了 训练集中的373个三肽外,其余7627个三肽组合被分为4类:两个模型预测的329个,仅SVM预测的94个,仅LDA预测的829个,两个模型都否认的6375个(图3a)。结合体内亚细胞定位验证结果表明(图3b-c),第1类的阳性率最高,为91%,其中 278 个测试三肽中有 253 个具有过氧化物酶体靶向性,其次是第2类的 80%、第3类的30%,第 4 类的 0%。类别 4 的 0% 阳性率暗示两个模型相结合可以预测几乎所有功能性 PTS1 序列(图 3a)。根据阳性率,作者估计功能性 PTS1三肽的数量为第1类中的299个、第2类中的75个、第3类中的249个和第4类中的0个,这使得该研究中提出的新型 PTS1三肽总数为623(图3d)。结合ML-set中的224个三肽,功能性植物PTS1-3aa数量可达847个(图3d)。
最后,作者还利用新发现的PTS1三肽,揭示了水稻中两个先前未知的过氧化物酶体蛋白,说明了新的PTS1信号肽在过氧化物酶体功能研究中的潜在重要价值(图4)。
浙江大学农业与生物技术学院/杭州国际科创中心的潘荣辉研究员、浙江大学杭州国际科创中心的郎绪业研究员和张强研究员为共同通讯作者,浙大农学院博士生邓倩文、硕士生夏雨清,以及浙大科创中心弘笑博士、工程师宫志诚为共同第一作者。北京生命科技研究院戴华鑫博士、张剑峰博士、谢小东博士也为该研究做出了重要贡献。密歇根州立大学胡剑平教授、浙江大学沈星星研究员、西南大学/之江实验室李楠楠教授参与了本论文的实验设计和写作。本研究得到了国家自然科学基金、浙江省自然科学基金、国家重点研发计划和北京生命科技研究院常规项目的资助。
信息来源:https://mp.weixin.qq.com/s/67Av_ilOfj-Kt2CV2nj0Ew