图说:白玉兰科学大模型 来源/采访对象供图
人工智能在前沿科学领域已经取得了一系列颠覆性成果,新的科学研究范式正在形成。昨日(8日)记者从上海交通大学获悉,为推进面向重大科学问题的人工智能模型和算法创新,构建以人工智能支撑基础和前沿科学研究的新模式,上海交大研制“白玉兰科学大模型1.0版”, 依托上海白玉兰开源开放研究院正式开源发布。
“白玉兰科学大模型1.0版”包括化学合成(BAI-Chem)、神经流体(BAI-NeuroFluid)和科学评测基准(BAI-SciEval)三个领域模型,分别代表以分子结构为中心、以动力学为中心的学科方向,及跨学科、跨模态的基础模型。
(资料图)
化学合成(BAI-Chem)依托大模型训练技术,利用生成式人工智能技术赋能化学合成研究,是首个具备反应条件生成与“人在环路”反馈优化能力的化学大模型。加速从分子设计、反应设计、到条件生成、反应检验等化学合成全链条,潜在功能性分子(如药物分子)及其合成方案设计,从传统方法的几个月提速到几十分钟。
以抗HIV小分子设计为例,BAI-Chem能够在2分钟内生成超过250,000个全新的分子;并在30分钟内进一步筛选出172个潜在有效的分子,同时提供合成路线以及相应的反应条件;最终在5秒内进行验证,进一步筛选出23个可合成的潜在分子,大幅提升分子设计迭代效率。
同时,BAI-Chem平台破除了传统页面交互的壁垒,提供化学聊天机器人和化学合成助手,支持用户以自然语言的方式进行交互,以便捷的沟通方式,能够基于用户给定的目标分子一次性提供生成式合成方案和检索式合成方案。
神经流体(BAI-NeuroFluid)创建了视觉直觉学习框架,将物理启发的生成式人工智能技术用于流体粒子模型的计算与模拟,首次实现了从外部视觉表观推理内部流体动态,并可反演粘度、密度等流体属性,形成了“规律—仿真—观测”空间的闭环。
同时支持跨流体属性、跨空间尺度、跨边界条件的大规模神经网络训练与推理,可以捕捉具有高泛化性的流体规律,在问题规模、模拟速度、模型泛化性、反问题求解精度等多个方面突破了现有流体数值模拟方法的计算瓶颈,十万粒子场景的模拟速度比现有流体仿真软件提升一个量级。
上海交通大学人工智能研究院杨小康教授团队于2022年提出“神经流体”方法(NeuroFluid),他说道:“生成式人工智能拓展形成的仿真空间可以覆盖传统的计算机模拟方法‘仿而不真’的现象,允许科学家根据实际观测数据反演仿真空间中的状态‘后验信息’,通过与仿真得到的‘先验信息’进行比对,对已有的科学规律进行修正,甚至通过拓展假设空间,发现新的科学现象。”
评测基准(SciEval)模型的面向基础科学领域构建了首个包含动态数据的评测基准,旨在全面评估大模型的科学知识掌握水平和辅助科研能力,涵盖约18000道具有挑战性的科学问题,涉及化学、物理和生物三大基础科学领域及其数十种子领域,以布鲁姆“记忆-理解-应用-分析-评价-创造”六大认知层级为参考,从基础知识、知识应用、科学计算和科研能力四方面多层级全方位评估语言大模型的科学研究能力。评测方法采用了以客观题为主、主观题为辅的方式,旨在全面考察模型的科学思维和应用能力。同时,BAI-SciEval包含了部分基于基本科学原理动态生成的评测数据,以降低数据泄露风险,保证评估结果的公正性和可信度。
新民晚报记者 易蓉
关键词: