近日,华人美国弗吉尼亚理工大学博士生方燚和所在团队开发出一款名为 BIOARC 的团队智能系统,能够自动设计出来最适合处理生物数据的打造懂生神经网络模型。简而言之,生物师助它是架构生物学自己的 AI 建筑师,能够设计出来真正理解生物密码的力生模型结构。
它的命语核心思想是:无需依靠人工猜测,而是华人让 AI 自己探索成千上万的不同的模型结构,从中找出来最适合处理某类生物数据的团队那一个。
![]()
图 | 方燚(来源:方燚)
方燚告诉 DeepTech:“BIOARC 仅需相当于传统 Transformer 模型约二十分之一的参数量,即可实现更好的生物师助性能。从创新性角度看,架构这可能是力生首次采用数据驱动的方式,系统探索并确定适用于生物序列建模的命语最优架构。以往的华人设计多基于直觉和经验,而我们首次实现了通过自动化搜索来发现高效架构。”
那么,BIOARC 是怎么做到的?我们都知道假如一名人类设计师要设计一栋房子,那么至少在设计师的草图上,房间的大小、位置和连接方式都可以变化。BIOARC 也是这样,它可以把 AI 模型拆为几种基础的板块。
第一个板块是卷积神经网络,其非常擅长捕捉局部特征,就像放大镜一样可以看清楚 DNA 上的片段模式;第二个板块是 Transformer,其非常擅长理解长远距离的关联,就像望远镜一样可以看清楚基因中相隔很远的区域是如何互动的;第三个板块是 Hyena 和 Mamba,它们是两种比较新的模型,能够更加高效地处理超长序列。
BIOARC 所使用的模型比当前流行的大型生物 AI 模型要小很多,但是表现却更加优秀。在一些 DNA 任务上,BIOARC 模型的大小只有传统模型的二十分之一,但是效果却能得到显著提升。这说明:不是模型越大越好,而是结构越合适越好。
比如,在处理 DNA 序列的时候,BIOARC 发现高性能模型常常呈现出一种三层结构:先使用 Hyena 块捕捉长距离关系,再使用 Transformer 块理解复杂上下文,最后使用卷积神经网络块来提取关键局部特征。这种组合就像先观看整幅地图,再分析重要区域,最后聚焦的关键地标,一步步地理解整个序列的能力。
BIOARC 不仅能够设计模型,还可以充当顾问的角色。科学家们经常面临新的任务:比如分析某种病毒的 RNA,或者预测某个罕见蛋白质的结构。以前,他们得自己尝试很多模型,不仅费时而且费力。现在,他们只需要把任务描述输入 BIOARC 系统,它就能从知识库中找到类似的任务,并推荐之前表现最好的几种模型结构,从而可以大大节约研究时间和实验时间。
同时,BIOARC 内部还有一个智能助理系统,能够理解那些科学家使用自然语言描述的任务,然后进行语义匹配,而非只进行简单的关键词搜索。这意味着即使你描述得不太专业,它也能明白你的需求,并能找到最相关的历史案例和模型方案。
![]()
(来源:https://arxiv.org/abs/2512.00283)
我们当前使用的 AI 大多使用的是 Transforme 模型,它最初是为处理人类语言而设计的。但是,生物数据比如 DNA 序列或蛋白质结构,和人类语言是完全不同的。前者不像句子那样有着明确的单词和语法,而是由一系列化学密码组成,其间隐藏着复杂的空间结构和远程关联、
举个简单的例子,在英文句子中单词“猫”后面常接“抓老鼠”,这种关系是局部的和有顺序的。但是,在 DNA 中一个基因的启动区域可能和几千个碱基意外的另一个区域发生相互影响之后,才可以启动生命活动。如果直接使用处理语言的 AI 模型去读 DNA,就像使用英文语法去理解一段音乐乐谱一样,虽然都是符号,但是规则完全不同,效果自然也就不好。
![]()
(来源:https://arxiv.org/abs/2512.00283)
而本次技术则具有广泛的应用前景。任何涉及蛋白质或 DNA 序列分析的场景都可能受益,例如对特定物种的 DNA 进行分类,或预测蛋白质结构。此外,由于此次发现的架构具有一定可解释性,未来亦有望帮助揭示更多潜在的生物学规律。
谈及本次技术和 AlphaFold 等已有工具的关系,方燚表示:“AlphaFold 属于生成式模型,需将序列映射到潜空间进行结构生成。我们的工作则能帮助构建更优的序列编码器,从而更有效地将蛋白质或 DNA 映射到统一的表征空间中,与现有工具形成功能上的互补与增强。”
![]()
(来源:https://arxiv.org/abs/2512.00283)
他继续说道:“关于后续研究计划,我们希望将当前方法拓展到更多模态上。目前工作集中于 DNA 和蛋白质序列,下一步计划将其应用于基因表达值序列等数据类型。另一个方向是,当前研究主要针对单模态架构,未来我们也将探索多模态架构,例如在同一模型中处理多种数据类型,并研究不同模态间是否存在最优的架构组合方式。”
参考资料:
相关论文 https://arxiv.org/abs/2512.00283
运营/排版:何晨龙
超级杯还没开打 海港遭重创!伤病潮+人员变动 京沪首冠悬念拉满
4投3铁!20分钟得2分+送迪亚洛风车暴扣,球迷:看你打球真的痛苦
轰25分+1秒绝杀!中国女篮20岁1米93新星崛起:当李月汝搭档?
惊险1分险胜!CBA杯第1支4强出炉:陈林坚闪耀1战,强硬3分制胜!
一夜反转!昨天“官宣”今天“辟谣”,小蜘蛛转会大戏谁在说谎?
一场决胜200万奖金!CBA第二届俱乐部杯决赛:上海vs山西终极对决
CBA俱乐部杯半决赛第二场焦点战!广厦VS山西:塔克大战迪亚洛
巴特尔请朱芳雨、杨鸣、杜锋等人吃饭,大家把酒言欢
2月20日德甲赛事前瞻 美因茨VS汉堡
邱彪:于德豪5分钟领到5次犯规特别不理智,这是比赛中绝对不允许
盘点CBA25届选秀新秀第一阶段表现
4投3铁!20分钟得2分+送迪亚洛风车暴扣,球迷:看你打球真的痛苦
刘若钒为何在上港刚迎来新巅峰,就又伤病不断,何时复出暂无定论
连签2小外,只剩一个换外援名额!排名第12令辽篮病急乱投医?
输山东1分!揪出3个“混子”球员,坑惨了浙江队
王博:球队缺了一整套阵容,趁这次比赛给年轻人多些锻炼机会
女足亚洲杯:中国队公布名单 主力框架浮出水面
李根:上海四外援都是断档级存在,他们的决赛对手可能是山西
山东男篮新大外援已到位,季军争夺战有望首秀,邱彪或放弃一人
广厦vs山西前瞻:两队战意成关键,4外援山西斗志昂扬
泰山兵强马壮!上海滩备战冲刺,前5轮疯狂抢分,三主两客9分打底
浙江广厦冲冠暴露致命软肋!板凳阵容太弱,王博太过依赖九大主力
中国女篮最新备战曝光!2米26女姚明+30岁王牌到队,95一代仅1人
挺进俱乐部杯四强!山东高速男篮89
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()