当前最核心的生物医学大数据问题是解决各种可测量的数据,包括遗传密码与表观表型之间的关系问题。我们知道分子水平的基因组学、蛋白质组学研究产生的数据量不计其数,近年来发展起来的表型组学研究也在不断积累数据量,我们会逐渐拥有大量的表观数据。那么这两大数据如何偶联?如此规模巨大、系统复杂的分析只能由人工智能来完成。
近段时间,人工智能大模型展现了强大的自然语义处理能力,再次掀起了人工智能的研究热潮。从图灵测试开始,机器人能否与人对话就被用作判断机器是否具有高级别认知智能的依据。大模型的建立,让人工智能距离通过图灵测试更近一步。
那么,当前的人工智能还有哪些潜力?在生物医学领域应如何更进一步发展适用的人工智能?科技日报记者日前对中国科学院院士、中国科学院生物物理研究所研究员陈润生进行了采访。
(资料图片仅供参考)
生物信息数据量大、维度广
记者:距离人类遗传密码被破译已经过了20多年,但似乎仍有很多健康问题难以解决,这是为什么?
陈润生:过去我们认为生物网络是“单色”的,或者说是单因素作用的。因为当时我们认为具有生命功能的分子只有蛋白质,遗传物质经过转录、翻译的过程转化为蛋白质,进而执行生命活动中的各项功能。
基于这样的认知,人类遗传密码的破译被理解为解读“生命天书”。将人类全部30亿个碱基序列全部测序完成,就能读懂这部“生命天书”,提纲挈领地搞清生命活动的运转体系,从而揭开所有健康的秘密,获得解决健康问题的手段。
但现在我们发现,生物网络不是“单色”的,生命活动的调控、抑制、互作中,还有核酸的参与。比如有些核酸序列也会发挥之前被认为属于蛋白质的功能,调控细胞活动。在承载人类遗传信息的30亿个碱基对中,还有很大一部分虽然我们读出了序列,但并不知道功能,它们在生命活动中究竟起到什么作用也没有被研究清楚。大量这样的区域被称为遗传物质的“沙漠区”……因此,当前对人类遗传密码的破译进程只走了解决健康问题过程中的一小步。
记者:既然生命活动这么复杂,是否需要更多的生物信息数据才有希望破解健康难题?目前需要充分利用的有哪些维度的生物信息学数据?
陈润生:这30年来,人类遗传密码的破译带动着整个生物医学领域内广泛的数据都成为了大数据。
生物信息学最早的研究对象是遗传密码,研究任务是对遗传密码进行收集、整理、存储、发布、分析和解释。现在数据更广泛了,生物信息学的研究从20世纪八九十年代创立时的无信息可用,到现在数据呈现海量、多维、异质化特征。比如通过电子病历大数据挖掘,我们可以得到很多重要信息。中山大学一些研究人员通过电子病历分析找到的科学结论被发表在了国际著名期刊上。又比如可穿戴设备带来的生理生化指标,这类信息具备实时、环境情绪相关等特性。这些数据还包括医院中的影像学数据、临床病人在治疗用药后的病情变化数据、环境数据、微生物数据、地质数据、化学农药残留数据等。所有这些跟健康相关的数据集纳起来,构成了非常复杂的健康大数据类型。
可大幅提高生物信息处理能力
记者:如何解析复杂的健康大数据?
陈润生:健康大数据很复杂,举例来说,电子病历写的是字,处理这样的信息需要自然语言处理模块,生理生化指标如脑电、心电等信息需要处理的是波形图,而影像学要处理图像,组学要处理符号。对这些性质各异的生物信息进行全面提取处理,就如同秦始皇统一六国不仅要统一文字、语言,还要统一货币、度量衡,需要将不同的信息融通,再做解析和决策。
当前最核心的生物医学大数据问题是解决各种可测量的数据,包括遗传密码与表观表型之间的关系问题。我们知道分子水平的基因组学、蛋白质组学研究产生的数据量不计其数,近年来发展起来的表型组学研究也在不断积累数据量,我们会逐渐拥有大量的表观数据。那么这两大数据如何偶联?如此规模巨大、系统复杂的分析只能由人工智能来完成。
目前来看,要解析生物医学大数据,人工智能技术是最适用的手段。
记者:从最初的人工智能到阿尔法狗再到大模型,人工智能发生了哪些变化?当前的大模型在处理生物医学信息方面有哪些优势?
陈润生:20世纪80年代,由于受算力和算法的限制,我们能设计运行的人工智能神经网络非常简单,只有几层。
现在的人工智能神经网络,比如阿尔法狗、阿尔法折叠等,它的网络模型架构达到200—300层。当今的计算能力能够使它们完成更加复杂的任务。
人工智能大模型让人工智能更进一步。我认为大模型的出现表明人工智能有了多方面、更深刻的进展。第一方面是对自然语言的处理能力发生了根本性的变化。处理人类的自然语言对于计算机来说很困难,突破这个能力后,人工智能可以拥有全局性的知识作为计算的基础。
第二方面进展是具备了预学习能力。人类之所以能产生智慧,是因为从出生以来一直在不断积累学习。现在在大模型中,计算机已经可以预学习了,能够在大量的知识被预先获得的前提下,再将具体科学问题交给计算机,而不是针对某一个特定问题进行学习。
第三方面进展是可积极促进模态融合。模态融合可以这样理解,比如人工智能不仅能完成基础医学里的结构预测工作,还能完成临床医学中的识图判读工作,更重要的是可以把这两个能力融合起来,即人工智能在每个领域都具备专家的知识,又能够融会贯通、举一反三。
基于以上三点,我认为发展人工智能作为未来医学大数据挖掘的工具值得重视。
以人工智能解析生物医学大数据
记者:很多人在健康出现问题之后的第一反应是“为什么会这样”,以后人工智能可以解答这样的问题吗?
陈润生:想要回答“为什么会这样”这个问题涉及到人工智能界的两个提法:弱人工智能和强人工智能。弱人工智能就像阿尔法狗,能处理特定任务。而强人工智能被认为是有可能制造出来的、真正能推理和解决问题的智能机器。
所以你的问题其实是在问,强人工智能有可能出现吗?过去我认为是不可能的,但现在看来,我觉得随着大模型的出现,一些问题正在破冰,强人工智能有了出现的苗头和希望。当然,现阶段人工智能的发展与真正的强人工智能还差得很远。
当前我们正在进行一些与医学相关的人工智能研究。比如扩大健康问题相关的参数,抽提面部、表情等特征,也融合基因组、转录组、蛋白组、宏基因组、表观组等全部维度的特征,甚至加入了中医内容,通过多模态融合建造医学多模态数据智能整合计算平台,我们称之为“灵枢”,并将其用于医学健康问题的实践。
记者:网上有人调侃,能写论文的人工智能却无法解释清楚“驴肉火烧”“鱼香肉丝”,而生物医学领域对于人工智能的要求更高,您认为如何让人工智能具有更严谨的运行能力?
陈润生:如何才能让人工智能解释清楚“驴肉火烧”“鱼香肉丝”等人类世界的问题,其实是在问如何才能让人工智能达到强人工智能的水平。
人工智能的智能水平主要由三个因素决定:数据、模型和算力。数据掌握在用户手中,模型需要不断研发讨论精进,算力是由计算机的能力决定的。
从这三个决定因素入手,我们能够发现,在数据方面,要解决相应的科学问题,人工智能掌握信息量高、信噪比低的足够信息就可以了。在算力方面,要依靠计算机科学家不断从硬件等解决方案入手提高运算能力。
只有模型方面是值得研讨的,现在的模型理论够不够达到强人工智能的要求,如何让模型更强?
目前有几个途径可以让模型更强,即增加知识量、增加网络节点数、增加网络复杂度。当前国际上几个大模型的处理数据量已达到万亿参数级别,在此基础上,我认为需要进一步增加的是网络复杂度。
我们可以从生理学家的脑生理切片模型中得到启发。新生儿的脑神经网络很简单,复杂度不够,学不了多少东西。成长让人的脑神经网络逐步复杂,进而承载更多内容。因此,我们可以从研究脑发育中获得启发,进而形成一个更完善的基础理论框架,获得适用的模型,使人工智能走向强人工智能。
关键词:
(责任编辑:黄俊飞)推荐内容
- 解析生物医学大数据,人工智能是最适用手
- ali_larter 演过的电影-世界快讯
- AI大模型时代 这堂专为企业家定制的“AI
- 【全球新视野】辽宁省朝阳市2023-06-11
- 焦点速讯:忽如一夜春风来千树万树梨花开
- 花旗: 美国有机会在今年底或明年初考虑
- 防城区与中农融信(北京)科技股份有限公
- 投资策略研究:金融市场周报|环球信息
- 南昌治疗银屑的专科医院?南昌哪家医院治
- 环球微头条丨2023全国各高校在山东录取难
- 北向资金全天单边净买入92.01亿元
- 如何用法语说帅哥_如何用法语说你好_简讯
- “全民反诈在行动”集中宣传月活动今天启
- 消除实验室之间的差异,全球首个基因工程
- 迪士尼版《西游记》引争议 口碑两极分化
- 西安考研比较好考的大学_考研比较好考的2
- 无偿献血 奉献爱心
- 吉祥物“江南忆”的前世今生你知道吗?快
- 公主可以称为殿下吗?公主有哪些等级?
- 五年来全省共发送涉金融司法建议600余件
- 华钰矿业:6月14日融资买入1278.26万元,
- “黑色素瘤”登上热搜,这样的黑痣需要高
- 全球最新:同仁堂:6月14日融资买入3978.
- 【环球时快讯】麦肯锡:人工智能繁荣的最
- 变形记赵迪家有钱吗_变形记赵迪_世界快播
- 新编经典五体书法鉴赏_关于新编经典五体
- 全球百事通!郑州宜家营业时间_天津宜家
- 金水区南阳路街道:深化常态整治 让文明
- 泰国举办中泰人才校园招聘会 超百家中资
- 小米南昌公交卡开通哪个|当前通讯
- 吉林省万余名无偿献血者获表彰_天天热讯
- 全球热议:上汽集团大手笔回购!水产龙头
- 他,多次准确判断大崩盘,一次就赚一个亿
- 中国电信麦芒A20再度预热,将配备256GB+2
- 江山控股(00295.HK)首五月太阳能发电站发
- 高校毕业生就业工作进入关键阶段 多渠道
- 当前资讯!湖北促进中医药传承创新发展
- 通威股份董秘回复: 公司安排有专人负责
- 今日57股涨停 主要集中在化工、通信等行
- 观热点:快讯!合肥一、六、八中今年计划
- 每日热议!清鼻堂:水果和蔬菜中哪些成分
- 当前简讯:如何做南瓜猪肉馅水饺?
- SK-II回应其“神仙水”产品产地受核辐射
- 26℃|落水的9岁女孩成功获救,施救老人却
- 画猫咪简笔画图片涂颜色_画猫咪简笔画图片
- 交流探讨 携手共进 广州市医保局到正定
- 德保罗:受伤时梅西一直陪伴我;赢得世界
- 回报作文开头结尾_回报作文
- 西甲:皇马客场不敌巴列卡诺|世界今热点
- 【世界播资讯】6月14日 10:05分 ST星
- 全球球精选!力源科技及相关责任人收千万
- 黄景瑜前妻王雨馨再度发文 评论区怒怼网友
- 阴劲标准尺寸(阴劲) 每日讯息
- AMD公布新款MI300X AI芯片
- 头牌手记/AI概念股亢奋 中移动可追落
- 南瓜含有哪些营养成分 热资讯
- 《夏日香气》里的孙艺珍,才是南韩小白花
- 快看:女排横扫加拿大!2星互相庆祝,王
- 全国麦收进度过八成 天天看点
- 23成交Y2今日发布发行公告 全球微资讯
- 华钰矿业:6月14日融资买入1278.26万元,
- “黑色素瘤”登上热搜,这样的黑痣需要高
- 全球最新:同仁堂:6月14日融资买入3978.
- 【环球时快讯】麦肯锡:人工智能繁荣的最
- 变形记赵迪家有钱吗_变形记赵迪_世界快播
- 新编经典五体书法鉴赏_关于新编经典五体
- 全球百事通!郑州宜家营业时间_天津宜家
- 金水区南阳路街道:深化常态整治 让文明
- 泰国举办中泰人才校园招聘会 超百家中资
- 小米南昌公交卡开通哪个|当前通讯
- 吉林省万余名无偿献血者获表彰_天天热讯
- 全球热议:上汽集团大手笔回购!水产龙头
- 他,多次准确判断大崩盘,一次就赚一个亿
- 中国电信麦芒A20再度预热,将配备256GB+2
- 江山控股(00295.HK)首五月太阳能发电站发
- 高校毕业生就业工作进入关键阶段 多渠道
- 当前资讯!湖北促进中医药传承创新发展
- 通威股份董秘回复: 公司安排有专人负责
- 今日57股涨停 主要集中在化工、通信等行
- 观热点:快讯!合肥一、六、八中今年计划
- 每日热议!清鼻堂:水果和蔬菜中哪些成分
- 当前简讯:如何做南瓜猪肉馅水饺?
- SK-II回应其“神仙水”产品产地受核辐射
- 26℃|落水的9岁女孩成功获救,施救老人却
- 画猫咪简笔画图片涂颜色_画猫咪简笔画图片
- 交流探讨 携手共进 广州市医保局到正定
- 德保罗:受伤时梅西一直陪伴我;赢得世界
- 回报作文开头结尾_回报作文
- 西甲:皇马客场不敌巴列卡诺|世界今热点
- 【世界播资讯】6月14日 10:05分 ST星
- 全球球精选!力源科技及相关责任人收千万
- 黄景瑜前妻王雨馨再度发文 评论区怒怼网友
- 阴劲标准尺寸(阴劲) 每日讯息
- AMD公布新款MI300X AI芯片
- 头牌手记/AI概念股亢奋 中移动可追落
- 南瓜含有哪些营养成分 热资讯
- 《夏日香气》里的孙艺珍,才是南韩小白花
- 快看:女排横扫加拿大!2星互相庆祝,王
- 全国麦收进度过八成 天天看点
- 23成交Y2今日发布发行公告 全球微资讯
- 钢价小幅反弹钢企关注降本增效
- 世界热消息:亚康股份最新公告公司与英伟
- 杜绝烂尾楼!南昌市相关部门称业主可以拿
- 每日热议!自流平多少钱(自流平多少钱一
- 宝骏云朵续航曝光:2款车型 续航360/460
- 发改委:不断拓展职业教育产教融合资金支
- 航凯电力(832477):对全资子公司增资-全球热文
- 全球速递!日发精机(002520)6月13日主
- 内冷树脂商品报价动态(2023-06-13) 当
- 如何转迁失业保险关系 失业保险转迁怎么
- 液流电池产业化进程大提速
- 便池里的黄渍怎么去除掉(便池里的黄渍怎
- 2019年上映的电影爱情_2019年上映的电影 快讯
- 天天快报!身份证号找人流程_身份证号找人
- 艾尔登法环众武护符位置视频攻略
- 是什么时尚元素让宋茜李宇春都把控不住?
- 至关重要是什么生肖(至关的意思)
- 从试点转为常规业务 基金投顾牌照扩容有望
- 高质量发展调研行·双城“链”事② |
- 五部门首次联合开展河湖安全保护专项执法