李国杰:生物医学大数据时代呼喊计较机布局师
李国杰:生物医学大数据时代呼喊计较机布局师
中国工程院院士 李国杰
生物医学数据已经从PB量级的基因组测序时代进入到多组学融合的EB量级大数据时代。可是,由于生物医学数据种类繁多、数据分手、内部布局高维巨大,大数据阐明比其他规模更坚苦。今朝生物医学规模固然数据量增长迅速,但成效并不十理解显。
大数据与人工智能是一个硬币的两面,只有充实发挥呆板进修技能的庞大潜力,才气从EB级的数据中得到有代价的常识。生物医学规模假如仍逗留在回收字符串比对、搜索等传统的计较机技能,就难以挖掘生物医学大数据的潜在高代价。但要让呆板进修在生物医学规模发挥更大的浸染,需要在基本研究方面下更大的工夫。
为呆板进修奠基理论基本的是图灵奖得主Valiant,他提出的大概近似正确进修模子(PAC)指出,呆板进修只能在必然的误差范畴内以某种概率担保进修功效正确。因此,差异的规模呆板进修的成效取决于该规模对进修误差和泛化乐成率的容忍度。
众所周知,医疗规模与人的生命攸关,对医疗判定失误的容忍度很低,这就需要更高深的呆板进修技能。有人戏谑今朝信息规模的形势是,软件在吞噬世界,人工智能在吞噬软件,深度进修在吞噬人工智能,GPU在吞噬深度进修。研究制造更高机能的GPU或雷同的硬件加快器好像成了搪塞大数据的主要出路。可是假如不清楚该在什么处所加快,只盲目依靠硬件的蛮力是不明智的。
在30年前上一波人工智能的飞腾中,我和华云生传授在一篇综述文章“A Survey on the Design of Multiprocessing Systems for Artificial Intelligence Applications”中指出:“设计智能系统的要害在于对要求解的问题的领略,而不是高效的软件和硬件。操作基于知识、高层的元常识、更好的常识暗示得到的开导式信息比改进计较机布局可以得到更大的机能提高。是否用硬件实现一个给定的算法取决于问题的巨大性和该问题呈现的频率。计较机布局师的脚色是选择好的常识暗示、识别开销麋集型任务、进修元常识、确定根基操纵,用软硬件支持这些任务”,这些概念大概此刻还没有过期。
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。