【困局2】生物医学的“数据冰山”
【困局2】生物医学的“数据冰山”
无论是否愿意,如今每小我私家都置身于大数据时代之中。假如你浑然不知,那么来看一组数据。
据国际数据公司和数据存储公司希捷开展的一项研究发明,2018年全球约发生33ZB(1ZB=1012GB)的数据。个中,中国约发生7.6ZB的数据,估量到2025年该数字将增至48.6ZB;美国约发生6.9ZB数据,估量将在2025年增至30.6ZB。
在这些海量数据中,生物医学大数据是增速最快的大数据,贯串从基本研究、药物研发、临床医疗到康健打点的所有环节,甚至还催生了一系列生物医学大数据财富。
任何高科技都是双刃剑,生物医学大数据自然也不破例。在一切可以用数据“镌刻”的时代,尚有许多问题值得我们思考与应对。
海量数据的烦恼
跟着高通量测序技能的成长与应用,生命科学规模的数据量正在极速增长。出格是跟着新一代测序技能的成长,测序价钱由已往每个基因组数百万美元下降到1000美元阁下,从而使生物医学数据的发生和获取本领获得革命性的提高,以基因组学数据为焦点的生物医学大数据呈爆炸式增长。
如此海量的数据宝库中,既存在着“珍珠宝石”,也不免充斥着大量“砂砾”。正如中国科学院计较技能研究所高机能计较机研究中心主任谭光亮向《科学新闻》指出的那样:“数据质量东倒西歪。”
这一点也获得了一份来自国际数据公司的研究陈诉的证实。该陈诉显示,有意义的数据只占全球数据量的1.5%。
谭光亮先容,由于生物医学研究涉及的数据来历极其遍及,数据范例很巨大,这就对数据的处理惩罚本领提出了更高要求。例如说,对来自生物样本库和病历资料库的数据举办“提纯”,既要担保数据的质量,又要兼具可信度,这无疑给数据阐明人员带来了极大挑战。
另外,试验人员的差别以及仪器设备各自差异的数据输格外式,也让生物医学大数据的处理惩罚难上加难。
“数据多了,但代价却没有完全浮现出来。”中国科学院—马普学管帐算生物学同伴研究所所长王泽峰对《科学新闻》直言,“如何将纷繁巨大、不绝扩容的数据整合起来举办系统研究与挖掘,这是一个庞大的困难。”
尺度化之难
然而,要举办跨平台整合研究,首当其冲地即是要办理尺度化问题。
这些生物医学大数据大概来自差异的科研机构、尝试室、医院、社区卫朝气构以及千差万此外日常康健监测设备,它们都没有统一的类型尺度,自然难以实现尺度化的数据阐明。
以医院为例,按照中国医院协会信息打点专业委员会(CHIMA)宣布的《2017~2018年度中国医院信息化状况观测》显示,医院全部回收统一信息编码体系的比例仅占28.10%。
实际上,临床医疗数据大多是在业务进程中发生的,其录入目标各不沟通,每家机构、每个系统的尺度、接口类型均有差别,即便同一家医院在差异信息化系统中的数据都难以实现互联互通,更不消说差异医疗机构之间的数据活动了。而通过移动终端收集的患者行为数据和体征数据,尺度化水平就更低了。
数据尺度化的缺失,直接影响后期的数据阐明与共享,这往往令研究者无所适从。“各个机构有各自的尺度,收集到的数据质量良莠不齐,再加上运用差异的解读要领,往往阐明与结论会‘失之毫厘,谬以千里’。”中国科学院计较生物学重点尝试室生物医学大数据中心副主任张国庆对《科学新闻》说。
#p#分页标题#e#不少专家对这一点暗示附和。“今朝有太多种阐明卵白质组学数据的要领,因此对数据的表明存在主观性。”澳大利亚帕克瓦拉的沃尔特和爱丽莎霍尔医学研究所的系统生物学和本性化医学部分认真人Andrew Webb如是表明。
尺度化的逆境是全行业配合存眷的核心,在信息技能与生物医学发家的美国亦不破例。美国劳伦斯伯克利国度尝试室基因组科学部主任Rubin就曾指出,抱负状态下的方针是成立统一的电子病历系统,这些信息应该有统一的尺度。但现实并非如此,差异机构和资料库发生与存储的数据均遵从差异的尺度。
在尺度化成立的阶梯上,国际上已有一些努力的摸索。好比,2013年,全球基因与康健同盟创立,其旨在成立统一的打点和操纵要领,以促进基因研究和人类康健;同年,ISO/TC276生物技能尺度事情委员会在德国创立。
然而,之于发达成长的生物医学大数据行业来说,这远远不足。
技能开路乏力
毋庸置疑,阐明数据要比发生数据坚苦得多。
当下,生物医学大数据以快过摩尔定律的速度急剧增长,远远超出了传统的信息处理惩罚本领。出格是对付诸如生物医学文本数据、临床电子文档这类非布局化的生物医学数据的阐明,传统的数据库技能与计较要领已难以应对。
“就今朝而言,算法确实不足先进,至少是从算法和流程的自动化和智能化方面仍不足先进,难以应付PB-EB量级的生物医学数据的阐明,全世界都面对这个瓶颈。”华中科技大学生命科学与技能学院生物信息学传授宁康向《科学新闻》暗示。
与此同时,生物医学大数据阐明并非尺度化的阐明进程,需要按照功效不绝地调解参数与优化流程,因此对付生物医学信息阐明软件的机能要求很高。但在实际阐明进程中,“生物信息研究人员更多的是边计较边修改‘剧本’,致使许多机能损耗,效率极低”,张国庆指出。
另外,王泽峰认为,“如何将已有的较好算法用好的模子转化成靠得住的工程性软件来办理常见问题,即基本算法的实用化,并应用于生物医学大数据研究中,是值得摸索的偏向之一。”
而令谭光亮焦急的是如何将实际的临床场景与算法细密团结起来,最终办理临床应用的困难。
“固然我们有了一些好的算法和模子,却对真实临床应用问题的相识不足,很难具有针对性地对巨大性患者的问题给出指导。”他形象地比喻道,“这就比如我有锤子和钉子,可是不知道精准的方针,也就不知道往哪儿钉。”
诚然,挖掘生物医学大数据的代价,算法和软件上的创新与打破至关重要,数据计较本领的晋升同样是海量生物医学数据高效处理惩罚的掣肘。其实,近25年来,数据计较本领已获得了显著的晋升,可即便如此,在王泽峰看来,“适合生物医学大数据的算力并没有完全到达”。
一方面是难以到达及时阐明与临床处理惩罚的水平。“岂论是2C(到小我私家用户)照旧2B(到机构用户),今朝生物医学信息阐明绝大大都照旧以周为单元。”宁康表明道。另一方面,要得到算力,主要照旧依靠自建大量的数据中心、机房等基本资源,本钱较高且陈设周期长。
“并且由于设备过于复杂,今朝用的也还不多。”谭光亮暗示,“奈何将高机能计较的一些设备做小做精,酿成科研人员唾手可得的技能,是我们正在尽力的偏向。虽然,今朝我们也取得了一些希望。”
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。