基因时代:中国计算机遭遇数据黑洞·《电脑报》 - 起跑线 - 信海光

(这条文章已经被阅读了 154 次) 时间:2001-02-18 23:26:47 来源:信海光 (信海光) 原创-IT

突然有一天,基因时代一下子来临了,巨量的、多的难以描述的信息迎面涌来, 所有的计算机都忙不过来了,与面对的信息相比,计算机们仿佛遇到了黑洞。 最快的速度也无可奈何—

基因时代:中国计算机遭遇数据黑洞

换上防尘鞋,换上白大褂。几乎是屏住呼吸,走进华大的计算机中心—就是在这里,中国自己的高速计算机处理了我国分担的1%人类基因组测序任务所产生的巨量信息。

突然之间,曙光2000巨型计算机就矗立在了人们的眼前,每台有近两米高,一米多宽。和对面摆放着的普通台式机一比,显得象芸芸众生中的恐龙。

不堪重负的曙光2000

2月12日,人类基因组图谱正式公布以后,作为中国基因测序的主基地,位于北京空港科技创业园的华大基因研究中心成了焦点。虽然生物信息中心有70多人,但这里给人的第一感觉仍是一片寂静。

站在巨大的曙光2000旁边,华大信息中心副主管孙健冬显得有点矮小。孙健冬告诉记者,因为要处理基因测序所产生的非常巨量的信息,生物信息中心要使用高性能的计算机,这些计算机必须有几个特点:运算速度要快、内存容量要大、存储量更要大。信息中心一天信息产出量就有20G(这个数据令人振奋,在国外基因研究中最领先的塞莱拉公司,其日数据产生量也不过如此。),这20G的原始数据如果再被拼接、处理的话,整个量极其惊人的。如果拿现在市场上最好的75G容量硬盘的PC机相比较的话,仅仅能装这里一天的信息量。就像一个可怕的数据黑洞,无论有多强悍的计算能力,也会被统统吞噬。如今,曙光2000计算机已经超负荷运转,不能胜任。华大又订购了最新的曙光3000计算机,在3月20日将要运到,它的硬盘将是2T(2000G),相当于200台普通PC的容量,而这也顶不了多少,信息中心跟生产者提的要求是20T才是理想配置。对于内存来说,曙光2000一共有四个节点,每个节点带2G的内存,一共是16G内存(16000兆),而目前市场上很高档的PC的内存也就256兆而已。曙光2000的峰值运算速度是3000亿次/秒。

由于科研的需要,华大现在所使用的曙光2000(不久前推出的曙光3000尚未正式应用)是国内最先进的民用高性能计算机。另外,国内还有其它两款高性能计算机,分别是神威、银河,主要应用于国防科研领域。后者性能比曙光稳定一些,但并没有根本性的差距。

曙光2000的造价是2500万人民币,即将使用曙光3000是国家重点科研项目,全国一共有三台,而华大一下子就订购了其中的两台。由于这两台机器存在及使用,华大还被有关部门定为”国家高性能计算中心”。孙健冬告诉记者:”曙光2000在其它领域可能会运转的很正常,但在华大已经是不堪重负。不得不一下买了两台曙光3000。”在未来,世界范围内的基因研究机构年收入增长将高达100%,而在信息技术上花费将齐平甚至超过,这将是多么大的商机!

计算机遭遇基因挑战

在国外IT企业中,在人类基因组工程的竞争中居于领先地位的是康柏公司。这是因为compaq投入的早,也投入的大—自90年代初人类基因工程启动以来,康柏一直在为各研究机构提供各种工具,用以处理对32亿个碱基进行解码所必需的数量惊人的数据。完成人类基因草图绘制的三个重要参与者塞莱拉公司、Sanger中心、怀特研究院都无一例外选择了康柏作为唯一的IT合作伙伴。塞莱拉公司负责IT基础设施的副总裁Marshall说:”为什么我们使用康柏运行Tru64 Unix的Alpha系统?答案很简单:我们准备了一个基准测试,把它交给了所有的厂商。只有两家能运行它。其中一家花了87小时,而康柏只用了7小时。”

而实际上,在全球范围内,即使如今最强大的超级计算机也不能满足基因时代的计算需求。据估算,人类每一百万个DNA基中,只有十二个真正的基因。在上百万个鱼龙混杂的DNA中寻找十二个真正的基因,其难度可想而知,这项艰巨的工作对于目前的计算机软硬件来说实在是个”难以完成的任务”。正因为如此,人类基因组计划才与曼哈顿原子计划、阿波罗登月计划一起被并称的人类科学史上的重大工程。

针对人类基因研究这个”难以完成的任务”,在美国,能源部一举联合了生物信息领域、高性能计算领域和巨型并行系统领域的三个领导者Sandia国家实验室、Celera基因中心、康柏电脑公司来应对基因时代对计算机的挑战。三方签署了一项联合研究与开发协议,以开发新一代专门为满足生物计算与全部生命科学应用需求而设计的软件与计算机硬件解决方案。这项研究将首先实现每秒100万亿次运算的目标,最终将可能实现每秒千万亿次运算(目前国内曙光2000的峰值运算速度是3000亿次/秒)。

而目前,国产的”曙光”的几乎所有硬件都是来自进口,尤其是CPU等关键部位。要弥补这个差距,首先要依靠”中国芯”产业的迅速发展,而具体到在生命信息学领域,国外的IT行业已经做了比较大的专项投入,比如现在CAMPAQ特意为生物基因的某一个算法定制了专门的高性能计算机,它的所有的运算程序都整合在硬件里面,运算速度非常快。IBM公司也生产了名为BLUE GENE的高性能计算机。而在中国的IT业,该领域的研究似乎还是个空白。

长此以往的话,中国在世界基因研究中的领先地位很可能会被IT业的落后状况所拖累。

期待更好的曙光

华大选购高性能计算机的范围应该并不仅仅局限在国内。但他们仍旧选购了曙光2000、3000。正因为曙光计算机的出现,某些国家才放宽了对华计算机出口的限制,在此前,中国想进口比曙光还差一点的高性能计算机都很难。曙光2000的满载CPU是32个,在它出现以后,象COMPAQ、SUN已经可以象中国出口满载CPU50个的高性能计算机。而在2月17日推出的曙光3000,将至少能装载64个CPU。在价格上,与进口的同配置高性能计算机相比,国产的要便宜很多。

由于生物信息学是一个新兴的信息学与生物学相交叉的学科,孙健冬和他的同事们在使用高性能计算机时发现了许多新的问题,他告诉记者:”无论是进口的还是国产的计算机,在基因产业里都会有很多问题出现。因为在机器开发的时候并不是为基因产业定制的,而在实际应用的时候,生物信息学研究时经常会有非常大量的信息与文件的传递,这对计算机的操作系统都是一种非常大的考验。曙光2000在其它领域可能会应用的非常好,但在这里就会出现新问题,平时在极端特殊情况下才会出现的问题在这里会变得很平常。”

“这也是我们用国产的曙光计算机的原因之一,”孙告诉记者:”正因为高性能计算机在我们的研究中会遇到许多新的问题,所以说我们才选择曙光。有新的问题就有新的改进,这也是两个产业很好的结合。我们的使用会促进曙光计算机的进一步改进,如果说我们能促进计算机产业的发展,为什么不促进民族产业呢?当时国外的计算机厂商为了占领中国这个市场,主动与我们频繁接触,但我们还是选择了曙光。在基因组这方面我们或许不再落后于世界,但在IT方面依旧落后于国外同行。我们是不是有责任尽自己的一点力呢?”

在人们一般的意识中,计算机先进与否的标准之一是运算速度,比如说最新先进的计算机可以模拟核试验—这就需要极高的运算速度。但在基因产业中,则对高性能计算机提出了更多的要求。在生物学中,其对数据量的要求会远远超过其它行业。孙告诉记者:”也许我们对数据运算量及精度、速度的要求没模拟核试验那么高,但我们更突出的是对信息的吞吐量高。”

孙健冬在工作中遇到的具体问题就是大文件量的吞吐(IO吞吐),当一下有几万个文件同时向上传的时候,对操作系统是非常严峻的考验。一般来说,同时上传几万个文件在其它使用者那里是很少遇到的情况,而在华大,则是经常的情况。

包括华大在内的基因研究机构对IT技术有着共同的需求,包括快速的处理器、保证处理器和内存可扩展性的体系结构、超大的存储系统、基于Web的访问和提交能力及强劲可靠的操作系统。我们期待着更好国产超级计算机能进入世界基因研究赛场。

基因时代:中国计算机遭遇数据黑洞 - 没有王子的白 - 2001-02-19 01:43:57

"对于内存来说,曙光2000一共有四个节点,每个节点带2G的内存,一共是16G内存(16000兆),而目前市场上很高档的PC的内存也就256兆而已。曙光2000的峰值运算速度是3000亿次/秒。" 小问题:4个节点,每个节点2G内存,怎么是16G内存呢?:( 小建议:内存的差距最好跟服务器相比,而不是什么高档PC,虽然这看着比例小了很多,在服务器上,8G,16G内存挺平常的:)

Re:基因时代:中国计算机遭遇数据黑洞 - 信海光 - 2001-02-19 02:06:10

谢谢 当时采访的时候要求他讲得能让老百姓听懂 结果他就这么比了 实际上我也不精通此道。 以后还要多学习。

问下信兄,你的文章为何总是那么牛气啊?! - 一撇后生 - 2001-02-19 11:48:40

看了2001年的这几期的电脑报,总能看见信兄的文章见之于《电脑报》的综合报道之中,而且文章的质量和信息都很不错.....不知道信兄是如何收集这些牛气信息和写好这些牛气文章的?! Staff only啊,不会吧?!

Re:基因时代:中国计算机遭遇数据黑洞 - 信海光 - 2001-02-19 17:14:58

:)

基因时代:中国计算机遭遇数据黑洞 - go2000 - 2001-02-19 22:18:28

那天看到了《超级电脑与基因》的标题,破天荒地买了一张《电脑报》,仔细看过文章后,有一些意见,供参考。 1)巨型机的研制,最重要的是国家安全的需要。去年IBM交付的最快的巨型机(12万亿/秒),买主是美国能源部,用于核实验模拟。即使如此,它也只能做部分的核实验模拟,完全的核实验模拟,需要百万亿/秒以上的巨型机。下一台百万亿/秒巨型机的买主,肯定还是美国能源部。 基因现在还不是巨型机的发展动力,只是在传统的核物理、密码和气象之外的另一个用户而已。 2)曙光是国内三家巨型机研制单位的老三,所以,它不称敢老大。2月17日推出的曙光3000,如果只有64个CPU,比SUN的50个CPU机器的性能,就好不到哪去(整机的性能小于拥有的CPU性能之和)。而且,别的巨型机使用的CPU,已经多到几百个了。 去年《科技日报》的国内十大科技新闻之三,说的是高性能计算的突破。实际所指的,是国内首台万亿/秒以上的巨型机,它代表了国家现在的水平。 3)国外按照我国的计算能力,出售水平相当的高级计算机,历来如此。但参照的是老大的能力,而不是老三的。因此,将功劳归于老三,是偏颇的。同样,我国进入巨型机的第一阵营,也不是老三的功能。 4)文中还有一些常识性的错误(包括64个CPU),请多核对。

Re:基因时代:中国计算机遭遇数据黑洞 - 信海光 - 2001-02-19 22:27:52

谢谢您的认真。 但或许你没仔细看我这一篇文章。 您所提到的一些问题是电脑报上的文章。 那是一个应用编辑手法的产品,甚至和我这个东西的命题是有点相反的。 电脑报传达的是国产计算机赶上来了,我传达的是世界计算机在基因时代要重新思考。 这当中很有意思。 因为一篇同样的素材可以归纳出不同的倾向性。 这就是编辑手法:)

Re:基因时代:中国计算机遭遇数据黑洞 - go2000 - 2001-02-19 22:47:01

你的文章好多了,不象电脑报那篇,好象是某个公司的宣传稿。 但不管如何编辑,我说的问题仍然存在,只是没有那么明显罢了。

Re:基因时代:中国计算机遭遇数据黑洞 - 信海光 - 2001-02-20 00:40:10

1)巨型机的研制,最重要的是国家安全的需要。去年IBM交付的最快的巨型机(12万亿/秒),买主是美国能源部,用于核实验模拟。即使如此,它也只能做部分的核实验模拟,完全的核实验模拟,需要百万亿/秒以上的巨型机。下一台百万亿/秒巨型机的买主,肯定还是美国能源部。 基因现在还不是巨型机的发展动力,只是在传统的核物理、密码和气象之外的另一个用户而已。 我是这样理解的:传统的理解是不是发展动力,但在基因时代已经成为一种动力你提的是百万亿次每秒,而我文中资料是千万亿次每秒,可见基因工程对计算机的要求更高。 "在人们一般的意识中,计算机先进与否的标准之一是运算速度,比如说最新先进的计算机可以模拟核试验---这就需要极高的运算速度。但在基因产业中,则对高性能计算机提出了更多的要求。在生物学中,其对数据量的要求会远远超过其它行业。孙告诉记者:"也许我们对数据运算量及精度、速度的要求没模拟核试验那么高,但我们更突出的是对信息的吞吐量高。" 2)曙光是国内三家巨型机研制单位的老三,所以,它不称敢老大。2月17日推出的曙光3000,如果只有64个CPU,比SUN的50个CPU机器的性能,就好不到哪去(整机的性能小于拥有的CPU性能之和)。而且,别的巨型机使用的CPU,已经多到几百个了。 去年《科技日报》的国内十大科技新闻之三,说的是高性能计算的突破。实际所指的,是国内首台万亿/秒以上的巨型机,它代表了国家现在的水平。----咱们的认识没什么区别,就是曙光不堪重负。 3)国外按照我国的计算能力,出售水平相当的高级计算机,历来如此。但参照的是老大的能力,而不是老三的。因此,将功劳归于老三,是偏颇的。同样,我国进入巨型机的第一阵营,也不是老三的功能。 ----这当中有一个商用机的问题也就是说咱们自己的机器对自己的商用还不完全开放,更何况国外的机器。 4)文中还有一些常识性的错误(包括64个CPU),请多核对。---基础所限制,我现在还没想明白哪里错了(这是被采访对象告诉的),望指点:)