数据仓库 企业的锦囊 - 互联网资料库 - 上网了

(这条文章已经被阅读了 19 次) 时间:2001-02-13 10:45:31 来源:上网了 (上网了) 转载

数据仓库 企业的锦囊

张澜、康增培

  人们在日常生活中经常会遇到这样的情况:超市的经营者希望将经常被同时购买的商品放在一起,以增加销售;保险公司想知道购买保险的客户一般具有哪些特征;医学研究人员希望从已有的成千上万份病历中找出患某种疾病的病人的共同特征,从而为治愈这种疾病提供一些帮助……对于以上问题,现有信息管理系统中的数据分析工具无法给出答案。因为无论是查询、统计还是报表,其处理方式都是对指定的数据进行简单的数字处理,而不能对这些数据所包含的内在信息进行提取。随着信息管理系统的广泛应用和数据量激增,人们希望能够提供更高层次的数据分析功能。为此,数据仓库应运而生。

  数据仓库的概念及特点

  数据仓库概念始于本世纪80年代中期,首次出现是在号称“数据仓库之父”William H.Inmon的《建立数据仓库》一书中。随着人们对大型数据系统研究、管理、维护等方面的深刻识认和不断完善,在总结、丰富、集中多行企业信息的经验之后,为数据仓库给出了更为精确的定义,即“数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合”。

  数据仓库并没有严格的数学理论基础,也没有成熟的基本模式,且更偏向于工程,具有强烈的工程性。因此,在技术上人们习惯于从工作过程等方面来分析,并按其关键技术部份分为数据的抽取、存储与管理以及数据的表现等三个基本方面。

  ⑴数据的抽取:数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等方面。数据仓库中的数据并不要求与联机事务处理系统保持实时同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。

  ⑵存储和管理:数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。

  ⑶数据的表现:数据表现实际上相当于数据仓库的门面,其性能主要集中在多维分析、数理统计和数据挖掘方面。而多维分析又是数据仓库的重要表现形式,近几年来由于互联网的发展,使得多维分析领域的工具和产品更加注重提供基于Web前端联机分析界面,而不仅仅是在网上发布数据。

  提到数据仓库,人们难免会想到仅有一字之差的数据库,那么,数据仓库和我们经常提到的数据库有哪些区别呢?为什么要使用数据仓库呢?

  从数据库到数据仓库

  市场需求是技术发展的源动力。在数据库应用的早期,计算机系统所处理的是从无到有的问题,是传统手工业务自动化的问题。例如银行的储蓄系统、电信的计费系统,它们都属于典型的联机事务处理系统。在当时,一个企业可以简单地通过拥有联机事务处理的计算机系统而获得强大的市场竞争力。记得在80年代末,北京工商银行率先推出了全市个人储蓄通存通兑业务,广大市民便将先前就近存于不同银行的存款一并取出而存入了工商银行。这便是通过联机事务处理系统而获得市场优势的案例。其次,当时单位容量的联机存储介质比现在昂贵得多,相对于市场竞争的压力,将大量的历史业务数据长时间联机保存去用于分析显然是过于奢侈了。因此,联机事务处理系统只涉及当前数据,系统积累下的历史业务数据往往被转储到脱机的环境中。此外,在计算机系统应用的早期,还没有积累大量的历史数据可供统计与分析。从而,联机事务处理成为整个80年代直到90年代初数据库应用的主流。

  然而,应用在不断地进步,当联机事务处理系统应用到一定阶段的时候,企业家们便发现单靠拥有联机事务处理系统已经不足以获得市场竞争的优势;他们需要对其自身业务的运作以及整个市场相关行业的态势进行分析,从而做出有利的决策。同样就拿北京各银行的储蓄业务来说,如今各家都拥有了联网的储蓄系统,再要获得市场竞争的优势,就需要在决策上下功夫,例如在业务密集地区增设自助网点、推出有针对性(如:某类职业圈、某年龄段)的储蓄服务计划。这些决策需要对大量的业务数据包括历史业务数据进行分析才能得到,而这种基于业务数据的决策分析,我们把它称之为联机分析处理。如果说传统联机事务处理强调的是更新数据库——向数据库中添加信息,那么联机分析处理就是要从数据库中获取信息、利用信息。因此,著名的数据仓库专家Ralph Kimball写道:“我们花了20多年的时间将数据放入数据库,如今是该将它们拿出来的时候了。”

  事实上,将大量的业务数据应用于分析和统计原本是一个非常简单和自然的想法。但在实际的操作中,人们却发现要获得有用的信息并非想象的那么容易:第一,所有联机事务处理强调的是数据更新处理性能和系统的可靠性,并不关心数据查询的方便与快捷;联机分析和事务处理对系统的要求不同,同一个数据库在理论上难以做到两全;第二,业务数据往往被存放于分散的异构环境中,不易统一查询访问,而且还有大量的历史数据处于脱机状态,形同虚设;第三,业务数据的模式是针对事务处理系统而设计的,数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和统计。于是,有人感叹:20年前查询不到数据是因为数据太少了,而今天查询不到数据是因为数据太多了。针对这一问题,人们专门为业务的统计分析建立一个数据中心,它的数据可以从联机的事务处理系统、异构的外部数据源、脱机的历史业务数据中得到;它是一个联机的系统,专门为分析统计和决策支持应用服务,通过它可满足决策支持和联机分析应用所要求的一切。这个数据中心就叫做数据仓库。如果需要给数据仓库一个定义的话,那么可以把它看作一个作为决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库所要研究和解决的问题就是从数据库中获取信息。

  那么数据仓库与数据库(主要指关系数据库)又是什么关系呢?回想当初, 人们固守封闭式系统是出于对事务处理的偏爱, 人们选择关系数据库是为了方便地获得信息。我们只要翻开 C.J. Date博士的经典之作《An Introduction to Database Systems》便会发现:今天数据仓库所要提供的正是当年关系数据库要所倡导的。然而,“成也萧何,败也萧何”,由于关系数据库系统在联机事务处理应用中获得的巨大成功,使得人们已不知不觉将它划归为事务处理的范畴;过多地关注于事务处理能力的提高,使得关系数据库在面对联机分析应用时又显得“老革命遇到新问题”——今天的数据仓库对关系数据库的联机分析能力提出了更高的要求,采用普通关系型数据库作为数据仓库在功能和性能上都是不够的,它们必须有专门的改进。因此,数据仓库与数据库的区别不仅仅是应用的方法和目的上的,同时也涉及产品和配置。

  以辩证的眼光来看,数据仓库的兴起实际上是数据管理的一种回归,是螺旋式的上升。今天的数据库就好比当年的层次数据库和网型数据库,它们面向事务处理;今天的数据仓库就好比是当年的关系数据库,它针对联机分析。所不同的是,今天的数据仓库不必再为联机事务处理的特性而奔忙,由于技术的专业化,它可更专心于联机分析领域的发展和探索。

  从厂商的角度看,经过长期发展,联机事务处理系统的市场至90年代中期出现饱和迹象,其增长速度明显减慢。这导致各大数据库厂商的传统业务增长面临严峻挑战,寻求新的业务增长点成为他们的当务之急。数据仓库的兴起无疑为数据库产品创造了巨大的市场,它成为20世纪末到21世纪初数据库市场的一个新的增长点。因此,数据仓库这个词儿打一开始便伴随着轰轰烈烈的市场炒作。对于广大用户来说,只有从自身应用需求出发,破除技术和概念的神秘性,奉行“拿来主义”,避虚就实,密切关注技术发展的方向,方可获得满意的产品、解决方案和经济效益。

  总之,数据仓库并非是一个仅仅存储数据的简单信息库,因为这实际上与传统数据库没有两样。数据仓库实际上是一个“以大型数据管理信息系统为基础的、附加在这个数据库系统之上的、存储了从企业所有业务数据库中获取的综合数据的、并能利用这些综合数据为用户提供经过处理后的有用信息的应用系统”。如果说传统数据库系统的重点与要求是快速、准确、安全、可靠地将数据存进数据库中的话,那么数据仓库的重点与要求就是能够准确、安全、可靠地从数据库中取出数据,经过加工转换成有规律信息之后,再供管理人员进行分析使用。

  数据仓库的体系结构

  IBM、Oracle等厂商都提出了自己的数据仓库结构,但严格说来,任何一个数据仓库结构都是从一个基本框架发展而来,实现时再根据分析处理的需要具体增加一些部件。其中斯坦福大学“WHPS”课题组提出的一个基本的数据仓库模型如图1所示。

  为了能够将已有的数据源提取出来,并组织成可用于决策分析所需的综合数据的形式,一个数据仓库的基本体系结构中应有以下几个基本组成部分:

  ◆数据源 指为数据仓库提供最底层数据的运作数据库系统及外部数据。

  ◆监视器 负责感知数据源发生的变化,并按数据仓库的需求提取数据。

  图1 数据仓库基本体系结构

  ◆集成器 将从运作数据库中提取的数据经过转换、计算、综合等操作,集成到数据仓库中。

  ◆数据仓库 存贮已经按企业级视图转换的数据,供分析处理用。根据不同的分析要求,数据按不同的综合程度存储。数据仓库中还应存储元数据,其中记录了数据的结构和数据仓库的任何变化,以支持数据仓库的开发和使用。

  ◆客户应用 供用户对数据仓库中的数据进行访问查询,并以直观的方表示分析结果的工具。

  应用行业

  新世纪客户关系在各种交易中所起到的作用越来越重要,在市场经济这个天平上的法码也是越来越沉重了。从而使得在目前竞争激烈的知识经济环境和电子商务经济模式下,重要的信息往往可以决定企业的成败,甚至决定企业的生死存亡。因此,很多行业都采用了数据仓库解决方案充当企业决策机构的智囊和参谋。如我们平时所说的民航订票系统、银行ATM系统、证券交易系统、期货交易系统、铁路售票系统、移动通信用户信息管理与服务系统等就是建立在大型数据库基础之上的数据仓库。由于篇幅有限,下面仅就以下行业来加以简单说明。

  证券

  证券公司利用客户行为分析系统将所有客户的操作记录进行归类和整理,并结合行情走势、上市公司资料、宏观微观经济数据等,在掌握大量数据的情况下,对客户的行为和市场各因素的关联、客户的操作习惯、盈亏情况、公司的利润分布等进行统计和分析,从而获得以往一直想获得但却无法获取的关于客户在本公司的行为、盈亏、习惯等关键信息。证券商在获得这些信息后,就有能力为客户提供针对其个人习惯、投资组合的投资建议,从而真正作到对客户的贴心服务。

  银行

  随着社会主义市场经济改革的深化,传统的计划金融模式逐渐瓦解,市场金融模式逐渐形成。在这个变革过程中,由于体制、市场、企业、个体等经济要素变化、发展的不平衡性,带来了银行对各种金融变量控制的随机性和模糊性。如何防范银行的经营风险、实现科学管理以及进行决策,成为当今金融研究的一个重要课题。利用数据仓库的强大功能,银行可以建立企业客户群、个人客户群的数据库,并对企业的结构、经营、财务、市场竞争等多个数据源进行统一的组织,形成一个一体化的存储结构,为决策分析奠定基础。通过先进的信息加工、分析、处理软件,加上银行的经营决策、信贷营销人员的个人经验,对每一个投资方向、每一笔贷款作出科学的判断,可以有效控制投资、信贷风险。

  税务

  增加税收、提高效率、改善执法的一致性与公平性、降低对纳税人的负担和干扰,是税务稽征部门的重要目标。然而这些目标往往又是相互冲突的,要在其间找到最适当的平衡点非常困难。通过应用数据仓库技术,对税收部门的内部和外部数据进行综合分析处理,可以解决三个方面的问题:一是查出应税未报者和瞒税漏税者,并对其进行跟踪;二是对不同行业、产品和市场中纳税人的行为特性进行描述,找出普遍规律,谋求因势利导的税务策略;三是对不同行业、产品和市场应收税款进行预测,制定最有效的征收计划。数据仓库技术之所以能够查出漏税者,其基本思想是通过对大量数据资料的分析来掌握各行各业、各种产品和各类市场的从业人员以及企业的纳税能力,并与其实际纳税金额进行对比,从而查出可能的偷漏税者。澳大利亚政府税务部门将数据仓库技术用于支持税收业务,系统经过3年的运行,投入回报率达到1∶15。

  保险

  随着商业保险公司业务系统日趋完善,数据交换和处理中心的建立,如何满足保险行业日益增长的各种查询、统计、报表以及分析的需求,如何提高防范和化解经营风险的能力,如何有效利用这些数据来实现经营目标,预测保险业的发展趋势,甚至如何利用这些数据来设计保险企业的发展宏图以在激烈的竞争中赢得先机,是保险决策支持系统需要解决的问题,也是目前保险企业在信息技术应用上的首要难题。

  数据仓库的实施

  数据仓库是一个解决方案,而不是一个可以买到的产品。不同企业会有不同的数据仓库,企业人员往往不懂如何利用数据仓库,不能发挥其决策支持的作用,而数据仓库公司人员又不懂业务,不知道建立哪些决策主题,从数据源中抽取哪些数据,因此需要双方互相沟通,共同协商开发数据仓库。

  开发数据仓库流程包括以下几步:

  ◆启动工程 建立开发数据仓库工程的目标及制定工程计划。计划包括数据范围、提供者、技术设备、资源、技能、组员培训、责任、方式方法、工程跟踪及详细工程调度。

  ◆建立技术环境 选择实现数据仓库的软硬件资源,包括开发平台、DBMS、网络通信、开发工具、终端访问工具及建立服务水平目标(可用性、装载、维护及查询性能)等。

  ◆确定主题进行仓库结构设计 因为数据仓库是面向决策支持的,它具有数据量大但更新不频繁等特点,所以必须对数据仓库进行精心设计,才能满足数据量快速增加而查询性能并不下降的要求。

  ◆数据仓库的物理库设计 基于用户的需求,着眼于某个主题,开发数据仓库中数据的物理存储结构。

  ◆数据抽取、精练、分布 根据数据仓库的设计,实现从源数据抽取数据、清理数据、综合数据和装载数据。

  ◆对数据仓库的OLAP访问 建立数据仓库的目的是要为决策支持服务,所以需要各种能对数据仓库进行访问分析的工具集,包括优化查询工具、统计分析工具、C/S工具及数据挖掘工具,通过分析工具实现决策支持需要。

  ◆数据仓库的管理 数据仓库必须象其他系统一样进行管理,使数据仓库正常运行。

  另外,在实施数据仓库时,还应注意以下问题:

  (1)与传统业务系统不同,数据仓库是面向管理决策层应用的,必须有系统自身的最终用户——企业决策层的参与。数据仓库应用本身并不是业务流程的再现,而是基于数据分析的管理模式的体现。在这个层次上,数据仓库对于企业决策层的意义首先不是信息技术和产品上的,而是企业经营管理模式上的。数据仓库的实施者需要在商业智能化如何能够帮助企业获得市场竞争力上下工夫,提供切实有效的系统实施目标和规划,使得企业决策层充分认识到数据仓库是他们自己所需要的系统,在投入和配合上给予充分的支持。

  (2)由于数据仓库的访问和查询往往能够通过工具来提供,因此数据仓库的功能取决于系统的规划和设计。在了解数据仓库应用需求的时候,主要的对象应该是企业的决策部门和管理部门,而不是信息系统部门。了解应用的需求必须从企业如何利用信息进行管理的角度出发,需要有丰富的行业经验。在这个阶段,对于国内数据仓库应用来说,可以将复杂的数据分析需求分解成若干专题,这些专题在行业内往往具有一定的普遍性,有现成的设计模式可以借鉴。数据仓库的设计实施也宜逐个击破,每个阶段都能满足一部分用户的需求,最后获得全面的成功。

  (3)在对待原始数据的问题上,我们需要坚持一个原则,就是不拘泥于业务系统的现状。由于数据仓库是独立于业务系统的,数据仓库的实施将以管理层需要的分析决策为主线,在设计中可以为不确定数据预留空间。对于数据的完整性和质量问题可通过如下方式处理:利用多种方式加载数据,可以设计专门的输入接口收集数据,如获取客户的个人资料;放宽数据的时效性,在分析中标明个别数据的有效时间;在系统中标识出低质量的数据,规范业务系统。

  (4)数据的抽取、转换和装载是一项技术含量不高但却非常烦琐的工作,在系统实施过程中建议由专门小组或人员负责数据抽取的工作,将其纳入统一的管理和设计,不仅考虑原始数据源的类型,还必须考虑抽取的时间和方式。一个数据仓库系统往往同时存在多种数据抽取方式以适应原始数据的多样性,因此讨论单一抽取工具的选型是没有意义的,原则只能有一个:简便、快捷、易维护。

  (5)用户对数据仓库的认识常常从报表起步,但数据仓库并不是为业务报表而设计。需要指出的是,数据仓库的分析工具在固定格式的报表再现上有时不如专门定制的程序。因此,以解决报表问题作为建立数据仓库的目的一般都会以用户的失望告终。数据仓库的强项在于提供联机的业务分析手段,正因为数据仓库的使用,才使管理人员逐步摆脱对固定报表的依赖,取而代之地以丰富、动态的联机查询和分析来了解企业和市场的动态。

  (6)系统的实施需要明确的计划和时间表,新的技术和产品可以分阶段加入,但要避免无休止的测试和选型。因为数据仓库的价值在于使用,如果让一些没有必要的信息去指导决策,那么数据仓库将永远停留在投资阶段。在定义实施计划时,需要明确系统的使用范围、用户的应用模式等与选择具体产品相关的重要问题。

  市场及未来

  数据仓库是数据管理技术和信息市场上一个方兴未艾的领域,有着良好的发展前景。由于数据仓库技术包括数据抽取、存储管理、数据表现和方法论等,所以其发展方向也充分表现在这几个方面。在数据抽取方面,未来的技术发展将集中在系统集成化方面,它会将互连、转换、复制、调度、监控纳入标准化的统一管理机制,以适应数据仓库本身或数据源可能的变化,使系统更便于管理和维护。在数据管理方面,未来的发展将会使数据库厂商不断推出数据仓库引擎,用以作为服务器的产品,使之能与数据库服务器并驾齐驱。在这一方面,带有决策支持扩展的并行关系数据库将最具发展潜力。在数据表现方面,数理统计的算法和功能将普遍集成到联机分析产品中,同时还会与Internet/Web技术紧密结合,推出适用于Intranet、终端免维护的数据仓库访问前端。在这个方面,按行业应用特征细化的数据仓库用户前端软件将会成为产品而作为数据仓库解决方案的一部分。数据仓库实现过程的方法论将会更加普及,将会成为数据库设计的一个明确分支,成为管理信息系统设计的必备。

  以计算机应用发展为基础的数据仓库更注重的将是数据仓库发展的推动力。传统的联机事务处理系统并不单独考虑数据仓库,但实际应用对数据仓库所能提供的功能却早有需求。因此,许多事务处理系统在近几年中陷入一个两难的境地。因为在现有系统上增加包括复杂的报表和数据汇总操作的有限联机分析功能,一方面严重影响了事务处理联机性能,另一方面统计分析又因系统结构上的种种限制而不能充分体现,其结果将是应用技术的发展是朝着更加细化、更加专业的方向。而在新一代的应用系统中,数据仓库在一开始便被纳入系统设计的考虑,联机分析应用于普遍的事务处理系统之中。在数据管理上,联机事务处理和数据仓库在应用中相对独立,使联机事务处理系统本身更加简洁高效,同时分析统计也更为便利。面向行业的数理统计学向更为普遍的应用发展,并集成到应用系统的数据仓库解决方案中。它们将会立足于数据仓库提供的丰富信息,更好地为业务决策服务。

  在市场上,我们将从厂商和用户两个方面看数据仓库的发展。对于提供数据仓库产品和解决方案的厂商来说,严酷的市场竞争是永恒的主题。未来的发展将是不提供完整解决方案的厂商可能被其他公司收购,例如从事数据抽取、提供专用工具的软件公司很可能并入大型数据库厂商而去构建完整的解决方案。能够持续发展的厂商大致有两类:一是拥有强大的数据库、数据管理背景的公司;二是专门提供面向具体行业的、关于数据仓库实施的技术咨询的公司。

  从用户的角度看,除数据管理的传统领域,如金融、保险、电信等行业中的特定应用,是数据仓库的主要市场之外,数据仓库的应用将会随着现代社会商业模式的变革而进一步普及和深入。近年来,一场悄悄的革命正在改变产品制造和提供服务的方式,它就是数字化定制经济模式。在未来大规模定制经济环境下,数据仓库将会成为企业获得竞争优势的关键武器。

  总之,数据仓库是一项基于数据管理和利用的综合性技术和解决方案,它将成为数据库市场的新一轮增长点,同时也将会成为下一代应用系统的重要组成部分。数据仓库对于广大计算机用户,包括中国用户,并不遥远。它看得见、摸得着、买得到。数据仓库技术其实也不神秘,至少比绝大多数统计学定理来得简单。

  厂家产品

  CA

  数据仓库的应用是企业迈向新生代的一个尝试,但在数据仓库的应用中却又面临着各种各样的困难,如怎样从大量积累数据中提取信息;如何对信息实现足够的访问与分析功能;数据入库处理与应用程序是否归档了;是否能够最终实现真正的信息价值,是否能够轻易地辩认出哪些将受环境中的变动影响等等一系列的问题重新摆在了企业的面前。

  为此,CA为我们提供了一个稳健的知识管理解决方案基础架构Decision Base,它能够满足任何企业的需要,能够集成完全不同的技术解决方案。通过对这些工具、应用程序、进程与咨询服务的结合能够使您的商业战略更具竞争性,使企业得以在市场中生存。

  CA数据仓库解决方案的特色

  ◆独特的元数据管理与应用

  数据仓库必须优化,以更好地实现数据存取、大量的数据分析乃至交易分析,必须确保数据仓库能够从正确的地方搜集与存储详细的数据,以便进行正确的分析。元数据管理是仓库环境、性能、利用率的关键基础,最终的数据仓库的价值取决于基础设计。CA的数据仓库解决方案Decision Base利用其知识库(Repository)作为中心记录用户的信息资产——关于入库信息的数据。使商业用户能够更轻易地驾驭数据仓库和理解常有的隐含的数据信息。这样元数据就象地图一样,它告诉用户的数据仓库里有什么信息,这些信息来自哪里。

  ◆数据转换

  CA Decision Base Reporter提供了简便的方案,创建与共享特定报表,并将其转换为生产报表。它支持在报表内进行多重查询—使用户可在其报表中创建多重一对多关系,并可进行并列比较。无需昂贵的中间件或临时表格,报表生成程序就可将来自不同数据库的数据链接起来,使CA Decision Base Reporter能够轻松创建具有专业外观的报表。

  ◆解析处理功能

  CA将三维可视化技术运用到了Decision Base OLAP Server中,从而为复杂的数据提供了更好看、更为直观的界面。这样,用户就能集中精力设计专门的商务功能——提供更稳健的电子商务应用程序,使他们能够更快地进入市场。CA Decision Base OLAP Server提供了多维视角,并可通过标准关系数据库顶端的“虚拟立方”实现分析处理功能。OLAP Server允许用户通过基于LAN的客户机或在浏览器内现场编辑与执行任何分析,动态编辑数据。在任何层级或细节跟踪与分析关键商业指标。因为它是Web激活的,所以应用程序可通过Internet、Intranet或Extranet服务器在企业内轻松配置。

  ◆预测管理功能

  CA Neugents是企业用于预测管理的先锋。Neugents能够预测商业结果、规划前景、预计收入,并可识别对这些方面有所影响的因素。Neugents与基于规则的系统及基于经验的推论(EBR)一起提供了一整套聪明的解决方案,可用于任何商业问题。通过Neugents与Decision Base,能够检测企业的客户数据,预测他们最可能购买哪些产品,然后据此安排生产系统。Neugents可在应用程序内建立学习功能,应用程序可清楚地显示过去所发生的状况,并根据已经改变的环境做出正确的反应。

  IBM

  IBM公司新推出的DB2 UDB 7.1主要实现以下功能:电子商务,包括e-commerce、 ERP、 客户关系管理、供应链管理、网络自助和商业智能,帮助企业实现电子商务;商业智能,利用已有的数据资源来支持企业决策,包括数据访问、数据分析、成本控制,获取新的商业机会和提高客户忠诚度;数据管理,包括准确高效地运行查询和应用,安全地存储、访问数据,数据恢复,在复杂的硬件环境下实现应用;增强DB2家族,满足当今异构计算环境需求,实现开放式解决方案。

  它主要有以下特性:

  ◆集成能力强

  主要包括通用数据支持、免费新增数据仓库中心和DB2 OLAP starter kit。用户可以使用DB2的数据连接器(DataJoiner),象访问DB2数据资源一样访问Oracle、Sybase、Informix、SQL Server等数据库。DB2 UDB的用户现在可以跨越DB2数据库、Oracle数据库或者一个OLE DB资源进行分布式的查询,也就是可以通过使用DB2通用数据库的SQL句法和API在一个工作单元的查询内访问和处理保存在异构数据资源中的数据。

  ◆高级面向对象SQL

  DB2 UDB V7中包含了一些先进的SQL功能,对开发人员和分析员都非常有用。DB2可以提供临时表格支持、应用存储点(saving point)、标识栏(ID Column)和嵌套存储过程。

  ◆Windows集成

  DB2 UDB 7.1增加了对于Windows环境集成的支持:OLE-DB 2.0版本的客户端支持功能;OLE存储过程的集成支持;Visual Studio集成;LDAP on Win2000支持;扩展用户ID支持。DB2 V7.1加强了对OLE-DB的支持功能。现在用户可以用OLE-DB的应用工具通过本地的OLE界面来访问或查询DB2数据,也可以通过OLE-DB的表格功能把数据装载到DB2中。

  提供三个新的扩展器:

  ◆空间扩展器(Spatial Extender)

  新版DB2提出了空间SQL查询概念(Spatially Enabled SQL Queries),使用户可以在关系型数据库中集成空间数据(通过坐标确定位置)和普通的SQL 数据。这两种技术的结合使用户可以进行新型查询。新的空间扩展器将能够存储和索引空间数据(坐标信息),并使用户通过特定的空间数据查询对其进行访问。

  ◆DB2 XML扩展器

  IBM DB2 XML Extender体现了IBM全面的XML技术策略,在电子商务领域居业界领导地位。XML扩展器是IBM B2B服务器的组成部分,使DB2服务器可以支持XML。通过XML扩展器提供了XML文档在DB2中的存储和恢复机制,并可高效地查询XML内容。通过数据交换,XML扩展器提供新的和已存在的DB2相关表格和XML格式文档之间的映射。DB2用户可以在任何地方通过XML扩展器进行电子商务,实现企业之间(B2B)和企业与消费者之间(B2C)的应用。

  ◆Net.Search扩展器

  DB2 Search Extender包括一个DB2存储过程,提高了Net.Data、Java和DB2 Call Level 界面应用的快速全文本查询功能。它为应用编程者提供了大量查询功能,例如模糊查询、逆序查询、布尔操作和分区查询。在Internet中使用DB2 Net.Search Extender进行查询具有极大的优势,特别是在遇到并行查询的大型检索时。

  Oracle

 Oracle公司作为世界上最大的数据库厂家之一,凭借其在技术、资源和经验上的优势,一直致力于为企业提供最能满足企业竞争需要的数据仓库解决方案。Oracle的数据仓库解决方案包含了业界领先的数据库平台、开发工具和应用系统。Oracle数据仓库突破了现有数据仓库产品的局限,能够帮助企业以任何方式访问存放在任何地点的信息,在企业中的任何层次上,满足信息检索和商业决策的需求。

  体系结构

  Oracle数据仓库包含了一整套的产品和服务,覆盖了数据仓库定义,设计和实施的整个过程。图2描述了Oracle数据仓库的组成部分。

  Oracle提供完整的产品工具集满足上述数据仓库的用户需求:

  ◆Oracle 8i 数据仓库核心,是最新版本的数据库产品,专门针对数据仓库进行了很多的改进,包括对更大数据量的支持(PB级)、对更多用户数的支持、更多数据仓库专用函数的支持等。

  ◆Oracle Warehouse Builder 可以为数据仓库解决方案提供完整、集成的实施框架,以前只能由单独工具完成的功能现在能够在同一环境中实现,这些功能包括:数据建模、数据抽取、数据转移和装载、聚合、元数据的管理等。Oracle Warehouse Builder还实现了数据仓库不同部件如关系数据库、多维数据库以及前端分析工具的集成,为用户提供完整的数据仓库和商业智能系统。

  ◆Oracle Developer Server 企业级的应用系统开发工具,具有面向对象和多媒体的支持能力,可同时生成Client/Server及Web下的应用,支持团队开发,具有极高的开发效率及网络伸缩性。

  图2 Oracle数据仓库体系结构图

  ◆Oracle Discoverer 是最终用户查询、报告、深入、旋转和WEB公布工具,能够帮助用户迅速访问关系型数据仓库,从而使他们作出基于充分信息的决策。由于此类工具直接基于关系数据库,我们也称此类工具为ROLAP型分析工具。

  ◆Oracle Express产品系列 是基于多维数据模型OLAP分析和WEB访问工具,能够提供复杂的分析能力,其中包括预测、建模和假设(What-if)分析。满足高级分析用户的需求。

  ◆Oracle Darwin 基于数据仓库的数据挖掘工具,简单易用的图形化界面,提供决策树、神经网络等多种数据挖掘方法,支持海量数据的并行处理,分析结果可以和现有系统集成。

  Sybase

  Sybase的Warehouse Studio是一个针对数据仓库应用的集成化的解决方案,包括:设计组件(Warehouse Architect)、元数据管理软件(Warehouse Control Center)和一个可选的用于集成的组件(Power Stage)数据管理软件(Adaptive ServerIQ)和提供一些具有可视化功能的分析软件(Business Object,Cognos,Brio,Micro Strategy和English Wizard)。下面将详细介绍Warehouse Studio的各个组成部分。

  ◆Warehouse Studio设计

  为了能够使用最通用的关系数据库和多维数据库的设计方法建立数据仓库模型,Sybase专门开发了数据仓库设计工具Warehouse Architect。这个工具为设计人员建立了一个非常友好而单一的环境,能让数据建模人员和系统设计人员很方便地处理数据仓库设计中特殊的应用需求。Warehouse Architect为数据仓库的设计提供了三大类功能,即:

  (1)多维建模 在Warehouse Architect环境中,设计人员可以使用针对数据仓库问题的所有常用的设计方法,可以获得处置数据多维特性的功能支持。在这个环境中,可以使用自顶向下的建模方法或者是使用自底向上的建模方法获得各种设计。

  (2)设计向导 Warehouse Architect所提供的设计向导,可以帮助设计人员生成数据的多维层系结构、可以为聚合(aggregation)、划分(partition)、导入(importing)处理而优化的数据结构,还可以用逆向工程的方法获得源数据定义。

  (3)优化代码的生成 Warehouse Architect能够生成最流行的目标数据仓库和应用环境的目录信息所需要的代码,对不同的环境所生成的代码也不同。

  ◆Warehouse Studio的管理

  无论要建立的目标系统是数据仓库还是数据集市,总的目的都是帮助用户更好和更有根据地做出决策。在数据仓库的建设中,将数据加载到数据仓库只是完成了整个工作中很小的一部分。因此,Sybase特意提供了Warehouse Control Center,这是Warehouse Studio的管理组件。通过对元数据的运用和管理,这个组件在信息系统与数据仓库的用户间架起了一座桥梁。

  ◆数据管理选件Adaptive ServerIQ

  为了支持数据仓库应用中大量交互式的和无定型的查询处理的需要,Sybase特意设计了它的新系统Adaptive ServerIQ。

  Adaptive ServerIQ是数据管理领域和传统数据管理技术中各种创新技术(其中很多是Sybase具有专利权的技术)的集中体现,它所提交的DBMS对于用户日常的业务运作没有任何妨碍。Adaptive ServerIQ所具备的新技术包括:高级索引方法与存取方法、预优化及即兴式连接策略、数据缩减和各种划分方法。通过对这些技术的综合运用,Adaptive ServerIQ突破了传统技术的很多限制,为在多用户环境下的交互式分析提供了统一而高效的支持功能。

  ◆Warehouse Studio的集成选件

  Warehouse Studio中的组件Power Stage,可以对应用开发人员提供帮助,使整个处理过程中那些最困难和最费时间的工作(从数据的抽取到系统的集成)自动完成或者得以简化,同时保证快速得到可靠的结果。在Power Stage转换功能的支持下,借助于以下技术设施,开发者很容易取得所需要的数据。Power Stage运用一种可视化模型,将对数据进行抽取、变换、预处理和向数据仓库中集成的全过程直观地展现出来。通过使用“工作流”图以及一种称之为“驿程(Stage)”的预定义的而且可重用的组件作为构件,用户很容易模拟数据从数据源到目标仓库的流动过程。使用一种图形化的点击式的界面,可将各个“Stage”链接起来。

  ◆Warehouse Studio的可视化特性

  业界很多技术领先的可视化工具厂家(包括Business Object, Cognos,SAS,Brio,Information Advantage等等)的产品都支持Warehouse Studio。

  Informix

  Informix DataStage 是一个可以简化和自动从任意数据源中抽取、转换、集成和装载数据的集成化工具。Informix DataStage 的可视化设计使用户可以通过一个直观的可视模型设计数据的转换过程。它允许开发者添加更多的数据源、目标及转换程序,而无需重建应用程序,因此可降低成本,减少时间和资源。由于能快速确定解决方案,用户可以在短时间存取他们所需的数据,从而作出更明智的商业决策。

  建立数据仓库的过程不仅涉及到数据集市或数据仓库的初始设计,而且涉及到处理过程的集成、维护及扩展环境,以便适应新的数据源、新的过程和新的目标。作为一个综合的、基于组件的系统,Informix DataStage 支持联机数据仓库抽取过程:设计、构建、集成、维护和扩展你的数据仓库环境。

  ◆开放的、可扩展的体系结构

  构建一个数据集市包含许多普通的操作,而每个执行过程都不可避免地需要定制解决方案,使之适应特定的分析需求。有经验的开发者懂得如何定制以便处理特殊的数据格式、专业化的商业规划处理和复杂的逻辑转换,这些工作大约占用构建数据集市或数据仓库所需的80%以上的成本和时间。Informix DataStage 提供一个基于组件的体系结构,可以通过模型化、重复使用模块(如文件载入和聚合)来简化和加快开发过程。另外,它还提供了更为强大的可伸缩性和经济性,允许用户建立反映特定应用需求的组件,然后封装这些组件以便重用。

  Informix DataStage 利用开放的应用程序接口(API)和开发工具箱来扩展基于组件的体系结构。使用这个接口,用户能够方便地构建新的被称为 Plug-In的组件。利用这些Plug-In,用户可以捕获定制的转换和商业规则,自动归档并在 Informix DataStage 环境中重复使用,使用户能构建一个可扩展的附加功能库。

  这一开放的体系结构可以减少开发环节并降低项目成本。Informix DataStage 使用户能建立数据仓库解决方案, 从而快速地满足所有用户的需求并节约成本。

  ◆Informix DataStage组件

  设计器——这是一个强大的,基于图形用户界面(GUI)的开发工具,它包含一个转换引擎,一个元数据存储和二种编程语言(SQL和BASIC)。使用设计器的拖拉功能,用户能在准备数据集市中建立一个数据转换过程模型,防止操作系统的中断及避免执行错误。

  存储管理器——在开发数据集市的过程中,使用存储管理器浏览、编辑和输入元数据。这可能包括来自操作系统的元数据或目标集市以及来自开发项目中新的元数据(例如新的数据类型定义、传输定义和商业规则)。

  控制器——使用控制器和运行引擎来规划运行中的解决方案,测试和调试它的组件,并监控执行版本的结果(以特别要求或预定为基础)。

  管理器——管理器简化数据集市的多种管理。使用管理器来分配权限给用户或用户组(控制Informix DataStage客户应用或他们看到的或执行的工作),建立全局设置(例如:用于自动清除日志文件的缺省设置),移动、重命名或删除项目和管理或发布从开发到生产的状态。

  服务器——Informix 在服务器方面强大的技术背景使得Informix的 Server 提供了很高的性能:高速转换引擎、临时的数据存储、支持legacy及关系数据结构、强大的预定义转换等等。另外,Informix DataStage服务器通过多个处理器平台优化来强化可伸缩性,支持多种数据输入/输出方法,容易添加新的数据源及转换方法。

  微软

  今年4月,微软发布了SQL Server 2000 Beta2版本,供用户测试评估该公司下一版本的旗舰数据库系统。SQL Server 2000已经在性能和可扩展性方面确立了世界领先的地位,是一套完全的数据库和数据分析解决方案,使用户可以快速创建下一代的可扩展电子商务和数据仓库解决方案。

  ◆具有完备的Web功能

  SQL Server 2000提供完全集成的、基于标准的XML支持,它对于Web开发人员和数据库程序员来说都是灵活、高效而且易于使用的。数据挖掘功能可以自动地从大量的商业信息中进行筛选,帮助客户找出未被发现的新机会,预测在商业中制胜的策略。

  ◆高度可扩展性和高可靠性

  SQL Server 2000引入了一个新的特性,被称为分布式数据库分区视图(Distributed Partitioned Views)。它可以把工作负载划分到多个独立的SQL Server服务器上去,从而为实施电子商务的客户提供了无限制的可扩展性。SQL Server 2000分析服务允许对拥有数以亿计成员的维进行多维查询,支持对Web数据集的高速分析。

  ◆加速应用开发

  SQL Server 2000与Windows 2000的活动目录服务的紧密集成允许集中管理SQL Server 2000和其它企业资源,从而极大地简化了大型组织中的系统管理任务。SQL Server 2000提供了重要的安全性方面的增强,保护防火墙内和防火墙外的数据。SQL Server 2000支持强有力的、灵活的、基于角色的安全,拥有安全审计工具,并提供高级文件加密和网络加密功能。

  ◆Windows DNA 2000和SQL Server

  Microsoft Windows DNA是建立和部署Internet商业应用程序最全面的集成平台。Windows 2000 DNA的核心—Windows 2000操作系统。Microsoft SQL Server可以在Windows DNA环境下快速建立Web解决方案。SQL Server减少了建立电子商务应用、商业智能(数据仓库)和商业线路应用所需的时间,同时保证了这些应用具有在最苛刻的环境下面所需要的可扩展性。

  NCR

  在长期的实践过程当中,NCR形成了一套独特的数据仓库方法论和实施框架,这套理论被称为可扩展数据仓库 (Scalable Data Warehouse, 简称为SDW)。

  NCR可扩展数据仓库的基本框架主要分成三个部分:

  ◆数据装载 把所谓的操作数据或源数据利用一定的方法如提取(Extract)、过滤(Filter)、清理(Scrub)、家庭关系识别(Household)等,从生产系统中转换到中央数据仓库中。这种转换分成逻辑与物理两部分,即先根据业务问题建立数据库逻辑模型,然后在此基础上构造物理模型,将操作数据加载到物理表中。逻辑建模应该基于要解决的业务问题进行,而不是基于目前的系统能提供什么数据进行。换言之,数据仓库的出发点是解决业务问题,而不只是提供一个信息转换与访问的工具。

  ◆数据管理 这一部分是整个数据仓库的心脏,它必须采用一个具有优良并行处理性能的关系数据库管理系统。当数据仓库非常庞大而且复杂时,为了提高性能,可以建立一些面向部门应用的数据集市,这些数据集市中的数据是从中央库中通过复制与传送等手段拷贝过来的。

  ◆信息访问 这是前端工具,主要提供给有关业务部门访问数据仓库中的信息使用,一般都采用一些具有图形界面、交互功能强的查询工具。

——————————————————————————–

  下期预告:

  面向互联网应用的服务器

  前一段时间,记者在采访过程中发现很多用户对互联网服务器产品了解的并不是很多,很少有用户有较深刻、全面的认识。因此,记者觉得有必要专门向广大用户全面地介绍有关互联网服务器的知识,帮助用户更好地了解互联网服务器,为用户的选购提供充分的依据。

  服务器产品有很多,但在面向互联网应用时同传统的服务器产品相比在技术、功能、性能、应用方面有哪些不同?互联网服务器产品目前的市场状况如何?发展趋势怎样?在构建Internet/Intranet应用时,用户如何选择适合自己的服务器产品?

  互联网服务器可以分为硬件产品和软件产品,本次调查是面向硬件设备的,后面还有针对软件产品的调查。

  现向各服务器厂商征集介绍互联网服务器的历史、技术、市场发展和本公司产品特色的文章。本专题将于2001年1月8日出刊,请于2000年12月27日前将资料E-Mail至:[email protected]

  电话:010-63951155-2907

  联系人:李维森