关注BI应用性能 数据仓库引擎选择是关键
数据仓库引擎是BI中的核心,它的性能高低直接决定了BI的表现。
一个完整的BI(Business Intelligence)应用通常涉及数据仓库引擎及其相关的设计建模工具、ETL工具、前端展现工具等。这里的数据展现主要作用是以图表、Dashboard等形式将结果呈现给用户;ETL负责将原始数据进行抽取、转化、清洗、装载进数据仓库;数据仓库负责执行数据的存储和管理,并执行前端展现工具提交的各种查询分析任务。在BI应用中,数据仓库类似于汽车的引擎,居于核心地位,它的性能高低直接决定了BI应用的响应速度。而在大型BI应用中,性能是一个非常关键的问题,特别是那些有着海量数据、需要完成复杂查询任务的系统,数据仓库引擎的选择就更为关键。
不同的技术路线
综观目前的数据仓库市场,能提供这一个工具的供应商并不多,一线的厂商主要有Teradata、IBM、Oracle、Sybase、Microsoft等。尽管同为数据仓库引擎,但是这些供应商各自所走的技术路线并不同,不同的技术也导致了它们的产品具有完全不同的特点。
Teradata应该算最为特立独行的一个。Teradata数据仓库主要运行在NCR WorldMark SMP硬件的Unix操作系统平台上(该公司也提供基于Windows NT的Teradata),它的高性能主要通过Teradata与NCR硬件平台海量并行处理服务器(Massively Parallel Processing, MPP)结合,以及采用特有BYNET协议和查询优化等技术实现并行等机制来实现。由于采用一些专有的硬件和技术,因此,价格较高,是数据仓库中的贵族。
IBM、Oracle和Microsoft的数据仓库引擎属于同一类,它们都提供数据库产品,其数据仓库引擎和数据库引擎从技术上说有很多相似之处。这种技术路线给它们带来的好处是,其数据仓库解决方案很自然地从数据库技术拓展和延伸而来,集成性、延续性比较突出。
与IBM、Oracle等相比,虽然Sybase也同时提供数据库和数据仓库产品,但是,其Sybase的数据仓库引擎却走了一条与其数据库、也与Oracle、IBM完全不同的技术路线。其中最大的不同就是在Sybase数据仓库引擎(即Sybase IQ)中采用列存储架构,而所有关系型数据库引擎广泛采用的则是行式存储。
集成系统网络情报信息数据库
CIO频道人物视窗
CIO频道方案案例库
大数据建设方案案例库
电子政务建设方案案例库
互联集成系统构建方案案例库
商务智能建设方案案例库
系统集成类软件信息研发企业名录

