公司新闻

Official news
公司新闻
数据集成技术(三)--分布式ETL技术架构
 

  Hadoop技术在其诞生之初就是定位于大数据的存储、分析。所以在hadoop框架下基于MapReduce实现ETL也是很多企业自然而然的选择。

  上图中给出了一个典型的基于MapReduce的ETL技术架构。 服务端主要包括元数据管理模块、执行引擎模块、数据访问模块。元数据管理模块是系统的基础模块,它描述了系统中所有数据结构的定义,提供元数据存储、访问的服务。系统的其他模块通过公共接口从元数据管理模块获得元数据信息。另外,元数据管理模块提供接口用来导入导出元数据。执行引擎模块是系统的核心模块,又分为流程解析和流程执行两个模块。在流程解析模块,执行引擎获取执行流程的元数据信息,根据这些信息,生成相应的工作流。流程执行模块完成从数据转换到数据解析的所有任务。数据访问模块提供公共的数据访问接口,它屏蔽了各种数据源之间的差异,以一种统一的方式对数据进行查询、删除、修改。

  在基于MapReduce的ETL技术框架下,开发人员只需要Map和Reduce两个函数进行数据转换的并行处理,并基于hadoop生态圈所提供的API接口进行数据抽取和加载。这样可以提高开发效率,而且系统的并行处理能力也有成熟hadoop生态圈得以保证。但是MapReduce程序启动较为耗时,并不适用于数据的实时加载和入库,而且MapReduce作业流程的优化也需要投入大量的时间。


活动五-太阳2注册平台1_1970高奖金官网 活动四-太阳2注册平台5_1970高奖金官网just go 活动三-太阳2注册平台4_1970高奖金官网 活动二太阳2命命注册平台3_1970高奖金官网 活动一太阳2注册平台2_1970高奖金官网