本文共 501 字,大约阅读时间需要 1 分钟。
ETL是数据的提取、转换和加载;
ETL是指获取原始大数据流,然后对其进行解析,并产生可用输出数据集的过程。从数据源中提取(E)数据,然后经过各种聚合、函数、组合的转换(T),使其变为可用数据。最终数据会被加载(L)到对它进行具体分析的环境中。这就是ETL流程。
MapReduce是一种并行的编程架构,它不是数据库,而是对现有技术的补充。
MapReduce里内置了两个主要的处理过程:映射过程“map”以及归纳过程“reduce”,这就是MapReduce的名字来源。MapReduce会在一系列的工作节点上并发执行这些处理过程,会把数据分配到不同通用设备上运行处理。每一个MapReduce节点都会使用同样的代码对自己的管理的那部分数据进行处理。MapReduce里的节点之间不会发生信息的交互,甚至不知道彼此的存在,这是它和MPP系统的区别。
MapReduce环境的一个突出特点是处理各种非结构化文本的能力。MapReduce的核心理念是,让许多机器一起来共同承担海量数据带来的处理压力,当数据的处理逻辑可以在不同的数据子集上独立进行时,使用MapReduce进行并处理可以先出提升处理速度。
转载地址:http://ltbno.baihongyu.com/