博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Do You Know ETL ?
阅读量:6579 次
发布时间:2019-06-24

本文共 501 字,大约阅读时间需要 1 分钟。

ETL是数据的提取、转换和加载;

ETL是指获取原始大数据流,然后对其进行解析,并产生可用输出数据集的过程。从数据源中提取(E)数据,然后经过各种聚合、函数、组合的转换(T),使其变为可用数据。最终数据会被加载(L)到对它进行具体分析的环境中。这就是ETL流程。

MapReduce是一种并行的编程架构,它不是数据库,而是对现有技术的补充。

MapReduce里内置了两个主要的处理过程:映射过程“map”以及归纳过程“reduce”,这就是MapReduce的名字来源。MapReduce会在一系列的工作节点上并发执行这些处理过程,会把数据分配到不同通用设备上运行处理。每一个MapReduce节点都会使用同样的代码对自己的管理的那部分数据进行处理。MapReduce里的节点之间不会发生信息的交互,甚至不知道彼此的存在,这是它和MPP系统的区别。

MapReduce环境的一个突出特点是处理各种非结构化文本的能力。MapReduce的核心理念是,让许多机器一起来共同承担海量数据带来的处理压力,当数据的处理逻辑可以在不同的数据子集上独立进行时,使用MapReduce进行并处理可以先出提升处理速度。

转载地址:http://ltbno.baihongyu.com/

你可能感兴趣的文章
【MVC+EasyUI实例】对数据网格的增删改查(上)
查看>>
Project Euler 345: Matrix Sum
查看>>
你可能不知道的技术细节:存储过程参数传递的影响
查看>>
HTML转义字符大全(转)
查看>>
[摘录]调动员工积极性的七个关键
查看>>
Backup Volume 操作 - 每天5分钟玩转 OpenStack(59)
查看>>
.htaccess 基础教程(四)Apache RewriteCond 规则参数
查看>>
Android控件之HorizontalScrollView 去掉滚动条
查看>>
UVM中的class--2
查看>>
ORACLE 存储过程异常捕获并抛出
查看>>
博客园博客美化相关文章目录
查看>>
root用户重置其他密码
查看>>
Oracle推断值为非数字
查看>>
多年前写的一个ASP.NET网站管理系统,到现在有些公司在用
查看>>
vue-cli中理不清的assetsSubDirectory 和 assetsPublicPath
查看>>
从JDK源码角度看Short
查看>>
五年 Web 开发者 star 的 github 整理说明
查看>>
Docker 部署 SpringBoot 项目整合 Redis 镜像做访问计数Demo
查看>>
中台之上(五):业务架构和中台的难点,都是需要反复锤炼出标准模型
查看>>
使用模板将Web服务的结果转换为标记语言
查看>>