Kafka 面试 接口测试 Python爬虫实战 wcf eloquent variant 后台模板下载 nginx视频 pmp视频教程下载 python的random函数 python读取数据库 java语法 java函数 java学习教程 java中float java路径 java代码 java数据类型转换 linuxtail命令 莫莫小工具 笔记本外接显示器好吗 自动喊话器 2k14生涯模式修改器 刷声望 社区网格化管理平台 ps蒙版抠图详细教程 arm体系结构与编程 rpm卸载命令 无主之地2联机超时 粉碎文件工具 天谕玲珑技能加点 快剪辑怎么录制视频 太阳代理ip 淘宝店铺会员 机械键盘怎么关闭灯光 keil5注册机下载 eclipse汉化版 图片批处理 CST软件
当前位置: 首页 > 学习教程  > 编程语言

大数据处理框架技术概览

2021/1/13 19:19:01 文章标签: 测试文章如有侵权请发送至邮箱809451989@qq.com投诉后文章立即删除

flume——日志采集框架 flume可以适用于大部分的日常数据采集场景 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到的数据(下沉sink)输出到…

flume——日志采集框架

flume可以适用于大部分的日常数据采集场景

  1. Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。
  2. Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统
  3. 一般的采集需求,通过对flume的简单配置即可实现
  4. Flume针对特殊场景也具备良好的自定义扩展能力

azkaban、oozie——工作流调度器

Azkaban介绍

Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。

Azkaban定义了一种KV文件(properties)格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。

oozie介绍

Oozie是运行在hadoop平台上的一种工作流调度引擎,它可以用来调度与管理hadoop任务,如 MapReducePig等。那么,对于OozieWorkflow中的一个个的action(可以理解成一个个MapReduce任务)Oozie是根据什么来对action的执行时间与执行顺序进行管理调度的呢?答案就是我们在数据结构中常见的有向无环图(DAGDirect Acyclic Graph)的模式来进行管理调度的,我们可以利用HPDL语言(一种xml语言)来定义整个workflow,实现工作流的调度oozie的架构以及执行流程

Azkaban与Oozie对比

对市面上最流行的两种调度器,给出以下详细对比,以供技术选型参考。总体来说,ooize相比azkaban是一个重量级的任务调度系统,功能全面,但配置使用也更复杂。如果可以不在意某些功能的缺失,轻量级调度器azkaban是很不错的候选对象。

详情如下:

1.功能

两者均可以调度mapreduce,pig,java,脚本工作流任务

两者均可以定时执行工作流任务

2.工作流定义

Azkaban使用Properties文件定义工作流

Oozie使用XML文件定义工作流

3.工作流传参

Azkaban支持直接传参,例如${input}

Oozie支持参数和EL表达式,例如${fs:dirSize(myInputDir)}

4.定时执行

Azkaban的定时执行任务是基于时间的

Oozie的定时执行任务基于时间和输入数据

5.资源管理

Azkaban有较严格的权限控制,如用户对工作流进行读/写/执行等操作

Oozie暂无严格的权限控制

6.工作流执行

Azkaban有两种运行模式,分别是solo server mode(executor server和web server部署在同一台节点)和multi server mode(executor server和web server可以部署在不同节点)

Oozie作为工作流服务器运行,支持多用户和多工作流

7.工作流管理

Azkaban支持浏览器以及ajax方式操作工作流

Oozie支持命令行、HTTP REST、Java API、浏览器操作工作流

sqoop——数据迁移

sqoop是apache旗下一款Hadoop和关系数据库服务器之间传送数据”的工具。工作机制是将导入或导出命令翻译成mapreduce程序来实现,在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。

hue——web界面集成框架

全称:hadoop user  Experiense  
主要用于与我们其他各个框架进行整合,例如hdfs,mapreduce,hive,impala,oozie,spark
整合完成之后,只需要在我们 hue这一个框架提供的web界面里面就可以操作所有其他的框架

Kafka——消息队列

Apache Kafka是一个分布式消息发布订阅系统。Kafka系统快速、可扩展并且可持久化。Kafka具有分区特性,可复制和可容错的特性。


本文链接: http://www.dtmao.cc/news_show_600024.shtml

附件下载

相关教程

    暂无相关的数据...

共有条评论 网友评论

验证码: 看不清楚?