关注码农话题
做一个实实在在的内行人

Hadoop

Hadoop 监控

阅读(293)

Log yarn.log-aggregation-enable=true如果显示错误,则日志存储在节点管理器运行节点上。当聚集启用时所有日志进行汇总,任务完成后转移到HDFS。 Hadoop集群性能监控Ganglia, Nagios 使用H...

Hadoop 配置

阅读(410)

有两种配置文件: 一种是__-default.xml(只读,默认的配置) 一种是#x662F;__-site.xml(替换default中的配置) core-site.xml 配置公共属性 hdfs-site.xml 配置HDFS yarn...

Hadoop 安装

阅读(369)

单节点安装 所有服务运行在一个JVM中,适合调试、单元测试 伪集群 所有服务运行在一台机器中,每个服务都在独立的JVM中,适合做简单、抽样测试 多节点集群 服务运行在不同的机器中,适合生产环境 配置公共帐号 方便主与从进行无密钥通信,主要是...

Hadoop 测试

阅读(388)

MRUnit单元测试Mapper和Reducer类在内存上独立运行, PipelineMapReduceDriver单线程运行. LocalJobRunner单线程运行, 且仅有一个 Reducer能够启动conf.set(“m...

Hadoop – IO

阅读(358)

输入文件从HDFS进行读取. 输出文件会存入本地磁盘. Reducer和Mapper间的网络I/O,从Mapper节点得到Reducer的检索文件. 使用Reducer实例从本地磁盘回读数据. Reducer输出- 回传到HDFS. 串行化...

MapReduce – 编程

阅读(359)

处理 select:直接分析输入数据,取出需要的字段数据即可 where: 也是对输入数据处理的过程中进行处理,判断是否需要该数据 aggregation:min, max, sum group by: 通过Reducer实现 sort j...

MapReduce – Shuffle

阅读(310)

对Map的结果进行排序并传输到Reduce进行处理 Map的结果并不#x662F;直接存放到硬盘,而是利用缓存做一些预排序处理 Map会调用Combiner,压缩,按key进行分区、排序等,尽量减少结果的大小 每个Map完成后都会通知Tas...

MapReduce – Mapper

阅读(350)

主要是读取InputSplit的每一个Key,Value对并进行处理 public class Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT> { /** * 预处理,仅在map task启动时...

MapReduce – 读取数据

阅读(344)

通过InputFormat决定读取的数据的类型,然后拆分成一个个InputSplit,每个InputSplit对应一个Map处理,RecordReader读取InputSplit的内容给Map InputFormat 决定读取数据的格式,可...

Hadoop – MapReduce

阅读(322)

简介 一种分布式的计算方式指定一个Map(映#x5C04;)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组 Pattern map: (K1, V1) → l...

YARN – Failover

阅读(325)

失败类型 程序问题 进程崩溃 硬&#x#x4EF6;问题 失败处理 任务失败 运行时异常或者JVM退出都会报告给ApplicationMaster 通过心跳来检查挂住的任务(timeout),会检查多次(可配置)才判断该任务是否失效...

YARN – Container

阅读(290)

基本的资源单位(CPU、内存等) Container可以加载任意程序,而且不限于Java 一#x4E2A;Node可以包含多个Container,也可以是一个大的Container ApplicationMaster可以根据需要,动态申请和...

YARN – ApplicationMaster

阅读(315)

单个作业的资源管理和任务监控 具体功能描述#x8FF0;: 计算应用的资源需求,资源可以是静态或动态计算的,静态的一般是Client申请时就指定了,动态则需要ApplicationMaster根据应用的运行状态来决定 根据数据来申请对应位置...

YARN – ResourceManager

阅读(319)

负责全局的资源管理和任务调度,把整个集群当&##x6210;计算资源池,只关注分配,不管应用,且不负责容错 资源管理 以前资源是每个节点分成一个个的Map slot和Reduce slot,现在是一个个Container,每个Con...

Hadoop – YARN

阅读(427)

旧的MapReduce架构 JobTracker: 负责资源管理,跟踪资源消耗和可用性,作业生命周期管理(调度作业任务,跟踪进度,为任务提供容错) TaskTracker: 加载或关闭任务,定时报告认为状态 此架构会有以下问题: JobTr...

码农刷题必备工具 VS 码农进阶必读书籍

IT面试宝典宝典書城