关注码农话题
做一个实实在在的内行人

Hadoop

Hadoop 监控

阅读(47)

Log yarn.log-aggregation-enable=true如果显示错误,则日志存储在节点管理器运行节点上。当聚集启用时所有日志进行汇总,任务完成后转移到HDFS。 Hadoop集群性能监控Ganglia, Nagios 使用H...

Hadoop 配置

阅读(74)

有两种配置文件: 一种是__-default.xml(只读,默认的配置) 一种是#x662F;__-site.xml(替换default中的配置) core-site.xml 配置公共属性 hdfs-site.xml 配置HDFS yarn...

Hadoop 安装

阅读(54)

单节点安装 所有服务运行在一个JVM中,适合调试、单元测试 伪集群 所有服务运行在一台机器中,每个服务都在独立的JVM中,适合做简单、抽样测试 多节点集群 服务运行在不同的机器中,适合生产环境 配置公共帐号 方便主与从进行无密钥通信,主要是...

Hadoop 测试

阅读(68)

MRUnit单元测试Mapper和Reducer类在内存上独立运行, PipelineMapReduceDriver单线程运行. LocalJobRunner单线程运行, 且仅有一个 Reducer能够启动conf.set(“m...

Hadoop – IO

阅读(60)

输入文件从HDFS进行读取. 输出文件会存入本地磁盘. Reducer和Mapper间的网络I/O,从Mapper节点得到Reducer的检索文件. 使用Reducer实例从本地磁盘回读数据. Reducer输出- 回传到HDFS. 串行化...

MapReduce – 编程

阅读(63)

处理 select:直接分析输入数据,取出需要的字段数据即可 where: 也是对输入数据处理的过程中进行处理,判断是否需要该数据 aggregation:min, max, sum group by: 通过Reducer实现 sort j...

MapReduce – Shuffle

阅读(53)

对Map的结果进行排序并传输到Reduce进行处理 Map的结果并不#x662F;直接存放到硬盘,而是利用缓存做一些预排序处理 Map会调用Combiner,压缩,按key进行分区、排序等,尽量减少结果的大小 每个Map完成后都会通知Tas...

MapReduce – Mapper

阅读(75)

主要是读取InputSplit的每一个Key,Value对并进行处理 public class Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT> { /** * 预处理,仅在map task启动时...

MapReduce – 读取数据

阅读(57)

通过InputFormat决定读取的数据的类型,然后拆分成一个个InputSplit,每个InputSplit对应一个Map处理,RecordReader读取InputSplit的内容给Map InputFormat 决定读取数据的格式,可...

Hadoop – MapReduce

阅读(61)

简介 一种分布式的计算方式指定一个Map(映#x5C04;)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组 Pattern map: (K1, V1) → l...

入职你的梦想 VS 变现你的技术

IT面试宝典码农市场