小猿圈之Hadoop优化 - 程序员的小结 - php中文网博客

微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

首页 > 博客列表 > 小猿圈之Hadoop优化

博主信息

博文 75

粉丝 0

评论 0

访问量 68658

专题推荐

更多>

相关推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

小猿圈之Hadoop优化

聆听的博客

原创

720人浏览过

Hadoop框架是现在最主流的的框架之一，越来越多的人去学习，那么你对hadoop的理解是什么？hadoop一定要会优化，那怎么优化呢，小猿圈今天说一下，感兴趣的朋友可以看看小猿圈写的这篇文章。

1、mr程序的效率瓶颈

功能：分布式离线计算

计算机性能：CPU、内存、磁盘、网络

I/O操作优化a

（1）数据倾斜（代码优化）

（2）map和reduce数设置不合理

（3）map运行时间太长，导致reduce等待过久

（4）小文件过多（combineTextInputFomrat小文件合并）

（5）不可分块的超大文件（不断的溢写）

（6）多个溢写小文件需要多次merge

2、mr优化方法

六个方面考虑：数据输入、Map阶段、Reduce阶段、IO传输、

数据倾斜、参数调优

1>数据输入

（1）合并小文件：在执行mr任务前就进行小文件合并

（2）采用CombineTextInputFormat来作为输入，解决输入端大量小文件的场景

mr并不适合处理大量小文件

2>Map阶段

（1）减少溢写次数（增加内存200M 80%）

实例

    <property>

            <name>mapreduce.task.io.sort.mb</name>

            <value>100</value>

        </property>

        <property>

            <name>mapreduce.map.sort.spill.percent</name>

            <value>0.80</value>

        </property>

运行实例 »

点击 "运行实例" 按钮查看在线实例

(2)减少合并次数

实例

 <property>

            <name>mapreduce.task.io.sort.factor</name>

            <value>10</value>

        </property>

运行实例 »

点击 "运行实例" 按钮查看在线实例

（3）在map之后，不影响业务逻辑情况下进行combiner

3>Reduce阶段

（1）合理设置map与reduce个数

（2）设置map/reduce共存

设置运行一定程度的map运行后启动reduce减少等待时间

实例

 <property>

            <name>mapreduce.job.reduce.slowstart.completedmaps</name>

            <value>0.05</value>

        </property>

运行实例 »

点击 "运行实例" 按钮查看在线实例

（3）合理设置reduce端的buffer

实例

 <property>

            <name>mapreduce.reduce.markreset.buffer.percent</name>

            <value>0.0</value>

        </property>

运行实例 »

点击 "运行实例" 按钮查看在线实例

4>传输

（1）进行数据压缩

（2）使用sequenceFile

5>数据倾斜

（1）进行范围分区

（2）自定义分区

（3）Combine

(4)能用mapjoin坚决不用reduce join

6>参数调优

设置核心数

map核心数设置：

实例

  <property>

            <name>mapreduce.map.cpu.vcores</name>

            <value>1</value>

        </property>

运行实例 »

点击 "运行实例" 按钮查看在线实例

reduce核心数设置：

实例

   <property>

            <name>mapreduce.reduce.cpu.vcores</name>

            <value>1</value>

        </property>

运行实例 »

点击 "运行实例" 按钮查看在线实例

设置内存

maptask内存设置：

实例

 <property>

            <name>mapreduce.map.memory.mb</name>

            <value>1024</value>

        </property>

运行实例 »

点击 "运行实例" 按钮查看在线实例

reducetask内存设置：

实例

   <property>

            <name>mapreduce.reduce.memory.mb</name>

            <value>1024</value>

        </property>

运行实例 »

点击 "运行实例" 按钮查看在线实例

reduce去map端拿数据并行度

实例

  <property>

            <name>mapreduce.reduce.shuffle.parallelcopies</name>

            <value>5</value>

        </property>

运行实例 »

点击 "运行实例" 按钮查看在线实例

hadoop优化小猿圈说了几个优化的方面，大家感觉***？如果有其他方面的优化方法，可以给小猿圈补充，感觉还不错的话，可以去小猿圈学习其他方面内容，希望大家会学到更多全面的内容。

本博文版权归博主所有，转载请注明地址！如有侵权、违法，请联系admin@php.cn举报处理！

全部评论文明上网理性发言，请遵守新闻评论服务协议

0条评论

作者最新博文

小猿圈分享中国最具影响力的8名程序员

2019-06-17 15:18:58

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部

登录PHP中文网，和优秀的人一起学习！

全站2000+教程免费学