Hadoop的Secondary Sorting-mysql教程-PHP中文网

首页

数据库

mysql教程

Hadoop的Secondary Sorting

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 04:35 PM

hadoop

这几天项目中使用Hadoop遇到一个问题，对于这样key-value的数据集合：id-biz object，对id进行partition（比如根据某特定的hash算法P），分为a份；使用数量为b的reducer，在reducer里面要使用第三方组件进行批量上传；上传成文件，文件数量为c，但是有两个要

Hadoop的Secondary Sorting 这几天项目中使用Hadoop遇到一个问题，对于这样key-value的数据集合：id-biz object，对id进行partition（比如根据某特定的hash算法P），分为a份；使用数量为b的reducer，在reducer里面要使用第三方组件进行批量上传；上传成文件，文件数量为c，但是有两个要求：

上述a、b、c都相等，从而使得每个partition的数据最终都通过同一个reducer上传到同一个文件中去；
每个reducer中上传的数据要求id必须有序。

最开始，想到的办法是，为了保证reducer中的批量上传，需要使得传入reducer的key变成一个经过hash算法A计算得到的index，这样就使得reducer中的value是一个包含了数个biz boject的集合的iterator，从而实现在一次reducer调用中批量上传并且提交。在批量上传提交的过程中，按照每上限个（例如1000个）文件提交一次的办法进行，以保证内存占用控制在一定范围内。

如何保证有序？

Hadoop在Reduce之前会自动对key排序，但是上述的情况实际是要根据id来给value排序（因为在map之后key已经变成index了），凡是涉及到要给value排序的，都要使用Hadoop的Secondary Sorting（见stackoverflow链接）。

Hadoop的Secondary Sorting

这张图其实已经可以说明，把value要排序的关键属性放到key里面去，这样key就变成了natural key（上述的index）和secondary key（上述的id）这样两部分组成的一个composite key。

1. Partition：Partition的时候仅使用natural key，保证所有index的数据都分在同一个partition；

JobConf.setPartitionClass(...);

登录后复制

2. Sort：真正给key排序的比较算法要对natural key和secondary key两部分进行排序，从而保证了key在id维度上是有序的，而id和value是一一对应的，因此value也就是有序的。

JobConf.setOutputKeyComparatorClass(...);

登录后复制

3. Group：grouping的比较算法忽略掉secondary key，只对natural keygrouping，使得属于同一index的数据都走到同一个reducer中去。

JobConf.setOutputValueGroupingComparatorClass(...);

登录后复制

总结一下，这样一来，在reducer中，input key是上述这样一个composite key对象，包含了index和id，input value是一个可以遍历的元素为原始biz object类型的对象。

后话：这是Secondary Sorting的过程，可以解决我的问题，但是后来发现，实际上，我的问题并不需要要用这样啰嗦的方式来解决：

进入reducer的key只需要是id，Hadoop会对key自动排序；
partition策略不变，但是是在partitioner中计算index并根据它来partition；
不需要单独指定Grouping和Sorting的算法；
在reducer中建立一个大小为上限（如1000个）的容器对象p。

这样，既然对于每个partition的数据，都在同一个reducer中得到处理，而reducer中每次reduce方法彼此之间是根据id有序进行，那么就可以在每次调用时把数据放到p中，在p放满时提交一次即可。

测试通过。回头看看，真是刚开始的时候把问题想复杂了。

文章未经特殊标明皆为本人原创，未经许可不得用于任何商业用途，转载请保持完整性并注明来源链接《四火的唠叨》

你可能也喜欢：

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

Java教程

1670

CakePHP 教程

1428

Laravel 教程

1329

PHP教程

1274

C# 教程

1256

显示更多

Related knowledge

Java错误：Hadoop错误，如何处理和避免 Jun 24, 2023 pm 01:06 PM

Java错误：Hadoop错误，如何处理和避免当使用Hadoop处理大数据时，常常会遇到一些Java异常错误，这些错误可能会影响任务的执行，导致数据处理失败。本文将介绍一些常见的Hadoop错误，并提供处理和避免这些错误的方法。Java.lang.OutOfMemoryErrorOutOfMemoryError是Java虚拟机内存不足的错误。当Hadoop任

如何使用PHP和Hadoop进行大数据处理 Jun 19, 2023 pm 02:24 PM

随着数据量的不断增大，传统的数据处理方式已经无法处理大数据时代带来的挑战。Hadoop是开源的分布式计算框架，它通过分布式存储和处理大量的数据，解决了单节点服务器在大数据处理中带来的性能瓶颈问题。PHP是一种脚本语言，广泛应用于Web开发，而且具有快速开发、易于维护等优点。本文将介绍如何使用PHP和Hadoop进行大数据处理。什么是HadoopHadoop是

在Beego中使用Hadoop和HBase进行大数据存储和查询 Jun 22, 2023 am 10:21 AM

随着大数据时代的到来，数据处理和存储变得越来越重要，如何高效地管理和分析大量的数据也成为企业面临的挑战。Hadoop和HBase作为Apache基金会的两个项目，为大数据存储和分析提供了一种解决方案。本文将介绍如何在Beego中使用Hadoop和HBase进行大数据存储和查询。一、Hadoop和HBase简介Hadoop是一个开源的分布式存储和计算系统，它可

探索Java在大数据领域的应用：Hadoop、Spark、Kafka等技术栈的了解 Dec 26, 2023 pm 02:57 PM

Java大数据技术栈：了解Java在大数据领域的应用，如Hadoop、Spark、Kafka等随着数据量不断增加，大数据技术成为了当今互联网时代的热门话题。在大数据领域，我们常常听到Hadoop、Spark、Kafka等技术的名字。这些技术起到了至关重要的作用，而Java作为一门广泛应用的编程语言，也在大数据领域发挥着巨大的作用。本文将重点介绍Java在大

linux下安装Hadoop的方法是什么 May 18, 2023 pm 08:19 PM

一：安装JDK1.执行以下命令，下载JDK1.8安装包。wget--no-check-certificatehttps://repo.huaweicloud.com/java/jdk/8u151-b12/jdk-8u151-linux-x64.tar.gz2.执行以下命令，解压下载的JDK1.8安装包。tar-zxvfjdk-8u151-linux-x64.tar.gz3.移动并重命名JDK包。mvjdk1.8.0_151//usr/java84.配置Java环境变量。echo'

PHP中的数据处理引擎(Spark, Hadoop等) Jun 23, 2023 am 09:43 AM

在当前的互联网时代，海量数据的处理是各个企业和机构都需要面对的问题。作为一种广泛应用的编程语言，PHP同样需要在数据处理方面跟上时代的步伐。为了更加高效地处理海量数据，PHP开发引入了一些大数据处理工具，如Spark和Hadoop等。Spark是一款开源的数据处理引擎，可以用于大型数据集的分布式处理。Spark的最大特点是具有快速的数据处理速度和高效的数据存

利用PHP实现大规模数据处理：Hadoop、Spark、Flink等 May 11, 2023 pm 04:13 PM

随着数据量的不断增加，大规模数据处理已经成为了企业必须面对和解决的问题。传统的关系型数据库已经无法满足这种需求，而对于大规模数据的存储和分析，Hadoop、Spark、Flink等分布式计算平台成为了最佳选择。在数据处理工具的选择过程中，PHP作为一种易于开发和维护的语言，越来越受到开发者的欢迎。在本文中，我们将探讨如何利用PHP来实现大规模数据处理，以及如

Redis与Hadoop的对比及应用场景 Jun 21, 2023 am 08:28 AM

Redis和Hadoop都是常用的分布式数据存储和处理系统。然而，两者在设计、性能、使用场景等方面存在着明显的区别。在本文中，我们将详细比较Redis和Hadoop的不同之处，并探讨它们的适用场景。Redis概述Redis是一个开源的基于内存的数据存储系统，支持多种数据结构和高效的读写操作。Redis的主要特点包括：内存存储：Redis

See all articles

Hadoop的Secondary Sorting

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题