Hadoop HelloWord Examples- 求平均数-mysql教程-PHP中文网

首页

数据库

mysql教程

Hadoop HelloWord Examples- 求平均数

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 04:32 PM

hadoop 平均数

? 另外一个hadoop的入门demo，求平均数。是对WordCount这个demo的一个小小的修改。输入一堆成绩单（人名，成绩），然后求每个人成绩平均数，比如： //? subject1.txt ? a 90 ? b 80 ? c 70 ?// subject2.txt ? a 100 ? b 90 ? c 80 ? 求a,b,c这三个人的平均

? 另外一个hadoop的入门demo，求平均数。是对WordCount这个demo的一个小小的修改。输入一堆成绩单（人名，成绩），然后求每个人成绩平均数，比如：

//? subject1.txt

? a 90
? b 80
? c 70

?// subject2.txt

? a 100
? b 90
? c 80

? 求a,b,c这三个人的平均分。解决思路很简单，在map阶段key是名字，value是成绩，直接output。reduce阶段得到了map输出的key名字，values是该名字对应的一系列的成绩，那么对其求平均数即可。

? 这里我们实现了两个版本的代码，分别用TextInputFormat和 KeyValueTextInputFormat来作为输入格式。

? TextInputFormat版本：

import java.util.*;
import java.io.*;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class AveScore {
	public static class AveMapper extends Mapper
	{
		@Override
		public void map(Object key, Text value, Context context) throws IOException, InterruptedException
		{
			String line = value.toString();
			String[] strs = line.split(" ");
			String name = strs[0];
			int score = Integer.parseInt(strs[1]);
			context.write(new Text(name), new IntWritable(score));
		}
	}
	public static class AveReducer extends Reducer
	{
		@Override
		public void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException
		{
			int sum = 0;
			int count = 0;
			for(IntWritable val : values)
			{
				sum += val.get();
				count++;
			}
			int aveScore = sum / count;
			context.write(key, new IntWritable(aveScore));
		}
	}
	public static void main(String[] args) throws Exception
	{
		Configuration conf = new Configuration();
		Job job = new Job(conf,"AverageScore");
		job.setJarByClass(AveScore.class);
		job.setMapperClass(AveMapper.class);
		job.setReducerClass(AveReducer.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		FileInputFormat.addInputPath(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		System.exit( job.waitForCompletion(true) ? 0 : 1);
	}
}

登录后复制

KeyValueTextInputFormat版本；

import java.util.*;
import java.io.*;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
public class AveScore_KeyValue {
	public static class AveMapper extends Mapper
	{
		@Override
		public void map(Text key, Text value, Context context) throws IOException, InterruptedException
		{
		    int score = Integer.parseInt(value.toString());
			context.write(key, new IntWritable(score) );
		}
	}
	public static class AveReducer extends Reducer
	{
		@Override
		public void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException
		{
			int sum = 0;
			int count = 0;
			for(IntWritable val : values)
			{
				sum += val.get();
				count++;
			}
			int aveScore = sum / count;
			context.write(key, new IntWritable(aveScore));
		}
	}
	public static void main(String[] args) throws Exception
	{
		Configuration conf = new Configuration();
		conf.set("mapreduce.input.keyvaluelinerecordreader.key.value.separator", " ");
		Job job = new Job(conf,"AverageScore");
		job.setJarByClass(AveScore_KeyValue.class);
		job.setMapperClass(AveMapper.class);
		job.setReducerClass(AveReducer.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
  		job.setInputFormatClass(KeyValueTextInputFormat.class);
		job.setOutputFormatClass(TextOutputFormat.class)  ; 
		FileInputFormat.addInputPath(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		System.exit( job.waitForCompletion(true) ? 0 : 1);
	}
}

登录后复制

输出结果为：

? a 95
? b 85
? c 75

作者：qiul12345 发表于2013-8-23 21:51:03 原文链接

阅读：113 评论：0 查看评论

Hadoop HelloWord Examples- 求平均数

原文地址：Hadoop HelloWord Examples- 求平均数, 感谢原作者分享。

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

Java教程

1668

CakePHP 教程

1428

Laravel 教程

1329

PHP教程

1273

C# 教程

1256

显示更多

Related knowledge

Java错误：Hadoop错误，如何处理和避免 Jun 24, 2023 pm 01:06 PM

Java错误：Hadoop错误，如何处理和避免当使用Hadoop处理大数据时，常常会遇到一些Java异常错误，这些错误可能会影响任务的执行，导致数据处理失败。本文将介绍一些常见的Hadoop错误，并提供处理和避免这些错误的方法。Java.lang.OutOfMemoryErrorOutOfMemoryError是Java虚拟机内存不足的错误。当Hadoop任

如何使用PHP和Hadoop进行大数据处理 Jun 19, 2023 pm 02:24 PM

随着数据量的不断增大，传统的数据处理方式已经无法处理大数据时代带来的挑战。Hadoop是开源的分布式计算框架，它通过分布式存储和处理大量的数据，解决了单节点服务器在大数据处理中带来的性能瓶颈问题。PHP是一种脚本语言，广泛应用于Web开发，而且具有快速开发、易于维护等优点。本文将介绍如何使用PHP和Hadoop进行大数据处理。什么是HadoopHadoop是

在Beego中使用Hadoop和HBase进行大数据存储和查询 Jun 22, 2023 am 10:21 AM

随着大数据时代的到来，数据处理和存储变得越来越重要，如何高效地管理和分析大量的数据也成为企业面临的挑战。Hadoop和HBase作为Apache基金会的两个项目，为大数据存储和分析提供了一种解决方案。本文将介绍如何在Beego中使用Hadoop和HBase进行大数据存储和查询。一、Hadoop和HBase简介Hadoop是一个开源的分布式存储和计算系统，它可

探索Java在大数据领域的应用：Hadoop、Spark、Kafka等技术栈的了解 Dec 26, 2023 pm 02:57 PM

Java大数据技术栈：了解Java在大数据领域的应用，如Hadoop、Spark、Kafka等随着数据量不断增加，大数据技术成为了当今互联网时代的热门话题。在大数据领域，我们常常听到Hadoop、Spark、Kafka等技术的名字。这些技术起到了至关重要的作用，而Java作为一门广泛应用的编程语言，也在大数据领域发挥着巨大的作用。本文将重点介绍Java在大

linux下安装Hadoop的方法是什么 May 18, 2023 pm 08:19 PM

一：安装JDK1.执行以下命令，下载JDK1.8安装包。wget--no-check-certificatehttps://repo.huaweicloud.com/java/jdk/8u151-b12/jdk-8u151-linux-x64.tar.gz2.执行以下命令，解压下载的JDK1.8安装包。tar-zxvfjdk-8u151-linux-x64.tar.gz3.移动并重命名JDK包。mvjdk1.8.0_151//usr/java84.配置Java环境变量。echo'

excel去掉一个最高分和最低分求平均数 Mar 20, 2024 am 09:45 AM

电脑已经成为现代工作的标准配置，所以办公软件也是工作中需要掌握的一项基本操作，随着科技的发展，办公软件的功能也日渐强大。Excel由于功能强大在实际工作中经常被使用，excel作为数据展示清晰直观，作为计算软件方便准确，excel可以进行求和、汇总、算平均数。今天我们就教大家excel去掉一个最高分和最低分求平均数的方法。打开表格后，发现该表中最高分为100分，最低分为66分。因此，我们需要计算除这两个分数外的其他分数的平均值。2.点击函数图标（如下图所示）。3.用TRIMMEAN函数。4.这个

PHP中的数据处理引擎(Spark, Hadoop等) Jun 23, 2023 am 09:43 AM

在当前的互联网时代，海量数据的处理是各个企业和机构都需要面对的问题。作为一种广泛应用的编程语言，PHP同样需要在数据处理方面跟上时代的步伐。为了更加高效地处理海量数据，PHP开发引入了一些大数据处理工具，如Spark和Hadoop等。Spark是一款开源的数据处理引擎，可以用于大型数据集的分布式处理。Spark的最大特点是具有快速的数据处理速度和高效的数据存

利用PHP实现大规模数据处理：Hadoop、Spark、Flink等 May 11, 2023 pm 04:13 PM

随着数据量的不断增加，大规模数据处理已经成为了企业必须面对和解决的问题。传统的关系型数据库已经无法满足这种需求，而对于大规模数据的存储和分析，Hadoop、Spark、Flink等分布式计算平台成为了最佳选择。在数据处理工具的选择过程中，PHP作为一种易于开发和维护的语言，越来越受到开发者的欢迎。在本文中，我们将探讨如何利用PHP来实现大规模数据处理，以及如

See all articles

Hadoop HelloWord Examples- 求平均数

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题