MongoDB中MapReduce使用-php教程-PHP中文网

runCommand实现

首页

后端开发

php教程

MongoDB中MapReduce使用

小云云

Dec 08, 2017 pm 02:26 PM

mapreduce mongodb 使用

玩过Hadoop的小伙伴对MapReduce应该不陌生，MapReduce的强大且灵活，它可以将一个大问题拆分为多个小问题，将各个小问题发送到不同的机器上去处理，所有的机器都完成计算后，再将计算结果合并为一个完整的解决方案，这就是所谓的分布式计算。本文我们就来看看MongoDB中MapReduce的使用。

mapReduce

MongoDB中的MapReduce可以用来实现更复杂的聚合命令，使用MapReduce主要实现两个函数：map函数和reduce函数，map函数用来生成键值对序列，map函数的结果作为reduce函数的参数，reduce函数中再做进一步的统计，比如我的数据集如下：

{"_id" : ObjectId("59fa71d71fd59c3b2cd908d7"),"name" : "鲁迅","book" : "呐喊","price" : 38.0,"publisher" : "人民文学出版社"}
{"_id" : ObjectId("59fa71d71fd59c3b2cd908d8"),"name" : "曹雪芹","book" : "红楼梦","price" : 22.0,"publisher" : "人民文学出版社"}
{"_id" : ObjectId("59fa71d71fd59c3b2cd908d9"),"name" : "钱钟书","book" : "宋诗选注","price" : 99.0,"publisher" : "人民文学出版社"}
{"_id" : ObjectId("59fa71d71fd59c3b2cd908da"),"name" : "钱钟书","book" : "谈艺录","price" : 66.0,"publisher" : "三联书店"}
{"_id" : ObjectId("59fa71d71fd59c3b2cd908db"),"name" : "鲁迅","book" : "彷徨","price" : 55.0,"publisher" : "花城出版社"}

登录后复制

假如我想查询每位作者所出的书的总价，操作如下：

var map=function(){emit(this.name,this.price)}
var reduce=function(key,value){return Array.sum(value)}
var options={out:"totalPrice"}
db.sang_books.mapReduce(map,reduce,options);
db.totalPrice.find()

登录后复制

emit函数主要用来实现分组，接收两个参数，第一个参数表示分组的字段，第二个参数表示要统计的数据，reduce来做具体的数据处理操作，接收两个参数，对应emit方法的两个参数，这里使用了Array中的sum函数对price字段进行自加处理，options中定义了将结果输出的集合，届时我们将在这个集合中去查询数据，默认情况下，这个集合即使在数据库重启后也会保留，并且保留集合中的数据。查询结果如下：

{
    "_id" : "曹雪芹",
    "value" : 22.0
}
{
    "_id" : "钱钟书",
    "value" : 165.0
}
{
    "_id" : "鲁迅",
    "value" : 93.0
}

登录后复制

再比如我想查询每位作者出了几本书，如下：

var map=function(){emit(this.name,1)}
var reduce=function(key,value){return Array.sum(value)}
var options={out:"bookNum"}
db.sang_books.mapReduce(map,reduce,options);
db.bookNum.find()

登录后复制

查询结果如下：

{
    "_id" : "曹雪芹",
    "value" : 1.0
}
{
    "_id" : "钱钟书",
    "value" : 2.0
}
{
    "_id" : "鲁迅",
    "value" : 2.0
}

登录后复制

将每位作者的书列出来，如下：

var map=function(){emit(this.name,this.book)}
var reduce=function(key,value){return value.join(',')}
var options={out:"books"}
db.sang_books.mapReduce(map,reduce,options);
db.books.find()

登录后复制

结果如下：

{
    "_id" : "曹雪芹",
    "value" : "红楼梦"
}
{
    "_id" : "钱钟书",
    "value" : "宋诗选注,谈艺录"
}
{
    "_id" : "鲁迅",
    "value" : "呐喊,彷徨"
}

登录后复制

比如查询每个人售价在￥40以上的书：

var map=function(){emit(this.name,this.book)}
var reduce=function(key,value){return value.join(',')}
var options={query:{price:{$gt:40}},out:"books"}
db.sang_books.mapReduce(map,reduce,options);
db.books.find()

登录后复制

query表示对查到的集合再进行筛选。

结果如下：

{
    "_id" : "钱钟书",
    "value" : "宋诗选注,谈艺录"
}
{
    "_id" : "鲁迅",
    "value" : "彷徨"
}

登录后复制

runCommand实现

我们也可以利用runCommand命令来执行MapReduce。格式如下：

db.runCommand(
               {
                 mapReduce: <collection>,
                 map: <function>,
                 reduce: <function>,
                 finalize: <function>,
                 out: <output>,
                 query: <document>,
                 sort: <document>,
                 limit: <number>,
                 scope: <document>,
                 jsMode: <boolean>,
                 verbose: <boolean>,
                 bypassDocumentValidation: <boolean>,
                 collation: <document>
               }
             )

登录后复制

含义如下：

参数	含义
mapReduce	表示要操作的集合
map	map函数
reduce	reduce函数
finalize	最终处理函数
out	输出的集合
query	对结果进行过滤
sort	对结果排序
limit	返回的结果数
scope	设置参数值，在这里设置的值在map、reduce、finalize函数中可见
jsMode	是否将map执行的中间数据由javascript对象转换成BSON对象，默认为false
verbose	是否显示详细的时间统计信息
bypassDocumentValidation	是否绕过文档验证
collation	其他一些校对

如下操作，表示执行MapReduce操作并对统计的集合限制返回条数，限制返回条数之后再进行统计操作，如下：

var map=function(){emit(this.name,this.book)}
var reduce=function(key,value){return value.join(',')}
db.runCommand({mapreduce:'sang_books',map,reduce,out:"books",limit:4,verbose:true})
db.books.find()

登录后复制

执行结果如下：

{
    "_id" : "曹雪芹",
    "value" : "红楼梦"
}
{
    "_id" : "钱钟书",
    "value" : "宋诗选注,谈艺录"
}
{
    "_id" : "鲁迅",
    "value" : "呐喊"
}

登录后复制

小伙伴们看到，鲁迅有一本书不见了，就是因为limit是先限制集合返回条数，然后再执行统计操作。

finalize操作表示最终处理函数，如下：

var f1 = function(key,reduceValue){var obj={};obj.author=key;obj.books=reduceValue; return obj}
var map=function(){emit(this.name,this.book)}
var reduce=function(key,value){return value.join(',')}
db.runCommand({mapreduce:'sang_books',map,reduce,out:"books",finalize:f1})
db.books.find()

登录后复制

f1第一个参数key表示emit中的第一个参数，第二个参数表示reduce的执行结果，我们可以在f1中对这个结果进行再处理，结果如下：

{
    "_id" : "曹雪芹",
    "value" : {
        "author" : "曹雪芹",
        "books" : "红楼梦"
    }
}
{
    "_id" : "钱钟书",
    "value" : {
        "author" : "钱钟书",
        "books" : "宋诗选注,谈艺录"
    }
}
{
    "_id" : "鲁迅",
    "value" : {
        "author" : "鲁迅",
        "books" : "呐喊,彷徨"
    }
}

登录后复制

scope则可以用来定义一个在map、reduce和finalize中都可见的变量，如下：

var f1 = function(key,reduceValue){var obj={};obj.author=key;obj.books=reduceValue;obj.sang=sang; return obj}
var map=function(){emit(this.name,this.book)}
var reduce=function(key,value){return value.join(',--'+sang+'--,')}
db.runCommand({mapreduce:'sang_books',map,reduce,out:"books",finalize:f1,scope:{sang:"haha"}})
db.books.find()

登录后复制

执行结果如下：

{
    "_id" : "曹雪芹",
    "value" : {
        "author" : "曹雪芹",
        "books" : "红楼梦",
        "sang" : "haha"
    }
}
{
    "_id" : "钱钟书",
    "value" : {
        "author" : "钱钟书",
        "books" : "宋诗选注,--haha--,谈艺录",
        "sang" : "haha"
    }
}
{
    "_id" : "鲁迅",
    "value" : {
        "author" : "鲁迅",
        "books" : "呐喊,--haha--,彷徨",
        "sang" : "haha"
    }
}

登录后复制

看完本文希望大家有所收获。

热AI工具

热工具

热门话题

Java教程

1670

CakePHP 教程

1428

Laravel 教程

1329

PHP教程

1274

C# 教程

1256

显示更多

Related knowledge

使用 Composer 解决推荐系统的困境：andres-montanez/recommendations-bundle 的实践 Apr 18, 2025 am 11:48 AM

在开发一个电商网站时，我遇到了一个棘手的问题：如何为用户提供个性化的商品推荐。最初，我尝试了一些简单的推荐算法，但效果并不理想，用户的满意度也因此受到影响。为了提升推荐系统的精度和效率，我决定采用更专业的解决方案。最终，我通过Composer安装了andres-montanez/recommendations-bundle，这不仅解决了我的问题，还大大提升了推荐系统的性能。可以通过一下地址学习composer：学习地址

Navicat查看MongoDB数据库密码的方法 Apr 08, 2025 pm 09:39 PM

直接通过 Navicat 查看 MongoDB 密码是不可能的，因为它以哈希值形式存储。取回丢失密码的方法：1. 重置密码；2. 检查配置文件（可能包含哈希值）；3. 检查代码（可能硬编码密码）。

CentOS上GitLab的数据库如何选择 Apr 14, 2025 pm 04:48 PM

CentOS系统上GitLab数据库部署指南选择合适的数据库是成功部署GitLab的关键步骤。GitLab兼容多种数据库，包括MySQL、PostgreSQL和MongoDB。本文将详细介绍如何选择并配置这些数据库。数据库选择建议MySQL:一款广泛应用的关系型数据库管理系统(RDBMS)，性能稳定，适用于大多数GitLab部署场景。PostgreSQL:功能强大的开源RDBMS，支持复杂查询和高级特性，适合处理大型数据集。MongoDB:流行的NoSQL数据库，擅长处理海

CentOS MongoDB备份策略是什么 Apr 14, 2025 pm 04:51 PM

CentOS系统下MongoDB高效备份策略详解本文将详细介绍在CentOS系统上实施MongoDB备份的多种策略，以确保数据安全和业务连续性。我们将涵盖手动备份、定时备份、自动化脚本备份以及Docker容器环境下的备份方法，并提供备份文件管理的最佳实践。手动备份:利用mongodump命令进行手动全量备份，例如：mongodump-hlocalhost:27017-u用户名-p密码-d数据库名称-o/备份目录此命令会将指定数据库的数据及元数据导出到指定的备份目录。

MongoDB 与关系数据库：全面比较 Apr 08, 2025 pm 06:30 PM

MongoDB与关系型数据库：深度对比本文将深入探讨NoSQL数据库MongoDB与传统关系型数据库(如MySQL和SQLServer)的差异。关系型数据库采用行和列的表格结构组织数据，而MongoDB则使用灵活的面向文档模型，更适应现代应用的需求。主要区别数据结构:关系型数据库使用预定义模式的表格存储数据，表间关系通过主键和外键建立；MongoDB使用类似JSON的BSON文档存储在集合中，每个文档结构可独立变化，实现无模式设计。架构设计:关系型数据库需要预先定义固定的模式；MongoDB支持

mongodb怎么设置用户 Apr 12, 2025 am 08:51 AM

要设置 MongoDB 用户，请按照以下步骤操作：1. 连接到服务器并创建管理员用户。2. 创建要授予用户访问权限的数据库。3. 使用 createUser 命令创建用户并指定其角色和数据库访问权限。4. 使用 getUsers 命令检查创建的用户。5. 可选地设置其他权限或授予用户对特定集合的权限。

Debian MongoDB如何进行数据加密 Apr 12, 2025 pm 08:03 PM

在Debian系统上为MongoDB数据库加密，需要遵循以下步骤：第一步：安装MongoDB首先，确保您的Debian系统已安装MongoDB。如果没有，请参考MongoDB官方文档进行安装：https://docs.mongodb.com/manual/tutorial/install-mongodb-on-debian/第二步：生成加密密钥文件创建一个包含加密密钥的文件，并设置正确的权限：ddif=/dev/urandomof=/etc/mongodb-keyfilebs=512

连接mongodb的工具有哪些 Apr 12, 2025 am 06:51 AM

连接MongoDB的工具主要有：1. MongoDB Shell，适用于快速查看数据和执行简单操作；2. 编程语言驱动程序（如PyMongo, MongoDB Java Driver, MongoDB Node.js Driver），适合应用开发，但需掌握其使用方法；3. GUI工具（如Robo 3T, Compass），提供图形化界面，方便初学者和快速数据查看。选择工具需考虑应用场景和技术栈，并注意连接字符串配置、权限管理及性能优化，如使用连接池和索引。

See all articles

MongoDB中MapReduce使用

runCommand实现

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题