海量日志数据如何处理统计？-PHP中文网问答

/ 注册

php开发
前端

HTML| CSS| JavaScript| Vue.js

后端

PHP| ThinkPHP| Laravel| MySQL| Redis
最新推荐

php8，我来也

84669人学习

细说PHP(2021版)第一季

65727人学习

TP6.0 搭建个人博客实战（玉女心经版）

82984人学习

2018前端入门_HTML5

467778人学习
大前端
原生基础

HTML| CSS| HTML5| CSS3| JavaScript

框架开发

jQuery| Vue.js| React| AngularJS| Node.js| BootStrap| AJAX| Foundation
最新推荐

JavaScript极速入门_玉女心经系列

498837人学习

独孤九贱(1)_HTML5视频教程

471966人学习

CSS视频教程-玉女心经版

256484人学习

30分钟学会网站布局

152542人学习
后端开发
编程语言

PHP| Python| Go| Java| C| C++| C#| VBSscript| Scala| Lua| Perl| Ruby| JSP| XML| ASP

框架/工具

ThinkPHP| Laravel| Servlet| Django| ASP.NET
最新推荐

Thinkphp6.0正式版视频教程

224170人学习

php8，我来也

84669人学习

PHP实战天龙八部之微信支付视频教程

139536人学习

CI框架30分钟极速入门

81804人学习
数据库
基础入门

MySQL| SQL Server

进阶学习

MongoDB| Oracle| Redis| Memcached
最新推荐

MySQL权威开发指南（教程）

85022人学习

Redis基础视频课程

11944人学习

尚观Oracle入门到精通视频教程

20001人学习

PDO操作极速入门,今天你用了吗？

60816人学习
移动端
原生开发

Android| iOS

多端开发

Swift| Flutter| uni-app| 小程序| 其他
最新推荐

你的第一行UNI-APP代码

5487人学习

Uniapp简爱读书项目开发--第一季

15007人学习

公益直播：Uniapp微信小程序1:1仿饿了么首页

2150人学习

Flutter从零到APP上架

6980人学习
运维开发
环境使用

Linux| Docker

工具使用

PhpStudy| Git| 其他工具
最新推荐

phpStudy V8 视频教程

194925人学习

兄弟连新版Linux视频教程

359900人学习

Git教程(60分钟全程无废话版)

1142人学习

vscode其实很简单

19058人学习
UI设计
UI设计

Axure| PS
最新推荐

AXURE 9视频教程(适合产品经理交互产品设计 UI)

3206人学习

零基础精通 PS 视频教程

180550人学习

16天带你入门UI视频教程

48569人学习

PS技法与切片技术视频教程

17603人学习
计算机基础
类库分类

HTTP| TCP/IP| 编程基础
最新推荐

阿里云环境搭建以及项目上线视频教程

40936人学习

计算机网络概述—程序员必须掌握的基础知识

1049人学习

程序员入门必备教程—HTTP协议详解

750人学习

Websocket视频教程

32909人学习

海量日志数据如何处理统计？

高洛峰 2016-11-08 11:53:48

[MySQL讨论组]

738

项目需要做一个dashboard图表网站，展示日志的相关统计信息。这个页面图表很多，一次性会加载出很多数据。

日志表有很多种，都是一些入侵攻击日志、恶意站点访问日志等等，需要统计出当前时间、过去24小时、过去一周被攻击主机个数、恶意站点数（这是其中两个需求）等等数据。

比如被攻击主机个数，需要查多张数据表，然后统计出这个数据。

日志存储在PostgreSQL里面，已经基于时间做了分表，但是每天的的日志量都在100W以上。

根据这个应用场景，如果设计这个后端统计呢？还请大神提供一点思路，谢谢。

高洛峰

拥有18年软件开发和IT教学经验。曾任多家上市公司技术总监、架构师、项目经理、高级软件工程师等职务。网络人气名人讲师，...

全部回复(1)

三叔2016-11-08 11:54:04 1楼

虽然是一个PostgreSQL的问题，但是打了各种数据库标签。那么我就从MongoDB和NoSQL的角度说说这个问题。因为一些情况不是特别清楚，基于自己的假设来回答，如果有和你情况不符的地方再提出来。
数据库的日常应用无非OLAP和OLTP两大类，你的应用是一个比较典型的OLAP应用。通常OLAP的特点是对时效性的要求不是非常高，对系统资源占用比较重。你没有提对时效性要求到底有多高，还有你们数据的写入模式是怎样的。每天某个时间批量导入？或是随时从其他系统写入？不管怎样，还是有一些通用的办法来应对的。以下是无论使用哪种数据库都可以做的一些事情：

预聚合
从你的描述来看这是个比较典型的时序数据，过去的数据是不会变的。所以可以在每天结束时把这一天的数据先聚合好，某年某月某日有多少次攻击多少次恶意访问之类。如果要查一段时间的，则可以把已经按天统计好的数据再聚合一次。比如一个月的就是30条数据再次聚合，这比30100w=3000w条数据的聚合要轻松很多。如果你的统计粒度需要比天还小，那就要看具体小到什么程度。如果是精确到时，那我可能还是会考虑按小时预聚合，这样统计比如过去30天的数据，就会有3024=720条数据，也在接受范围内。但是如果统计范围允许到年，则有3652430，情况就不是很乐观了。当然如果需要精确到分钟，那又是更麻烦的事情。但即使这样，预聚合仍然能有效减少数据量从而降低运算所需的时间和资源。为了解决小粒度聚合的问题，实际应用中可能需要进行多个层次的预聚合。比如按月，按天，按时，按分分别聚合好，这样在需要某分钟到某分钟的数据时，可以把大粒度的范围通过月、天、时先消化掉，剩下的两头零碎部分再用时、分钟处理，这样最大程度上减小需要聚合的数据量。

索引优化无论使用哪种数据库，索引优化都是很重要的步骤。按上述方法预聚合后，各种时间因素肯定都是需要在索引中的。如果在时间基础上还需要对某个主机或域名等筛选，则最好是有这些字段的联合索引。具体问题具体分析，这个还需要你根据自己的表结构和查询去优化。

读写分离无论怎么优化，OLAP对资源的占用都是不能忽略的。如果你的数据是实时写入，聚合期间很容易受到I/O瓶颈的影响。所以最好是把接受数据和分析数据的结点分开。

下面是安利时间，说说如果使用MongoDB还有哪些事情可以做。

分片。水平扩展是NoSQL的特色之一，理论上所需时间和结点数量成反比。而数据量的增长在分布式环境中也不是一个问题。

Tag Aware Sharding。MongoDB分片的特色，可以把旧数据自动归集到容量大，但是性能相对差的硬件上，这样让热数据始终保持在性能较好的机器上达到更好的效果。

天然的读写分离和高可用。复制集本身就可以实现读写分离和高可用。相信这两个特性对任何应用都是很有意义的。

最后还是要提醒一点，理论归理论，没有一个方案是完美的，实际应用时肯定还会遇到各种各样奇怪的问题。编程是一项创造性的工作，需要你自己在实践中不断寻找最优的解决方案，在实践中成长。