php - 请问一下微博和百度贴吧的热门话题排行榜是如何生成的?
天蓬老师
天蓬老师 2017-04-10 17:34:27
[PHP讨论组]

微博和贴吧都是国内数一数二的PHP构建的高并发网站,请问他们的这个热门话题排行榜是如何得出的?
我目前只想得到用中文分词库对全站内容分词和统计,但是这类高并发网站每天都是成千上亿的数据产出,用分词的话如何是如果解决效率问题的?或者他们还用了其他什么技术?

天蓬老师
天蓬老师

欢迎选择我的课程,让我们一起见证您的进步~~

全部回复(10)
黄舟

给钱。
大家好好说话哈

PHP中文网

列表前的文本是手工加的,非机器自动生成。
后面的数字猜测是在有带关键字微博发出时,向指定缓存字段+1。这些数据其实非常不准确,然而也并没有要准确的必要。

PHPz

我最近也在做类似的功能。思路是这样:

  1. 对最近的文本聚类,得到topic

  2. 考虑topic包含的文档数量和文档来源的权重

  3. 考虑topic的时间

最后得到话题排行榜

阿神

这个热门话题难道不是前面都带着标记呢么?

PHP中文网

这些热数据肯定不是靠php统计出来的,应该是php调了排行的接口只负责展示

大家讲道理

根据短时间内浏览转发次数推的吧

伊谢尔伦

机器是不懂套路的,玩儿套路还是得靠人

怪我咯

非实时的场景直接MR跑一下,资源消耗不大。
实时的场景,采用内部的流式系统进行实时频次统计更新。

PHP中文网

算法是一方面 关键还是靠人吧

PHPz

CLIENT

Load from cache or api

API

Request Top Data
Checking cache if found then return cache data
if not found load from database then cache it and return data

分词系统是一个独立的系统,可能是离线的,在数据计算平台产生的一个TOP LIST结果。
如果你问这种系统如何处理大数据进行分词的话,这个....有非常多的解决方案,廉价的节点可以计算。这个不适合。
当然,除了技术上实现,可能就是谁的钱多谁上,后台维护一个普通的LIST而已,我不懂~

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号