请问一下微博和百度贴吧的热门话题排行榜是如何生成的?
大家讲道理
大家讲道理 2016-11-11 14:18:08
[PHP讨论组]

微博和贴吧都是国内数一数二的PHP构建的高并发网站,请问他们的这个热门话题排行榜是如何得出的?我目前只想得到用中文分词库对全站内容分词和统计,但是这类高并发网站每天都是成千上亿的数据产出,用分词的话如何是如果解决效率问题的?或者他们还用了其他什么技术?

大家讲道理
大家讲道理

光阴似箭催人老,日月如移越少年。

全部回复(3)
代言

这些热数据肯定不是靠php统计出来的,应该是php调了排行的接口只负责展示

代言

我最近也在做类似的功能。思路是这样:

  • 对最近的文本聚类,得到topic

  • 考虑topic包含的文档数量和文档来源的权重

  • 考虑topic的时间

最后得到话题排行榜


代言

列表前的文本是手工加的,非机器自动生成。后面的数字猜测是在有带关键字微博发出时,向指定缓存字段+1。这些数据其实非常不准确,然而也并没有要准确的必要。

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号