python - 大数据怎么样判断数据唯一性效率高?
迷茫
迷茫 2017-04-17 13:14:35
[Python讨论组]

我想用python对全网的网站进行扫描记录,想用mysql建个表记录每个网站的信息,数据量大后怎么能快速的判断这个网站已经记录过呢?基本表结构有:id,url,name,datetime等相关字段,url想有唯一性,是拿到url查询一下判断没有数据再插入还是怎么办?如果做了唯一性索引直接插入时会报错,谢谢,或是有没有别的有效的解决办法?

迷茫
迷茫

业精于勤,荒于嬉;行成于思,毁于随。

全部回复(3)
大家讲道理

分布式kv数据库
对url分组

ringa_lee

推荐使用Bloom Filter存储已经抓取到的url.
Bloom Filter实际上是由一组哈希函数和一个字节列表组成. 详细介绍可以参考百度百科和这篇博文.

如果使用Python可直接安装Pybloom包, 这里已经实现了Bloom Filter.

高洛峰

对url进行hash,就是微博短域名一样,然后用kv,mysql都行

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号