扫码关注官方订阅号
设想全网有N个网站,那么分析一下判重的复杂度就是N*log(N),因为所有网页要遍历一次,而每次判重用set的话需要log(N)的复杂度。
为什么复杂度就是N*log(N),求各位知乎大神指点下!!!
ringa_lee
有点偏题..记得<数学之美>一书中, 有提到使用布隆过滤器实现判重链接: pybloom
这里要使用限制策略,相同参数的URL爬取最大数,网站目录爬取最大数,网站URL爬取最大数
微信扫码关注PHP中文网服务号
QQ扫码加入技术交流群
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号
PHP学习
技术支持
返回顶部
有点偏题..
记得<数学之美>一书中, 有提到使用布隆过滤器实现判重
链接: pybloom
这里要使用限制策略,相同参数的URL爬取最大数,网站目录爬取最大数,网站URL爬取最大数