python - 表中100万数据，多线程更新，怎么设计？-PHP中文网问答

微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程

python - 表中100万数据，多线程更新，怎么设计？

迷茫 2017-04-18 10:06:39

[Python讨论组]

1152

表中有100万+条数据，通过cate_id分成8类，并且在不停增加，默认status=1
我现在需要写爬虫，从表中读数据，然后请求一个api，把返回的数据再更新回去，更新status=2。

多线程不知道怎么设计
目前这么写的，感觉这样写很扯淡

    while True:
        for i in cate_ids:
            tp_items = TpItem.objects.filter(cate_id=i, status=1)[:1000]
            if tp_items:
                p.apply_async(info_parse(tp_items, proxy_list))

        p.close()
        p.join()
        
        time.sleep(30)
        #每轮从表中各cate_id取1000条数据进行处理。

因为不同cate_id的数据量不一样，这样跑到后面可能只剩下一个cate_id类别的数据没有处理完，相当于变成单线程在跑了。
该怎么设计？

迷茫

业精于勤，荒于嬉;行成于思，毁于随。

全部回复(4)

迷茫2017-04-18 10:08:39 4楼

看到了这个问题，想了想自己遇到该怎么处理。下面这篇文章，应该可以解决你的问题
https://segmentfault.com/a/11...

赞 +0

添加回复

伊谢尔伦2017-04-18 10:08:39 3楼

建议可以用生产者-消费者模式。

使用python的Queue队列，创建一个队列。
开启一个生产者线程，从数据库中读出status=1的数据，并一条一条的放入队列中。
开启多个消费者线程，数量按实际测试情况设置。消费者线程每次从队列中取出一条记录，发起API请求，当请求完成后写入数据库。

python的Queue自带线程同步机制，可以简化开发。
由于瓶颈应该在调用远程API，读取数据用一个线程就够了，如果嫌慢，可以开8个线程，每个线程读一个表。
生产者线程从数据库读数据时可以做流量限制，在往队列放status=1的数据时，如果队列中数量达到了1000条（或自定义阀值）时阻塞住，直到队列中任务数量少于1000条，防止队列被写爆掉。

赞 +0

添加回复