python - 如何爬取豆瓣电影的详细信息
PHP中文网
PHP中文网 2017-04-18 10:19:06
[Python讨论组]

我想爬取每个电影的制片国家地区,但是它上面并不在一个标签里面应该怎么办

我用的是request和BeautifulSoup

res2=requests.get(h2)
res2.encoding='utf-8'
soup2=BeautifulSoup(res2.text)

这部分是已经获取该网页

PHP中文网
PHP中文网

认证0级讲师

全部回复(3)
ringa_lee

参考以下代码:

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import re
import requests
from bs4 import BeautifulSoup

result = requests.get('https://movie.douban.com/subject/3541415/')
result.encoding = 'utf-8'
soup = BeautifulSoup(result.text, 'html.parser')

try:
    info = soup.select('#info')[0]
    print re.findall(ur'(?<=制片国家/地区: ).+?(?=\n)', info.text)[0]
except Exception, e:
    print e
迷茫

正则匹配</span><br>之间的内容。

怪我咯

1、可以用正则

2、建议用soup.find_all
看文档

https://www.crummy.com/softwa...

soup.find_all("title")
# [<title>The Dormouse's story</title>]

soup.find_all("p", "title")
# [<p class="title"><b>The Dormouse's story</b></p>]

soup.find_all("a")
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
#  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
#  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

soup.find_all(id="link2")
# [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

黄哥Python 回答

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号