正则表达式 - 下面一段html代码怎么用Python+正则一次性提取出来:标题,url,时间,简介组成一个字典?
伊谢尔伦
伊谢尔伦 2017-04-17 15:50:51
[Python讨论组]
伊谢尔伦
伊谢尔伦

小伙看你根骨奇佳,潜力无限,来学PHP伐。

全部回复(3)
黄舟

好像用Python的库直接解析HTML更简单

大家讲道理

建议使用beautifulsoup库解析,和前端操作dom类似解析html

迷茫

不需要使用正则,最好用BeautifulSoup解析HTML文档:

from bs4 import BeautifulSoup

html = '''
     <p class="list_item clearfix">
     .........你的html文档
     </p>
     '''
soup = BeautifulSoup(html)
tags = soup.find_all('p', class_='item_top')
news_list = []
for tag in tags:
    news_dict = {}
    news_dict['news_title'] = tag.h2.string
    news_dict['news_time'] = tag.span.string
    news_dict['news_abstract'] = tag.p.next_element
    news_dict['news_url'] = tag.h2.a.get('href')
    news_list.append(news_dict)

最终运行结果,每个新闻一个字典,所有字典在一个列表里:

print(news_list)

[
{
'news_abstract': '[摘要:8月30日晚间公布的格力电器上半年财报无疑给董明珠浇了一盆冷水。虽然董明珠嘴上仍在硬撑,但她的底气明显不足了。因为,格力的主营业务——空调出问题了。当格力开始不谈承诺的时候,董明珠最应该干的事,是静下心来好好反思,而不是把更多的心思花在无聊的口水战和吹牛逼 ...', 
'news_url': 'http://money.163.com/15/0902/09/B2GEL9V8002551G6.html', 
'news_time': '2015-09-02 09:20:55', 
'news_title': '主营业务负增长 董明珠还自信?'
}, 
{
'news_abstract': '[摘要:中国手机全球化版图扩张中,已经完成了两个阶段,国内市场红海一片,几乎没有太多眷恋;欧美发达国家,市场如堡垒般稳固,而且面临专利、渠道等麻烦,败走麦城似乎是命中注定的事儿。]原标题:[亦观察] No.616\xa0中国手机的非洲历险记如今,中国手机正悄然转移重点,把  ...',
'news_url': 'http://money.163.com/15/0831/11/B2BGVVQ0002551G6.html', 
'news_time': '2015-08-31 11:25:30', 
'news_title': '中国手机的非洲历险记'
}
]
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号