python3.x - python 如何优雅的处理大量异常语句？-PHP中文网问答

微信公众号讲师中心

首页

文章

web3.0 后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

最近更新

搜索

web3.0 后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程

python3.x - python 如何优雅的处理大量异常语句？

高洛峰 2017-04-18 09:03:01

[Python讨论组]

517

我需要用bs4来分析一个html，需要写很多提取语句，大概几十条，格式如下

twitter_url = summary_soup.find('a','twitter_url').get('href')
facebook_url = summary_soup.find('a','facebook_url').get('href')
linkedin_url = summary_soup.find('a','linkedin_url').get('href') 
name = summary_soup.find('p', class_='name').find('a').string

但是每个语句都有可能出异常，如果每个语句都加上try except 就太繁琐了，有没有什么好的方法处理每条语句，出异常赋值为None，不中断程序

高洛峰

拥有18年软件开发和IT教学经验。曾任多家上市公司技术总监、架构师、项目经理、高级软件工程师等职务。网络人气名人讲师，...

全部回复(5)

ringa_lee2017-04-18 09:05:01 5楼

我在問題的評論裡面有提出一個小問題，如果能有回答，大家比較好掌握你的需求．

如果不想太多，純粹要避免掉 get 的時候可能會產生的錯誤，有個比較偷雞的方式，如果沒有太多奇怪的狀況要處理，也許你可以試試:

twitter_url = (summary_soup.find('a','twitter_url') or {}).get('href')

如果說 bs 的 find 沒有找到東西的話，會 return None，此時我們利用先利用 or 來完成一個 trick 使得 get 永遠不會失敗．再利用字典的 get 與 bs tag 的 get 相似的特性就可以處理掉異常，對變數賦值為 None．

如果要寫的穩固一點的話，參考 @prolifes 的建議滿有幫助的．

下面有人問如果是 find 怎麼偷雞，那我這樣偷偷看，你知道的，偷雞的訣竅就是 假資料:

from bs4 import BeautifulSoup

html = '<p class="name"><a href="www.hello.com">hello world</a></p>'

emptysoup = BeautifulSoup('<a></a>', 'xml')
soup = BeautifulSoup(html, 'xml')

name = (soup.find('p', class_='name') or emptysoup).find('a').string
print(name)
name = (soup.find('p', class_='nam') or emptysoup).find('a').string
print(name)

結果:

hello world
None

偷雞成功!

我回答過的問題: Python-QA

赞 +0

添加回复

大家讲道理2017-04-18 09:05:01 4楼

我觉得这不是大量异常的问题，而是代码编写的问题，我大胆猜测一下，例如这句：

twitter_url = summary_soup.find('a','twitter_url').get('href')

我觉得出错的可能原因是： summary_soup.find('a','twitter_url') 这一句没有找到元素，然后返回了 None，然后你用这个None调用 get('href')，那肯定抛错啊。

如果是这个原因的话，那处理起来就比较方便了，分两段写：

twitter_url_a = summary_soup.find('a','twitter_url')
twitter_url = twitter_url_a.get('href') if twitter_url_a else None

赞 +0

添加回复

PHP中文网2017-04-18 09:05:01 3楼

bs4的链式调用很赞，所以我把soup包装了一下


class MY_SOUP():
    '''
    包装类
    '''
    def __init__(self,soup):
        self.soup = soup
        if soup:
            if soup.string:
                self.string = soup.string.strip()
            else:
                self.string = None
        else:
            self.string = None

    def find(self, *args, **kw):
        ret = self.soup.find(*args, **kw)
        if ret:
            return FIND_SOUP(ret)
        return FIND_SOUP(None)

    def find_all(self,*args, **kw):
        ret = self.soup.find_all(*args, **kw)
        return ret

    def get_text(self):
        if self.soup:
            return self.soup.get_text().strip()
        return None

    def get(self,*args, **kw):
        if self.soup:
            return self.soup.get(*args, **kw)
        return None

soup = BeautifulSoup(html,'lxml')
summary_soup = soup.find('p', class_='summary')

#把 summary_soup 包装成我的soup
summary_soup = MY_SOUP(summary_soup)

#再也没有None异常了
twitter_url = summary_soup.find('a','twitter_url').get('href')
facebook_url = summary_soup.find('a','facebook_url').get('href')
linkedin_url = summary_soup.find('a','linkedin_url').get('href') 
name = summary_soup.find('p', class_='name').find('a').string
...

参考 @prolifes

赞 +0

添加回复