如何在 Python 中高效地从 HTML 中提取干净的文本?
使用 Python 从 HTML 中提取文本
您的目标是使用 Python 从 HTML 文件中提取文本,复制您获得的输出通过从浏览器复制文本并将其粘贴到文本中
挑战
正则表达式对于格式不良的 HTML 来说不够强大。虽然 Beautiful Soup 经常被推荐,但它可能会拾取 JavaScript 等不需要的内容,并且无法解释 HTML 实体。
有希望的替代方案:html2text
尽管它生成 markdown 而不是纯文本,html2text 可以正确处理 HTML 实体并忽略 JavaScript。然而,它的文档和示例是有限的。
文本提取的最佳代码
下面的代码提供了一个有效的解决方案,可以过滤掉不需要的元素并保留 HTML 实体:
from urllib.request import urlopen from bs4 import BeautifulSoup url = "http://news.bbc.co.uk/2/hi/health/2284783.stm" html = urlopen(url).read() soup = BeautifulSoup(html, features="html.parser") # Remove scripts and styles for script in soup(["script", "style"]): script.extract() # Extract text text = soup.get_text() # Convert line breaks and remove whitespace lines = (line.strip() for line in text.splitlines()) chunks = (phrase.strip() for line in lines for phrase in line.split(" ")) text = '\n'.join(chunk for chunk in chunks if chunk) print(text)
依赖
使用这个代码,您需要安装 BeautifulSoup4:
pip install beautifulsoup4
以上是如何在 Python 中高效地从 HTML 中提取干净的文本?的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

使用FiddlerEverywhere进行中间人读取时如何避免被检测到当你使用FiddlerEverywhere...

如何在10小时内教计算机小白编程基础?如果你只有10个小时来教计算机小白一些编程知识,你会选择教些什么�...

攻克Investing.com的反爬虫策略许多人尝试爬取Investing.com(https://cn.investing.com/news/latest-news)的新闻数据时,常常�...

Python3.6环境下加载pickle文件报错:ModuleNotFoundError:Nomodulenamed...

使用Scapy爬虫时管道文件无法写入的原因探讨在学习和使用Scapy爬虫进行数据持久化存储时,可能会遇到管道文�...
