首页 后端开发 Python教程 如何使用 Python 和 BeautifulSoup 从 Goodreads 中抓取数据

如何使用 Python 和 BeautifulSoup 从 Goodreads 中抓取数据

Dec 10, 2024 am 10:40 AM

网络抓取是从网站收集数据的强大工具。无论您是收集产品评论、跟踪价格,还是在我们的例子中抓取 Goodreads 书籍,网络抓取都为数据驱动应用程序提供了无限的机会。

在这篇博文中,我们将探讨网页抓取的基础知识、Python BeautifulSoup 库的强大功能,并分解旨在抓取 Goodreads Choice Awards 数据的 Python 脚本。最后,我们将讨论如何将这些数据存储在 CSV 文件中以供进一步分析或应用。


Goodreads 是什么?

Goodreads 是全球最大的读者和图书推荐平台。它为用户提供了书评、作者详细信息和热门排名的访问权限。每年,Goodreads 都会举办 Goodreads 选择奖,读者投票选出他们最喜欢的各种类型的书籍,如小说、奇幻、浪漫等。这使得 Goodreads 成为网络抓取的理想目标,以收集有关热门书籍和作者的见解。


什么是网页抓取?

网络抓取涉及以自动方式从网站提取数据。它允许您收集和构建任务的信息,例如:

  • 分析趋势和模式。
  • 聚合评论或文章等内容。
  • 提供机器学习模型或数据库。

设置您的环境

在深入了解脚本之前,您需要安装必要的库。

  1. 安装Python

    确保您的系统上安装了 Python。

  2. 安装所需的库

    使用 pip 安装所需的库:

    pip install beautifulsoup4
    pip install requests
    
    登录后复制
    登录后复制
    登录后复制

    请求:允许我们向 URL 发送 HTTP 请求并检索网页内容。

    BeautifulSoup:简化 HTML 解析和数据提取。

这些安装完成后,您就可以开始抓取了!


美丽汤简介

BeautifulSoup 是一个用于解析 HTML 和 XML 文档的 Python 库。它使开发人员能够导航页面结构、提取内容并将原始 HTML 转换为结构化格式。

BeautifulSoup 中的关键方法

以下是我们将在脚本中使用的一些基本方法:

  • BeautifulSoup(html, 'html.parser'):初始化解析器并允许您处理 HTML 内容。
  • soup.select(selector):使用 CSS 选择器查找元素,例如类或标签。
  • soup.find(class_='class_name'):定位具有指定类的元素的第一次出现。
  • soup.find_parent(class_='class_name'):查找当前元素的父标签。
  • soup.get('attribute'):从元素中检索属性的值,例如 href 或 src。

有关方法的完整列表,请查看 BeautifulSoup 文档。


设置脚本

让我们首先导入必要的库并定义自定义标头来模拟浏览器。这有助于避免被网站屏蔽。

pip install beautifulsoup4
pip install requests
登录后复制
登录后复制
登录后复制

抓取类别和书籍

我们首先定义 Goodreads 选择奖页面和主应用程序的 URL。我们将向 start_url 发送请求并获取网页内容。

from bs4 import BeautifulSoup as bs
import requests
import re
import csv

HEADERS = {
    "User-Agent": "Mozilla/5.0 (X11; Linux x86_64)...",
    "Accept-Language": "en-US, en;q=0.5",
}
登录后复制
登录后复制

每个类别都包含一个流派和指向其各自页面的链接。使用 soup.select,我们提取 .category 类下列出的所有类别。

How to Scrape Data From Goodreads Using Python and BeautifulSoup

接下来,迭代每个类别以获取流派名称及其页面 URL。

app_url = "https://www.goodreads.com"
start_url = "https://www.goodreads.com/choiceawards/best-books-2024"

res = requests.get(start_url, headers=HEADERS)
soup = bs(res.text, 'html.parser')

categories = soup.select('.category')
登录后复制
登录后复制

在这里,我们提取类别名称(流派)和类别页面 URL 以进行进一步处理。

我们将向每个category_url发送另一个请求并找到该类别下的所有书籍。

for index, category in enumerate(categories):
    genre = category.select('h4.category__copy')[0].text.strip()
    url = category.select('a')[0].get('href')
    category_url = f"{app_url}{url}"
登录后复制
登录后复制

category_books 将包含相应类别下所有书籍的列表。

提取图书数据

一旦我们有了书籍列表,我们将迭代每本书并提取数据。

提取投票

res = requests.get(category_url, headers=HEADERS)
soup = bs(res.text, 'html.parser')

category_books = soup.select('.resultShown a.pollAnswer__bookLink')
登录后复制
登录后复制

如果我们在 DOM 中看到,投票计数存在于类别元素的父元素中。所以我们需要使用find_parent方法来定位元素并提取投票数。

How to Scrape Data From Goodreads Using Python and BeautifulSoup

提取书名、作者和图片 URL

for book_index, book in enumerate(category_books):
    parent_tag = book.find_parent(class_='resultShown')
    votes = parent_tag.find(class_='result').text.strip()
    book_votes = clean_string(votes).split(" ")[0].replace(",", "")
登录后复制

提取每本书的 URL、封面图片 URL、标题和作者。

clean_string 函数确保标题格式整齐。您可以在脚本顶部定义它

book_url = book.get('href')
book_url_formatted = f"{app_url}{book_url}"
book_img = book.find('img')
book_img_url = book_img.get('src')
book_img_alt = book_img.get('alt')
book_title = clean_string(book_img_alt)
print(book_title)
book_name = book_title.split('by')[0].strip()
book_author = book_title.split('by')[1].strip()
登录后复制

提取更多书籍详细信息

要获取有关该书的更多详细信息,例如评分、评论等,我们将向 book_url_formatted 发送另一个请求。

def clean_string(string):
    cleaned = re.sub(r'\s+', ' ', string).strip()
    return cleaned
登录后复制

此处 get_ ratings_reviews 返回格式正确的评分和评论文本。

How to Scrape Data From Goodreads Using Python and BeautifulSoup

您可以在脚本顶部定义此函数。

pip install beautifulsoup4
pip install requests
登录后复制
登录后复制
登录后复制

通过导航到每本书的详细信息页面,可以提取评级、评论和详细描述等附加信息。在这里,我们还检查书籍描述元素是否存在,否则放置默认描述,以便脚本不会失败。

from bs4 import BeautifulSoup as bs
import requests
import re
import csv

HEADERS = {
    "User-Agent": "Mozilla/5.0 (X11; Linux x86_64)...",
    "Accept-Language": "en-US, en;q=0.5",
}
登录后复制
登录后复制

在这里,我们还收集了作者详细信息、出版信息和其他元数据。

创建图书词典

让我们将为一本书提取的所有数据存储在字典中。

app_url = "https://www.goodreads.com"
start_url = "https://www.goodreads.com/choiceawards/best-books-2024"

res = requests.get(start_url, headers=HEADERS)
soup = bs(res.text, 'html.parser')

categories = soup.select('.category')
登录后复制
登录后复制

我们将使用此字典将数据添加到 csv 文件中。


将数据存储在 CSV 文件中

我们将使用 csv 模块,它是 Python 标准库的一部分。所以不需要单独安装。

首先我们需要检查这是否是第一个条目。需要进行此检查才能将标题添加到 csv 文件的第一行中。

for index, category in enumerate(categories):
    genre = category.select('h4.category__copy')[0].text.strip()
    url = category.select('a')[0].get('href')
    category_url = f"{app_url}{url}"
登录后复制
登录后复制

我们使用 mode="w" 它将创建一个带有标题条目的新 csv 文件。

现在,对于所有后续条目,我们会将数据附加到 CSV 文件中:

res = requests.get(category_url, headers=HEADERS)
soup = bs(res.text, 'html.parser')

category_books = soup.select('.resultShown a.pollAnswer__bookLink')
登录后复制
登录后复制

mode="a" 会将数据附加到 CSV 文件。

现在,坐下来,放松一下,在脚本运行时享用一杯咖啡☕️。

完成后,最终数据将如下所示:

How to Scrape Data From Goodreads Using Python and BeautifulSoup

您可以在此 github 存储库中找到完整的源代码。


概括

我们已经学习了如何使用 Python 和 BeautifulSoup 抓取 Goodreads 数据。从基本设置到将数据存储在 CSV 文件中,我们探索了抓取过程的各个方面。抓取的数据可用于:

  • 数据可视化(例如,最受欢迎的流派或作者)。
  • 预测书籍受欢迎程度的机器学习模型。
  • 构建个人图书推荐系统。

网络抓取为创意数据分析和应用开辟了可能性。有了 BeautifulSoup 这样的库,即使是复杂的抓取任务也变得易于管理。请记住在抓取时遵循道德规范并尊重网站的服务条款!

以上是如何使用 Python 和 BeautifulSoup 从 Goodreads 中抓取数据的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1660
14
CakePHP 教程
1416
52
Laravel 教程
1310
25
PHP教程
1259
29
C# 教程
1233
24
Python vs.C:申请和用例 Python vs.C:申请和用例 Apr 12, 2025 am 12:01 AM

Python适合数据科学、Web开发和自动化任务,而C 适用于系统编程、游戏开发和嵌入式系统。 Python以简洁和强大的生态系统着称,C 则以高性能和底层控制能力闻名。

Python:游戏,Guis等 Python:游戏,Guis等 Apr 13, 2025 am 12:14 AM

Python在游戏和GUI开发中表现出色。1)游戏开发使用Pygame,提供绘图、音频等功能,适合创建2D游戏。2)GUI开发可选择Tkinter或PyQt,Tkinter简单易用,PyQt功能丰富,适合专业开发。

2小时的Python计划:一种现实的方法 2小时的Python计划:一种现实的方法 Apr 11, 2025 am 12:04 AM

2小时内可以学会Python的基本编程概念和技能。1.学习变量和数据类型,2.掌握控制流(条件语句和循环),3.理解函数的定义和使用,4.通过简单示例和代码片段快速上手Python编程。

您可以在2小时内学到多少python? 您可以在2小时内学到多少python? Apr 09, 2025 pm 04:33 PM

两小时内可以学到Python的基础知识。1.学习变量和数据类型,2.掌握控制结构如if语句和循环,3.了解函数的定义和使用。这些将帮助你开始编写简单的Python程序。

Python与C:学习曲线和易用性 Python与C:学习曲线和易用性 Apr 19, 2025 am 12:20 AM

Python更易学且易用,C 则更强大但复杂。1.Python语法简洁,适合初学者,动态类型和自动内存管理使其易用,但可能导致运行时错误。2.C 提供低级控制和高级特性,适合高性能应用,但学习门槛高,需手动管理内存和类型安全。

Python和时间:充分利用您的学习时间 Python和时间:充分利用您的学习时间 Apr 14, 2025 am 12:02 AM

要在有限的时间内最大化学习Python的效率,可以使用Python的datetime、time和schedule模块。1.datetime模块用于记录和规划学习时间。2.time模块帮助设置学习和休息时间。3.schedule模块自动化安排每周学习任务。

Python:探索其主要应用程序 Python:探索其主要应用程序 Apr 10, 2025 am 09:41 AM

Python在web开发、数据科学、机器学习、自动化和脚本编写等领域有广泛应用。1)在web开发中,Django和Flask框架简化了开发过程。2)数据科学和机器学习领域,NumPy、Pandas、Scikit-learn和TensorFlow库提供了强大支持。3)自动化和脚本编写方面,Python适用于自动化测试和系统管理等任务。

Python:自动化,脚本和任务管理 Python:自动化,脚本和任务管理 Apr 16, 2025 am 12:14 AM

Python在自动化、脚本编写和任务管理中表现出色。1)自动化:通过标准库如os、shutil实现文件备份。2)脚本编写:使用psutil库监控系统资源。3)任务管理:利用schedule库调度任务。Python的易用性和丰富库支持使其在这些领域中成为首选工具。

See all articles