首页 头条 用Python爬了4000多条淘宝商品数据,发现了这些规则!!!

用Python爬了4000多条淘宝商品数据,发现了这些规则!!!

Mar 07, 2018 pm 04:07 PM
python 商品

用 Python 爬取淘宝某商品的全过程,并对商品数据进行了挖掘与分析,最终得出结论。

1.jpg

项目内容

2.jpg

本案例选择商品类目:沙发。

数量:共 100 页  4400 个商品。

筛选条件:天猫、销量从高到低、价格 500 元以上。

项目目的

对商品标题进行文本分析,词云可视化

不同关键词 word 对应的 sales 的统计分析

商品的价格分布情况分析

商品的销量分布情况分析

不同价格区间的商品的平均销量分布

商品价格对销量的影响分析

商品价格对销售额的影响分析

不同省份或城市的商品数量分布

不同省份的商品平均销量分布

注:本项目仅以以上几项分析为例。

项目步骤

数据采集:Python 爬取淘宝网商品数据

对数据进行清洗和处理

文本分析:jieba 分词、wordcloud 可视化

数据柱形图可视化:barh

数据直方图可视化:hist

数据散点图可视化:scatter

数据回归分析可视化:regplot

工具&模块

工具:本案例代码编辑工具 Anaconda 的 Spyder。

模块:requests、retrying、missingno、jieba、matplotlib、wordcloud、imread、seaborn 等。

爬取数据

因淘宝网是反爬虫的,虽然使用多线程、修改 headers 参数,但仍然不能保证每次 100% 爬取,所以我增加了循环爬取,每次循环爬取未爬取成功的页 ,直至所有页爬取成功停止。

说明:淘宝商品页为 JSON 格式,这里使用正则表达式进行解析。

代码如下:

3.jpg

数据清洗、处理

数据清洗、处理这个步骤也可以在 Excel 中完成,再读入数据。

代码如下:

1.jpg

2.jpg

说明:根据需求,本案例中只取了 item_loc,raw_title,view_price,view_sales 这 4 列数据,主要对区域、标题、价格、销量进行分析。

代码如下:

3.jpg

数据挖掘与分析

对 raw_title 列标题进行文本分析

使用结巴分词器,安装模块 pip install jieba:

1.jpg

对 title_s(list of list 格式)中的每个 list 的元素(str)进行过滤,剔除不需要的词语,即把停用词表 stopwords 中有的词语都剔除掉:

2.jpg

因为下面要统计每个词语的个数,所以为了准确性,这里对过滤后的数据 title_clean 中的每个 list 的元素进行去重,即每个标题被分割后的词语唯一。

3.jpg

观察 word_count 表中的词语,发现 jieba 默认的词典无法满足需求。

有的词语(如可拆洗、不可拆洗等)却被 cut,这里根据需求对词典加入新词(也可以直接在词典 dict.txt 里面增删,然后载入修改过的 dict.txt)。

1.jpg

词云可视化需要安装 wordcloud 模块。

安装模块有两种方法:

pip install wordcloud

下载 Packages 安装:pip install 软件包名称

注意:要把下载的软件包放在 Python 安装路径下。

代码如下:

2.jpg

3.jpg

分析结论:

组合、整装商品占比很高。

从沙发材质看:布艺沙发占比很高,比皮艺沙发多。

从沙发风格看:简约风格最多,北欧风次之,其他风格排名依次是美式、中式、日式、法式等。

从户型看:小户型占比最高、大小户型次之,大户型最少。

不同关键词 word 对应的 sales 之和的统计分析

说明:例如词语“简约”,则统计商品标题中含有“简约”一词的商品的销量之和,即求出具有“简约”风格的商品销量之和。

代码如下:

1.jpg

对表 df_word_sum 中的 word 和 w_s_sum 两列数据进行可视化。(本例中取销量排名前 30 的词语进行绘图)

2.jpg

3.jpg

由图表可知:

组合商品销量最高。

从品类看:布艺沙发销量很高,远超过皮艺沙发。

从户型看:小户型沙发销量最高,大小户型次之,大户型销量最少。

从风格看:简约风销量最高,北欧风次之,其他依次是中式、美式、日式等。

可拆洗、转角类沙发销量可观,也是颇受消费者青睐的。

商品的价格分布情况分析

分析发现,有一些值太大,为了使可视化效果更加直观,这里我们结合自身产品情况,选择价格小于 20000 的商品。

代码如下:

1.jpg

2.jpg

由图表可知:

商品数量随着价格总体呈现下降阶梯形势,价格越高,在售的商品越少。

低价位商品居多,价格在 500-1500 之间的商品最多,1500-3000 之间的次之,价格 1 万以上的商品较少。

价格 1 万元以上的商品,在售商品数量差异不大。

商品的销量分布情况分析

1.jpg

2.jpg

同样,为了使可视化效果更加直观,这里我们选择销量大于 100 的商品。

代码如下:

由图表及数据可知:

销量 100 以上的商品仅占 3.4% ,其中销量 100-200 之间的商品最多,200-300 之间的次之。

销量 100-500 之间,商品的数量随着销量呈现下降趋势,且趋势陡峭,低销量商品居多。

销量 500 以上的商品很少。

不同价格区间的商品的平均销量分布

代码如下:

1.jpg

2.jpg

由图表可知:

价格在 1331-1680 之间的商品平均销量最高,951-1331 之间的次之,9684 元以上的最低。

总体呈现先增后减的趋势,但最高峰处于相对低价位阶段。

说明广大消费者对购买沙发的需求更多处于低价位阶段,在 1680 元以上价位越高,平均销量基本是越少。

商品价格对销量的影响分析

同上,为了使可视化效果更加直观,这里我们结合自身产品情况,选择价格小于 20000 的商品。

代码如下:

1.jpg

2.jpg

由图表可知:

总体趋势:随着商品价格增多,其销量减少,商品价格对其销量影响很大。

价格 500-2500 之间的少数商品销量冲的很高,价格 2500-5000 之间的商品多数销量偏低,少数相对较高,但价格 5000 以上的商品销量均很低,没有销量突出的商品。

商品价格对销售额的影响分析

代码如下:

1.jpg

2.jpg

由图表可知:

总体趋势:由线性回归拟合线可以看出,商品销售额随着价格增长呈现上升趋势。

多数商品的价格偏低,销售额也偏低。

价格在 0-20000 的商品只有少数销售额较高,价格 2-6 万的商品只有 3 个销售额较高,价格 6-10 万的商品有 1 个销售额很高,而且是最大值。

不同省份的商品数量分布

代码如下:

1.jpg

2.jpg

由图表可知:

广东的最多,上海次之,江苏第三,尤其是广东的数量远超过江苏、浙江、上海等地,说明在沙发这个子类目,广东的店铺占主导地位。

江浙沪等地的数量差异不大,基本相当。

不同省份的商品平均销量分布

代码如下:

1.jpg

2.jpg

热力型地图

1.jpg

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

<🎜>:泡泡胶模拟器无穷大 - 如何获取和使用皇家钥匙
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系统,解释
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆树的耳语 - 如何解锁抓钩
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1672
14
CakePHP 教程
1428
52
Laravel 教程
1332
25
PHP教程
1276
29
C# 教程
1256
24
PHP和Python:解释了不同的范例 PHP和Python:解释了不同的范例 Apr 18, 2025 am 12:26 AM

PHP主要是过程式编程,但也支持面向对象编程(OOP);Python支持多种范式,包括OOP、函数式和过程式编程。PHP适合web开发,Python适用于多种应用,如数据分析和机器学习。

在PHP和Python之间进行选择:指南 在PHP和Python之间进行选择:指南 Apr 18, 2025 am 12:24 AM

PHP适合网页开发和快速原型开发,Python适用于数据科学和机器学习。1.PHP用于动态网页开发,语法简单,适合快速开发。2.Python语法简洁,适用于多领域,库生态系统强大。

sublime怎么运行代码python sublime怎么运行代码python Apr 16, 2025 am 08:48 AM

在 Sublime Text 中运行 Python 代码,需先安装 Python 插件,再创建 .py 文件并编写代码,最后按 Ctrl B 运行代码,输出会在控制台中显示。

PHP和Python:深入了解他们的历史 PHP和Python:深入了解他们的历史 Apr 18, 2025 am 12:25 AM

PHP起源于1994年,由RasmusLerdorf开发,最初用于跟踪网站访问者,逐渐演变为服务器端脚本语言,广泛应用于网页开发。Python由GuidovanRossum于1980年代末开发,1991年首次发布,强调代码可读性和简洁性,适用于科学计算、数据分析等领域。

Python vs. JavaScript:学习曲线和易用性 Python vs. JavaScript:学习曲线和易用性 Apr 16, 2025 am 12:12 AM

Python更适合初学者,学习曲线平缓,语法简洁;JavaScript适合前端开发,学习曲线较陡,语法灵活。1.Python语法直观,适用于数据科学和后端开发。2.JavaScript灵活,广泛用于前端和服务器端编程。

Golang vs. Python:性能和可伸缩性 Golang vs. Python:性能和可伸缩性 Apr 19, 2025 am 12:18 AM

Golang在性能和可扩展性方面优于Python。1)Golang的编译型特性和高效并发模型使其在高并发场景下表现出色。2)Python作为解释型语言,执行速度较慢,但通过工具如Cython可优化性能。

vscode在哪写代码 vscode在哪写代码 Apr 15, 2025 pm 09:54 PM

在 Visual Studio Code(VSCode)中编写代码简单易行,只需安装 VSCode、创建项目、选择语言、创建文件、编写代码、保存并运行即可。VSCode 的优点包括跨平台、免费开源、强大功能、扩展丰富,以及轻量快速。

notepad 怎么运行python notepad 怎么运行python Apr 16, 2025 pm 07:33 PM

在 Notepad 中运行 Python 代码需要安装 Python 可执行文件和 NppExec 插件。安装 Python 并为其添加 PATH 后,在 NppExec 插件中配置命令为“python”、参数为“{CURRENT_DIRECTORY}{FILE_NAME}”,即可在 Notepad 中通过快捷键“F6”运行 Python 代码。