从数据到策略:统计数据如何推动值得信赖的营销决策
统计是一个强大的工具,使我们能够解决复杂的问题并回答第一次观察数据或模式时出现的问题。一个例子是分析超市顾客的个性。诸如这个群体真的与其他群体不同吗?到什么程度呢?我应该更多地关注这个群体以改善他们的体验和我的销售吗?他们是做出正确决策的关键。
虽然可视化可以帮助我们快速理解数据,但它们并不总是 100% 可靠。我们可以观察到各组之间存在明显差异,但这些差异可能不具有统计显着性。
这就是统计数据发挥作用的地方:它不仅帮助我们更深入地分析数据,而且让我们有信心验证我们的假设。作为数据科学家或决策专业人士,我们必须意识到不正确的分析可能会导致错误的决策,从而导致时间和金钱的损失。因此,我们的结论必须有根据、有统计证据支持,这一点至关重要。
当我们看到分析结果反映在公司内部的有效变革、客户体验的改善以及最终对销售和运营的积极影响时,真正的满意度就会出现。 参与这个过程的感觉真是难以置信!
为了帮助您发展这项技能,我们将在这篇文章中开发超市顾客的性格分析,我们将使用 Kaggle 数据集客户性格分析:https://www.kaggle.com/datasets/ imakash3011/客户个性分析
在此分析中,我们将探索超市顾客的行为,目的是从数据中提取有价值的信息。我们将寻求回答以下问题:
- 教育的总支出有显着差异吗?
- 儿童人数的总支出是否存在显着差异?
- 按婚姻状况划分的总支出有显着差异吗?
虽然这个分析可以进一步扩展,但我们将专注于回答这三个问题,因为它们提供了很强的解释力。在整篇文章中,我们将向您展示如何解决这些问题,以及如何通过相同的方法回答更多问题。
在本文中,我们将探讨统计分析,例如 Kolmogorov-Smirnov 检验、Levene 检验,以及如何知道何时应用 ANOVA 或克鲁斯卡尔-沃利斯。这些名字你可能会觉得陌生,但是不用担心,我会用简单的方式解释它们,以便你轻松理解它们。
接下来,我将向您展示 Python 代码以及有效执行这些统计分析所需遵循的步骤。
1. 入门
我们导入必要的 Python 库。
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np import os
现在我们可以选择两种方式上传.csv文件,直接获取文件或者我们可以在下载按钮上获取kaggle链接。
#pip install kagglehub import kagglehub # Download latest version path = kagglehub.dataset_download("imakash3011/customer-personality-analysis") print("Path to dataset files:", path)
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np import os
#pip install kagglehub import kagglehub # Download latest version path = kagglehub.dataset_download("imakash3011/customer-personality-analysis") print("Path to dataset files:", path)
#Obtenemos el nombre del archivo nombre_archivo = os.listdir(path)[0] nombre_archivo
ID | Year_Birth | Education | Marital_Status | Income | Kidhome | Teenhome | Dt_Customer | Recency | MntWines | MntFruits | MntMeatProducts | MntFishProducts | MntSweetProducts | MntGoldProds | NumDealsPurchases | NumWebPurchases | NumCatalogPurchases | NumStorePurchases | NumWebVisitsMonth | AcceptedCmp3 | AcceptedCmp4 | AcceptedCmp5 | AcceptedCmp1 | AcceptedCmp2 | Complain | Z_CostContact | Z_Revenue | Response | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 5524 | 1957 | Graduation | Single | 58138.0 | 0 | 0 | 04-09-2012 | 58 | 635 | 88 | 546 | 172 | 88 | 88 | 3 | 8 | 10 | 4 | 7 | 0 | 0 | 0 | 0 | 0 | 0 | 3 | 11 | 1 |
1 | 2174 | 1954 | Graduation | Single | 46344.0 | 1 | 1 | 08-03-2014 | 38 | 11 | 1 | 6 | 2 | 1 | 6 | 2 | 1 | 1 | 2 | 5 | 0 | 0 | 0 | 0 | 0 | 0 | 3 | 11 | 0 |
2 | 4141 | 1965 | Graduation | Together | 71613.0 | 0 | 0 | 21-08-2013 | 26 | 426 | 49 | 127 | 111 | 21 | 42 | 1 | 8 | 2 | 10 | 4 | 0 | 0 | 0 | 0 | 0 | 0 | 3 | 11 | 0 |
为了更好地了解我们将分析的数据集,我将指出每列的含义。
列:
-
人:
- ID:客户端的唯一标识符
- Year_Birth: 客户的出生年份。
- 教育: 客户的教育水平。
- Marital_Status: 客户的婚姻状况
- 收入:客户家庭的年收入
- Kidhome: 客户家中的儿童数量
- 青少年之家: 客户家中青少年的数量
- Dt_Customer:客户在公司注册日期
- 新近度: 自客户上次购买以来的天数。
- 投诉: 如果客户在过去 2 年内投诉过,则为 1,否则为 0
-
产品:
- MntWines:过去 2 年在葡萄酒上花费的金额。
- MntFruits: 过去 2 年在水果上花费的金额。
- MntMeatProducts: 过去 2 年在肉类上的花费。
- MntFishProducts: 过去 2 年在鱼上花费的金额。
- MntSweetProducts: 过去 2 年在糖果上花费的金额。
- MntGoldProds:过去 2 年在黄金上花费的金额。
-
促销:
- NumDealsPurchases: 折扣购买数量。
- AcceptedCmp1: 如果客户在第一个活动中接受了优惠,则为 1,否则为 0。
- AcceptedCmp2: 如果客户在第二次活动中接受了优惠,则为 1,否则为 0。
- AcceptedCmp3: 如果客户在第三次活动中接受了优惠,则为 1,否则为 0。
- AcceptedCmp4: 如果客户在第四次活动中接受了优惠,则为 1,否则为 0。
- AcceptedCmp5: 如果客户在第五次活动中接受了优惠,则为 1,否则为 0。
- 响应: 如果客户在上次活动中接受了优惠,则为 1,否则为 0
-
地点:
- NumWebPurchases: 通过公司网站进行的购买数量。
- NumCatalogPurchases: 通过目录进行的购买数量。
- NumStorePurchases: 直接在商店购买的数量。
- NumWebVisitsMonth: 上个月公司网站的访问次数。
是的,有很多列,但这里我们只使用其中的几列,以免扩展太多,无论如何您都可以对其他列应用相同的步骤。
现在,我们将验证我们没有空数据
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np import os
#pip install kagglehub import kagglehub # Download latest version path = kagglehub.dataset_download("imakash3011/customer-personality-analysis") print("Path to dataset files:", path)
我们可以注意到,收入列中有 24 个空数据,但是此列不会用于此分析,因此我们不会对其执行任何操作,以防您想使用它,您必须验证执行以下两个选项之一:
- 如果缺失数据不占总数据的 5% 以上,则对缺失数据进行插补(推荐)。
- 删除空数据。
2. 配置数据集进行分析
我们会保留我们感兴趣的栏目,例如教育、子女、婚姻状况、每个产品类别的支出金额等等。
#Obtenemos el nombre del archivo nombre_archivo = os.listdir(path)[0] nombre_archivo
我们通过添加所有产品类别的费用来计算总费用。
'marketing_campaign.csv'
以上是从数据到策略:统计数据如何推动值得信赖的营销决策的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

Python在游戏和GUI开发中表现出色。1)游戏开发使用Pygame,提供绘图、音频等功能,适合创建2D游戏。2)GUI开发可选择Tkinter或PyQt,Tkinter简单易用,PyQt功能丰富,适合专业开发。

Python更易学且易用,C 则更强大但复杂。1.Python语法简洁,适合初学者,动态类型和自动内存管理使其易用,但可能导致运行时错误。2.C 提供低级控制和高级特性,适合高性能应用,但学习门槛高,需手动管理内存和类型安全。

要在有限的时间内最大化学习Python的效率,可以使用Python的datetime、time和schedule模块。1.datetime模块用于记录和规划学习时间。2.time模块帮助设置学习和休息时间。3.schedule模块自动化安排每周学习任务。

Python在开发效率上优于C ,但C 在执行性能上更高。1.Python的简洁语法和丰富库提高开发效率。2.C 的编译型特性和硬件控制提升执行性能。选择时需根据项目需求权衡开发速度与执行效率。

pythonlistsarepartofthestAndArdLibrary,herilearRaysarenot.listsarebuilt-In,多功能,和Rused ForStoringCollections,而EasaraySaraySaraySaraysaraySaraySaraysaraySaraysarrayModuleandleandleandlesscommonlyusedDduetolimitedFunctionalityFunctionalityFunctionality。

Python在自动化、脚本编写和任务管理中表现出色。1)自动化:通过标准库如os、shutil实现文件备份。2)脚本编写:使用psutil库监控系统资源。3)任务管理:利用schedule库调度任务。Python的易用性和丰富库支持使其在这些领域中成为首选工具。

每天学习Python两个小时是否足够?这取决于你的目标和学习方法。1)制定清晰的学习计划,2)选择合适的学习资源和方法,3)动手实践和复习巩固,可以在这段时间内逐步掌握Python的基本知识和高级功能。

Python和C 各有优势,选择应基于项目需求。1)Python适合快速开发和数据处理,因其简洁语法和动态类型。2)C 适用于高性能和系统编程,因其静态类型和手动内存管理。
