從數據到策略:統計數據如何推動值得信賴的行銷決策
統計是一個強大的工具,使我們能夠解決複雜的問題並回答第一次觀察資料或模式時出現的問題。一個例子是分析超市顧客的個性。諸如這個群體真的與其他群體不同嗎?到什麼程度呢?我應該更多地關注這個群體以改善他們的體驗和我的銷售嗎? 他們是做出正確決策的關鍵。
雖然視覺化可以幫助我們快速理解數據,但它們並不總是 100% 可靠。我們可以觀察到各組之間有明顯差異,但這些差異可能不具有統計顯著性。
這就是統計數據發揮作用的地方:它不僅幫助我們更深入地分析數據,而且讓我們有信心驗證我們的假設。作為資料科學家或決策專業人士,我們必須意識到不正確的分析可能會導致錯誤的決策,從而導致時間和金錢的損失。因此,我們的結論必須有根據、有統計證據支持,這一點至關重要。
當我們看到分析結果反映在公司內部的有效變革、客戶體驗的改善以及最終對銷售和營運的正面影響時,真正的滿意度就會出現。 參與這個過程的感覺真是難以置信!
為了幫助您發展這項技能,我們將在這篇文章中開發超市顧客的性格分析,我們將使用Kaggle 資料集客戶性格分析:https://www.kaggle.com /datasets/ imakash3011/客戶個性分析
在此分析中,我們將探索超市顧客的行為,目的是從數據中提取有價值的資訊。我們將尋求回答以下問題:
- 教育的總支出有顯著差異嗎?
- 兒童人數的總支出是否有顯著差異?
- 依婚姻狀況劃分的總支出有顯著差異嗎?
雖然這個分析可以進一步擴展,但我們將專注於回答這三個問題,因為它們提供了很強的解釋力。在整篇文章中,我們將向您展示如何解決這些問題,以及如何透過相同的方法回答更多問題。
在本文中,我們將探討統計分析,例如Kolmogorov-Smirnov 檢定、Levene 檢驗,以及如何知道何時應用ANOVA 或克魯斯卡爾-沃利斯。這些名字你可能會覺得陌生,但是不用擔心,我會用簡單的方式解釋它們,讓你輕鬆理解它們。
接下來,我將向您展示 Python 程式碼以及有效執行這些統計分析所需遵循的步驟。
1. 入門
我們匯入必要的 Python 函式庫。
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np import os
現在我們可以選擇兩種方式上傳.csv文件,直接取得文件或我們可以在下載按鈕上取得kaggle連結。
#pip install kagglehub import kagglehub # Download latest version path = kagglehub.dataset_download("imakash3011/customer-personality-analysis") print("Path to dataset files:", path)
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np import os
#pip install kagglehub import kagglehub # Download latest version path = kagglehub.dataset_download("imakash3011/customer-personality-analysis") print("Path to dataset files:", path)
#Obtenemos el nombre del archivo nombre_archivo = os.listdir(path)[0] nombre_archivo
ID | Year_Birth | Education | Marital_Status | Income | Kidhome | Teenhome | Dt_Customer | Recency | MntWines | MntFruits | MntMeatProducts | MntFishProducts | MntSweetProducts | MntGoldProds | NumDealsPurchases | NumWebPurchases | NumCatalogPurchases | NumStorePurchases | NumWebVisitsMonth | AcceptedCmp3 | AcceptedCmp4 | AcceptedCmp5 | AcceptedCmp1 | AcceptedCmp2 | Complain | Z_CostContact | Z_Revenue | Response | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 5524 | 1957 | Graduation | Single | 58138.0 | 0 | 0 | 04-09-2012 | 58 | 635 | 88 | 546 | 172 | 88 | 88 | 3 | 8 | 10 | 4 | 7 | 0 | 0 | 0 | 0 | 0 | 0 | 3 | 11 | 1 |
1 | 2174 | 1954 | Graduation | Single | 46344.0 | 1 | 1 | 08-03-2014 | 38 | 11 | 1 | 6 | 2 | 1 | 6 | 2 | 1 | 1 | 2 | 5 | 0 | 0 | 0 | 0 | 0 | 0 | 3 | 11 | 0 |
2 | 4141 | 1965 | Graduation | Together | 71613.0 | 0 | 0 | 21-08-2013 | 26 | 426 | 49 | 127 | 111 | 21 | 42 | 1 | 8 | 2 | 10 | 4 | 0 | 0 | 0 | 0 | 0 | 0 | 3 | 11 | 0 |
為了更好地了解我們將分析的資料集,我將指出每列的含義。
列:
-
人:
- ID:客戶端的唯一識別碼
- Year_Birth: 客戶的出生年份。
- 教育: 客戶的教育程度。
- Marital_Status: 客戶的婚姻狀況
- 收入:客戶家庭的年收入
- Kidhome: 客戶家中的兒童數量
- 青少年之家: 客戶家中青少年的數量
- Dt_Customer:客戶在公司註冊日期
- 新近度: 自從顧客上次購買以來的天數。
- 投訴: 如果客戶在過去 2 年內投訴過,則為 1,否則為 0
-
產品:
- MntWines:過去 2 年在葡萄酒上花費的金額。
- MntFruits: 過去 2 年在水果上花費的金額。
- MntMeatProducts: 過去 2 年在肉類上的花費。
- MntFishProducts: 過去 2 年在魚上花費的金額。
- MntSweetProducts: 過去 2 年在糖果上花費的金額。
- MntGoldProds:過去 2 年在黃金上花費的金額。
-
促銷:
- NumDealsPurchases: 折扣購買數量。
- AcceptedCmp1: 如果客戶在第一個活動中接受了優惠,則為 1,否則為 0。
- AcceptedCmp2: 如果客戶在第二次活動中接受了優惠,則為 1,否則為 0。
- AcceptedCmp3: 如果客戶在第三次活動中接受了優惠,則為 1,否則為 0。
- AcceptedCmp4: 如果客戶在第四次活動中接受了優惠,則為 1,否則為 0。
- AcceptedCmp5: 如果客戶在第五次活動中接受了優惠,則為 1,否則為 0。
- 回應: 如果客戶在上次活動中接受了優惠,則為 1,否則為 0
-
地點:
- NumWebPurchases: 透過公司網站進行的購買數量。
- NumCatalogPurchases: 透過目錄進行的購買數量。
- NumStorePurchases: 直接在商店購買的數量。
- NumWebVisitsMonth: 上個月公司網站的造訪次數。
是的,有很多列,但這裡我們只使用其中的幾列,以免擴展太多,無論如何您都可以對其他列應用相同的步驟。
現在,我們將驗證我們沒有空資料
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np import os
#pip install kagglehub import kagglehub # Download latest version path = kagglehub.dataset_download("imakash3011/customer-personality-analysis") print("Path to dataset files:", path)
我們可以注意到,收入列中有24 個空資料,但是此列不會用於此分析,因此我們不會對其執行任何操作,以防您想使用它,您必須驗證執行以下兩個選項之一:
- 如果缺失資料不佔總資料的 5% 以上,則對缺失資料進行插補(建議)。
- 刪除空資料。
2. 配置資料集進行分析
我們會保留我們感興趣的欄目,例如教育、子女、婚姻狀況、每個產品類別的支出金額等等。
#Obtenemos el nombre del archivo nombre_archivo = os.listdir(path)[0] nombre_archivo
我們透過新增所有產品類別的費用來計算總費用。
'marketing_campaign.csv'
以上是從數據到策略:統計數據如何推動值得信賴的行銷決策的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

Python在遊戲和GUI開發中表現出色。 1)遊戲開發使用Pygame,提供繪圖、音頻等功能,適合創建2D遊戲。 2)GUI開發可選擇Tkinter或PyQt,Tkinter簡單易用,PyQt功能豐富,適合專業開發。

Python更易學且易用,C 則更強大但複雜。 1.Python語法簡潔,適合初學者,動態類型和自動內存管理使其易用,但可能導致運行時錯誤。 2.C 提供低級控制和高級特性,適合高性能應用,但學習門檻高,需手動管理內存和類型安全。

要在有限的時間內最大化學習Python的效率,可以使用Python的datetime、time和schedule模塊。 1.datetime模塊用於記錄和規劃學習時間。 2.time模塊幫助設置學習和休息時間。 3.schedule模塊自動化安排每週學習任務。

Python在開發效率上優於C ,但C 在執行性能上更高。 1.Python的簡潔語法和豐富庫提高開發效率。 2.C 的編譯型特性和硬件控制提升執行性能。選擇時需根據項目需求權衡開發速度與執行效率。

pythonlistsarepartofthestAndArdLibrary,herilearRaysarenot.listsarebuilt-In,多功能,和Rused ForStoringCollections,而EasaraySaraySaraySaraysaraySaraySaraysaraySaraysarrayModuleandleandleandlesscommonlyusedDduetolimitedFunctionalityFunctionalityFunctionality。

每天學習Python兩個小時是否足夠?這取決於你的目標和學習方法。 1)制定清晰的學習計劃,2)選擇合適的學習資源和方法,3)動手實踐和復習鞏固,可以在這段時間內逐步掌握Python的基本知識和高級功能。

Python在自動化、腳本編寫和任務管理中表現出色。 1)自動化:通過標準庫如os、shutil實現文件備份。 2)腳本編寫:使用psutil庫監控系統資源。 3)任務管理:利用schedule庫調度任務。 Python的易用性和豐富庫支持使其在這些領域中成為首選工具。

Python和C 各有優勢,選擇應基於項目需求。 1)Python適合快速開發和數據處理,因其簡潔語法和動態類型。 2)C 適用於高性能和系統編程,因其靜態類型和手動內存管理。
