[ad_1]
Các phương pháp khác nhau khi chúng ta nói về phân khúc khách hàng. Vâng, nó phụ thuộc vào mục tiêu chúng ta muốn đạt được, nhưng mục đích chính của phân khúc khách hàng là phân loại khách hàng vào các nhóm khác nhau dựa trên mức độ tương đồng của họ. Phương pháp này, khi áp dụng vào thực tế, sẽ giúp doanh nghiệp xác định phân khúc thị trường của mình bằng các chiến lược tiếp thị phù hợp dựa trên thông tin từ phân khúc.
Phân khúc RFM là một ví dụ về phân khúc khách hàng. RFM là viết tắt của sự gần đây, tần suất, Và tiền tệ. Kỹ thuật này phổ biến trong các doanh nghiệp thương mại do cách tiếp cận đơn giản nhưng mạnh mẽ của nó. Theo cách viết tắt của nó, chúng ta có thể định nghĩa từng số liệu trong RFM như sau:
- Gần đây (R): Lần cuối cùng khách hàng mua hàng là khi nào? Những khách hàng mới mua hàng thường có xu hướng mua hàng tiếp, không giống như những khách hàng đã lâu không mua hàng.
- Tần số (F): Khách hàng mua hàng thường xuyên như thế nào? Những khách hàng mua hàng thường xuyên được coi là trung thành và có giá trị hơn.
- Tiền tệ (M): Khách hàng chi bao nhiêu tiền? Chúng tôi coi trọng những khách hàng chi nhiều tiền hơn vì họ có giá trị đối với doanh nghiệp của chúng tôi.
Quy trình phân khúc RFM tương đối đơn giản. Đầu tiên, chúng tôi thu thập dữ liệu về các giao dịch của khách hàng trong một khoảng thời gian đã chọn. Vui lòng đảm bảo rằng chúng tôi đã biết thời điểm khách hàng giao dịch, số lượng sản phẩm cụ thể mà khách hàng mua trong mỗi giao dịch và số tiền mà khách hàng chi tiêu. Sau đó, chúng tôi sẽ chấm điểm. Có rất nhiều ngưỡng có sẵn để chúng tôi xem xét, nhưng tại sao chúng tôi không chọn thang điểm từ 1 đến 5 để đánh giá từng ngưỡng — trong đó 1 biểu thị điểm thấp nhất trong khi 5 biểu thị điểm cao nhất. Ở bước cuối cùng, chúng tôi kết hợp ba điểm để tạo phân khúc khách hàng. Ví dụ: khách hàng có điểm RFM cao nhất (5 về mức độ gần đây, tần suất và tiền tệ) được coi là trung thành, trong khi khách hàng có điểm RFM thấp nhất (1 về mức độ gần đây, tần suất và tiền tệ) được coi là người dùng đang rời bỏ.
Trong các phần sau của bài viết, chúng tôi sẽ tạo phân đoạn RFM bằng cách sử dụng một kỹ thuật học không giám sát phổ biến được gọi là Phương pháp Ok-Means.
Chúng ta không cần phải thu thập dữ liệu trong ví dụ thực tế này vì chúng ta đã có tập dữ liệu. Chúng ta sẽ sử dụng Bộ dữ liệu bán lẻ trực tuyến II từ Kho lưu trữ máy học của UCI. Bộ dữ liệu được cấp phép theo CC BY 4.0 và đủ điều kiện để sử dụng thương mại. Bạn có thể truy cập bộ dữ liệu miễn phí thông qua liên kết.
Bộ dữ liệu có tất cả thông tin liên quan đến giao dịch của khách hàng trong các doanh nghiệp bán lẻ trực tuyến, chẳng hạn như Ngày hóa đơn, Số lượngVà Giá. Có hai tập tin trong tập dữ liệu, nhưng chúng tôi sẽ sử dụng “Năm 2010–2011” phiên bản trong ví dụ này. Bây giờ, chúng ta hãy viết mã.
Bước 1: Chuẩn bị dữ liệu
Bước đầu tiên là chúng tôi thực hiện chuẩn bị dữ liệu. Chúng tôi thực hiện như sau:
# Load libraries
library(readxl) # To learn excel information in R
library(dplyr) # For knowledge manipulation objective
library(lubridate) # To work with dates and instances
library(tidyr) # For knowledge manipulation (use in drop_na)
library(cluster) # For Ok-Means clustering
library(factoextra) # For knowledge visualization within the context of clustering
library(ggplot2) # For knowledge visualization# Load the info
knowledge <- read_excel("online_retail_II.xlsx", sheet = "Yr 2010-2011")
# Take away lacking Buyer IDs
knowledge <- knowledge %>% drop_na(`Buyer ID`)
# Take away damaging or zero portions and costs
knowledge <- knowledge %>% filter(Amount > 0, Value > 0)
# Calculate the Financial worth
knowledge <- knowledge %>% mutate(TotalPrice = Amount * Value)
# Outline the reference date for Recency calculation
reference_date <- as.Date("2011-12-09")
Quá trình chuẩn bị dữ liệu là cần thiết vì phân đoạn sẽ tham chiếu đến dữ liệu chúng ta xử lý trong bước này. Sau khi chúng ta tải thư viện và tải dữ liệu, chúng ta thực hiện các bước sau:
- Xóa ID khách hàng bị thiếu: Đảm bảo mỗi giao dịch có Mã khách hàng hợp lệ là rất quan trọng để phân khúc khách hàng chính xác.
- Xóa số lượng và giá âm hoặc bằng 0: Giá trị âm hoặc bằng không đối với Số lượng hoặc Giá không có ý nghĩa đối với phân tích RFM vì chúng có thể biểu thị lợi nhuận hoặc lỗi.
- Tính giá trị tiền tệ: Chúng tôi tính toán bằng cách nhân Số lượng và Giá. Sau đó, chúng tôi sẽ nhóm các số liệu, một trong số đó theo tiền tệ theo ID khách hàng.
- Xác định ngày tham chiếu: Điều này rất quan trọng để xác định giá trị Gần đây. Sau khi kiểm tra tập dữ liệu, chúng ta biết ngày “2011–12–09” là ngày gần đây nhất trong đó, vì vậy hãy đặt ngày đó làm ngày tham chiếu. Ngày tham chiếu tính toán số ngày đã trôi qua kể từ giao dịch cuối cùng của mỗi khách hàng.
Dữ liệu sẽ trông như thế này sau bước này:
Bước 2: Tính toán & Quy mô số liệu RFM
Trong bước này, chúng ta sẽ tính toán từng số liệu và chia tỷ lệ chúng trước phần phân cụm. Chúng ta thực hiện như sau:
# Calculate RFM metrics
rfm <- knowledge %>%
group_by(`Buyer ID`) %>%
summarise(
Recency = as.numeric(reference_date - max(as.Date(InvoiceDate))),
Frequency = n_distinct(Bill),
Financial = sum(TotalPrice)
)# Assign scores from 1 to five for every RFM metric
rfm <- rfm %>%
mutate(
R_Score = ntile(Recency, 5),
F_Score = ntile(Frequency, 5),
M_Score = ntile(Financial, 5)
)
# Scale the RFM scores
rfm_scaled <- rfm %>%
choose(R_Score, F_Score, M_Score) %>%
scale()
Chúng tôi chia bước này thành ba phần:
- Tính toán số liệu RFM: Chúng tôi tạo một tập dữ liệu mới có tên là RFM. Chúng tôi bắt đầu bằng cách nhóm theo CustomerID để các phép tính tiếp theo của mỗi khách hàng được thực hiện riêng lẻ. Sau đó, chúng tôi tính toán từng số liệu. Chúng tôi tính toán Gần đây bằng cách trừ ngày tham chiếu cho ngày giao dịch gần đây nhất của mỗi khách hàng, Tính thường xuyên bằng cách đếm số lượng Hóa đơn duy nhất cho mỗi khách hàng và Tiền tệ bằng cách cộng Tổng giá trị của tất cả các giao dịch của mỗi khách hàng.
- Chỉ định điểm từ 1 đến 5: Việc chấm điểm giúp phân loại khách hàng từ RFM cao nhất đến thấp nhất, trong đó 5 là cao nhất và 1 là thấp nhất.
- Đánh giá điểm số: Sau đó, chúng tôi chia tỷ lệ điểm cho từng số liệu. Việc chia tỷ lệ này đảm bảo rằng mỗi điểm RFM đóng góp như nhau vào quá trình phân cụm, tránh sự thống trị của bất kỳ số liệu nào do phạm vi hoặc đơn vị khác nhau.
Sau khi hoàn tất bước này, kết quả trong tập dữ liệu RFM sẽ như thế này:
Và tập dữ liệu được chia tỷ lệ sẽ trông như thế này:
Bước 3: Phân cụm Ok-Means
Bây giờ chúng ta đến bước cuối cùng, Phân cụm Ok-Means. Chúng tôi thực hiện điều này bằng cách:
# Decide the optimum variety of clusters utilizing the Elbow methodology
fviz_nbclust(rfm_scaled, kmeans, methodology = "wss")# Carry out Ok-means clustering
set.seed(123)
kmeans_result <- kmeans(rfm_scaled, facilities = 4, nstart = 25)
# Add cluster task to the unique RFM knowledge
rfm <- rfm %>% mutate(Cluster = kmeans_result$cluster)
# Visualize the clusters
fviz_cluster(kmeans_result, knowledge = rfm_scaled,
geom = "level",
ellipse.kind = "convex",
palette = "jco",
ggtheme = theme_minimal(),
essential = "On-line Retail RFM Segmentation",
pointsize = 3) +
theme(
plot.title = element_text(dimension = 15, face = "daring"),
axis.title.x = element_blank(),
axis.title.y = element_blank(),
axis.textual content = element_blank(),
axis.ticks = element_blank(),
legend.title = element_text(dimension = 12, face = "daring"),
legend.textual content = element_text(dimension = 10)
)
Phần đầu tiên của bước này là xác định số lượng cụm tối ưu sử dụng phương pháp khuỷu tay. Phương pháp là wss hoặc “tổng bình phương trong cụm”, đo lường độ chặt chẽ của các cụm. Phương pháp này hoạt động bằng cách chọn số cụm tại điểm mà wss bắt đầu giảm nhanh chóng và tạo thành “khuỷu tay”. Khuỷu tay giảm tại 4.
Phần tiếp theo là chúng ta thực hiện phân cụm. Chúng ta chỉ định 4 là số cụm và 25 là các tập hợp ngẫu nhiên các trung tâm cụm ban đầu, sau đó chọn cụm tốt nhất dựa trên tổng bình phương thấp nhất trong cụm. Sau đó, thêm nó vào cụm để RFM tập dữ liệu. Hình ảnh trực quan của cụm có thể được xem bên dưới:
Lưu ý rằng kích thước của các cụm trong biểu đồ không liên quan trực tiếp đến số lượng khách hàng trong mỗi cụm. Hình ảnh trực quan cho thấy sự phân bố của các điểm dữ liệu trong mỗi cụm dựa trên điểm RFM được chia tỷ lệ (R_Score, F_Score, M_Score) chứ không phải số lượng khách hàng.
Khi chạy mã này, tóm tắt về phân đoạn RFM có thể được thấy như sau:
# Abstract of every cluster
rfm_summary <- rfm %>%
group_by(Cluster) %>%
summarise(
Recency = imply(Recency),
Frequency = imply(Frequency),
Financial = imply(Financial),
Rely = n()
)
Từ bản tóm tắt, chúng ta có thể tạo ra thông tin chi tiết từ mỗi cụm. Các đề xuất sẽ khác nhau rất nhiều. Tuy nhiên, những gì tôi có thể nghĩ đến nếu tôi là Nhà khoa học dữ liệu trong một doanh nghiệp bán lẻ trực tuyến là như sau:
- Nhóm 1: Họ mới mua hàng gần đây — thường là khoảng một tháng trước — cho thấy sự tương tác gần đây. Tuy nhiên, nhóm khách hàng này có xu hướng mua hàng không thường xuyên và chi tiêu tương đối ít, trung bình 1–2 lần mua. Việc triển khai các chiến dịch duy trì dựa trên những phát hiện này có thể chứng minh là rất hiệu quả. Với sự tương tác gần đây của họ, sẽ rất có lợi khi xem xét các chiến lược như electronic mail theo dõi hoặc chương trình khách hàng thân thiết với các ưu đãi được cá nhân hóa để khuyến khích mua hàng lặp lại. Điều này mang đến cơ hội gợi ý các sản phẩm bổ sung bổ sung cho các lần mua trước của họ, cuối cùng là thúc đẩy giá trị đơn hàng trung bình và tổng chi tiêu của nhóm này.
- Nhóm 2: Những khách hàng trong nhóm này mới mua hàng cách đây khoảng hai tuần và đã thể hiện thói quen mua sắm thường xuyên với mức chi tiêu đáng kể. Họ được coi là những khách hàng hàng đầu, xứng đáng được đối xử VIP: dịch vụ khách hàng tuyệt vời, ưu đãi đặc biệt và quyền truy cập sớm vào các mặt hàng mới. Tận dụng sự hài lòng của họ, chúng tôi có thể cung cấp các chương trình giới thiệu với tiền thưởng và chiết khấu cho gia đình và bạn bè của họ, có khả năng mở rộng cơ sở khách hàng của chúng tôi và tăng doanh số chung.
- Nhóm 3: Khách hàng trong phân khúc này đã không hoạt động trong hơn ba tháng, mặc dù tần suất và giá trị tiền tệ của họ ở mức trung bình. Để thu hút lại những khách hàng này, chúng ta nên cân nhắc triển khai các chiến dịch kích hoạt lại. Gửi electronic mail giành lại khách hàng với các khoản giảm giá đặc biệt hoặc giới thiệu sản phẩm mới có thể thu hút họ quay lại. Ngoài ra, việc thu thập phản hồi để tìm ra lý do khiến họ không mua hàng gần đây và giải quyết mọi vấn đề hoặc mối quan tâm mà họ có thể gặp phải có thể cải thiện đáng kể trải nghiệm trong tương lai của họ và khơi dậy lại sự quan tâm của họ.
- Nhóm 4: Khách hàng trong nhóm này chỉ mua hàng trong tối đa bảy tháng, cho thấy một khoảng thời gian ngủ đông đáng kể. Họ thể hiện tần suất và giá trị tiền tệ thấp nhất, khiến họ dễ bị xáo trộn. Trong những tình huống này, điều cần thiết là triển khai các chiến lược được thiết kế riêng cho những khách hàng ngủ đông. Gửi electronic mail kích hoạt lại dựa trên ưu đãi quan trọng hoặc các ưu đãi được cá nhân hóa thường tỏ ra hiệu quả trong việc đưa những khách hàng này trở lại doanh nghiệp của bạn. Hơn nữa, tiến hành khảo sát thoát có thể giúp xác định lý do khiến họ không hoạt động, cho phép bạn cải thiện các dịch vụ và dịch vụ khách hàng của mình để đáp ứng tốt hơn nhu cầu của họ và khơi dậy lại sự quan tâm của họ.
Xin chúc mừng! Bạn đã biết cách phân đoạn RFM bằng Ok-Means, giờ đến lượt bạn thực hiện theo cách tương tự với tập dữ liệu của riêng mình.
[ad_2]
Source link