[ad_1]
Nhóm khoa học dữ liệu P&F phải đối mặt với một thách thức: Họ phải cân nhắc từng ý kiến chuyên gia như nhau nhưng không thể làm hài lòng tất cả mọi người. Thay vì tập trung vào ý kiến chủ quan của chuyên gia, họ quyết định đánh giá chatbot dựa trên các câu hỏi trước đây của khách hàng. Giờ đây, các chuyên gia không cần phải đưa ra câu hỏi để kiểm tra chatbot, đưa việc đánh giá đến gần hơn với điều kiện thực tế. Suy cho cùng, lý do ban đầu để thu hút các chuyên gia là vì họ hiểu rõ hơn các câu hỏi thực sự của khách hàng so với nhóm khoa học dữ liệu P&F.
Hóa ra những câu hỏi thường gặp dành cho P&F đều liên quan đến hướng dẫn kỹ thuật kẹp giấy. Khách hàng của P&F muốn biết thông số kỹ thuật chi tiết của kẹp giấy. P&F có hàng nghìn loại kẹp giấy khác nhau và bộ phận hỗ trợ khách hàng phải mất nhiều thời gian mới giải đáp được thắc mắc.
Hiểu được sự phát triển dựa trên thử nghiệm, nhóm khoa học dữ liệu tạo một tập dữ liệu từ lịch sử hội thoại, bao gồm cả câu hỏi của khách hàng Và trả lời hỗ trợ khách hàng:
Với bộ dữ liệu câu hỏi và câu trả lời, P&F có thể kiểm tra và đánh giá hồi cứu hiệu suất của chatbot. Họ tạo một cột mới, “Trả lời Chatbot” và lưu trữ các câu trả lời ví dụ về chatbot cho các câu hỏi.
Chúng tôi có thể nhờ các chuyên gia và GPT-4 đánh giá chất lượng phản hồi của chatbot. Mục tiêu cuối cùng là tự động hóa việc đánh giá độ chính xác của chatbot bằng cách sử dụng GPT-4. Điều này là khả thi nếu như các chuyên gia và GPT-4 đánh giá các câu trả lời tương tự nhau.
Các chuyên gia tạo một bảng Excel mới với đánh giá của từng chuyên gia và nhóm khoa học dữ liệu sẽ bổ sung đánh giá GPT-4.
Có xung đột về cách các chuyên gia khác nhau đánh giá các câu trả lời chatbot giống nhau. GPT-4 đánh giá tương tự như bỏ phiếu theo đa số chuyên gia, điều này cho thấy rằng chúng tôi có thể thực hiện đánh giá tự động với GPT-4. Tuy nhiên, ý kiến của mỗi chuyên gia đều có giá trị và điều quan trọng là phải giải quyết được những ưu tiên đánh giá trái ngược nhau giữa các chuyên gia.
P&F tổ chức hội thảo với các chuyên gia để tạo ra tiêu chuẩn vàng câu trả lời cho tập dữ liệu câu hỏi lịch sử
Và sự đánh giá hướng dẫn thực hành tốt nhấtmà tất cả các chuyên gia đều đồng ý.
Với những hiểu biết sâu sắc từ hội thảo, nhóm khoa học dữ liệu có thể tạo lời nhắc đánh giá chi tiết hơn cho GPT-4, bao gồm các trường hợp khó khăn (tức là “chatbot không nên yêu cầu tăng phiếu hỗ trợ”). Bây giờ các chuyên gia có thể sử dụng thời gian để cải thiện tài liệu kẹp giấy Và xác định các phương pháp hay nhất, thay vì đánh giá chatbot tốn nhiều công sức.
Bằng cách đo tỷ lệ phần trăm phản hồi đúng của chatbot, P&F có thể quyết định xem họ có muốn triển khai chatbot đến kênh hỗ trợ hay không. Họ phê duyệt tính chính xác và triển khai chatbot.
Cuối cùng, đã đến lúc lưu lại tất cả các phản hồi của chatbot và tính toán xem chatbot hoạt động tốt như thế nào trong việc giải quyết các thắc mắc thực sự của khách hàng. Vì khách hàng có thể phản hồi trực tiếp với chatbot nên việc ghi lại phản hồi từ khách hàng cũng rất quan trọng, để hiểu được tâm lý của khách hàng.
Quy trình đánh giá tương tự có thể được sử dụng để đo lường mức độ thành công của chatbot trên thực tế mà không cần những câu trả lời có căn cứ thực tế. Nhưng hiện tại, khách hàng đang nhận được phản hồi ban đầu từ chatbot và chúng tôi không biết liệu khách hàng có thích nó hay không. Chúng ta nên điều tra cách khách hàng phản ứng với câu trả lời của chatbot. Chúng tôi có thể tự động phát hiện cảm xúc tiêu cực từ các câu trả lời của khách hàng và chỉ định các chuyên gia hỗ trợ khách hàng để xử lý những khách hàng đang tức giận.
[ad_2]
Source link