[ad_1]
Sự phức tạp đó chính là vấn đề khi các mô hình AI cần hoạt động theo thời gian thực trên một cặp tai nghe có khả năng tính toán và thời lượng pin hạn chế. Để đáp ứng những hạn chế như vậy, mạng lưới thần kinh cần phải nhỏ và tiết kiệm năng lượng. Vì vậy, nhóm đã sử dụng một kỹ thuật nén AI được gọi là chắt lọc kiến thức. Điều này có nghĩa là sử dụng một mô hình AI khổng lồ đã được đào tạo trên hàng triệu giọng nói (“giáo viên”) và đào tạo một mô hình nhỏ hơn nhiều (“học sinh”) để bắt chước hành vi và hiệu suất của nó theo cùng một tiêu chuẩn.
Sau đó, sinh viên này được dạy cách trích xuất các mẫu giọng nói của những giọng nói cụ thể từ tiếng ồn xung quanh được ghi lại bằng micrô gắn với một cặp tai nghe khử tiếng ồn có bán trên thị trường.
Để kích hoạt hệ thống Thính giác Lời nói Mục tiêu, người đeo giữ một nút trên tai nghe trong vài giây trong khi hướng mặt về phía người cần tập trung. Trong quá trình “đăng ký” này, hệ thống sẽ ghi lại một mẫu âm thanh từ cả hai tai nghe và sử dụng bản ghi này để trích xuất đặc điểm giọng nói của người nói, ngay cả khi có các loa và tiếng ồn khác ở xung quanh.
Những đặc điểm này được đưa vào mạng thần kinh thứ hai chạy trên máy tính vi điều khiển được kết nối với tai nghe qua cáp USB. Mạng này chạy liên tục, tách biệt giọng nói đã chọn với giọng nói của người khác và phát lại cho người nghe. Khi hệ thống đã khóa loa, nó sẽ tiếp tục ưu tiên giọng nói của người đó, ngay cả khi người đeo quay đi. Hệ thống càng thu được nhiều dữ liệu huấn luyện bằng cách tập trung vào giọng nói của người nói thì khả năng cô lập nó càng tốt.
Hiện tại, hệ thống chỉ có thể đăng ký thành công một diễn giả được nhắm mục tiêu có giọng nói lớn duy nhất hiện diện, nhưng nhóm đặt mục tiêu làm cho nó hoạt động ngay cả khi giọng nói lớn nhất theo một hướng cụ thể không phải là người nói mục tiêu.
Sefik Emre Eskimez, nhà nghiên cứu cấp cao tại Microsoft, người làm việc về giọng nói và AI, nhưng không tham gia nghiên cứu, cho biết việc phát ra một giọng nói duy nhất trong môi trường ồn ào là rất khó. “Tôi biết rằng các công ty muốn làm điều này,” anh nói. “Nếu họ có thể đạt được điều đó, nó sẽ mở ra rất nhiều ứng dụng, đặc biệt là trong tình huống họp.”
Samuele Cornell, nhà nghiên cứu tại Viện Công nghệ Ngôn ngữ của Đại học Carnegie Mellon, người không tham gia nghiên cứu, cho biết trong khi nghiên cứu về phân tách giọng nói có xu hướng mang tính lý thuyết hơn là thực tế thì công trình này có những ứng dụng rõ ràng trong thế giới thực. “Tôi nghĩ đó là một bước đi đúng hướng,” Cornell nói. “Đó là một luồng không khí trong lành.”
[ad_2]
Source link