[ad_1]
Lớn hơn = Tốt hơn?
Trong AI, lớn hơn thường tốt hơn – nếu có đủ dữ liệu để cung cấp cho những mô hình lớn này. Tuy nhiên, với dữ liệu hạn chế, mô hình lớn hơn có xu hướng trang bị quá mức. Quá khớp xảy ra khi mô hình ghi nhớ các mẫu từ dữ liệu huấn luyện không khái quát tốt cho các ví dụ dữ liệu trong thế giới thực. Nhưng có một cách khác để tiếp cận vấn đề này mà tôi thấy thậm chí còn hấp dẫn hơn trong bối cảnh này.
Giả sử bạn có một tập dữ liệu nhỏ về biểu đồ phổ và đang quyết định giữa mô hình CNN nhỏ (tham số 100k) hoặc CNN lớn (10 triệu tham số). Nhớ lấy mọi tham số mô hình thực sự là một số dự đoán tốt nhất được lấy từ tập dữ liệu huấn luyện. Nếu chúng ta nghĩ về nó theo cách này, thì rõ ràng là một mô hình có thể lấy đúng thông số 100k sẽ dễ dàng hơn so với việc đạt được 10 triệu.
Cuối cùng, cả hai lập luận đều dẫn đến cùng một kết luận:
Nếu dữ liệu khan hiếm, hãy cân nhắc xây dựng các mô hình nhỏ hơn chỉ tập trung vào các mẫu thiết yếu.
Nhưng làm thế nào chúng ta có thể đạt được những mô hình nhỏ hơn trong thực tế?
Đừng bẻ quả óc chó bằng búa tạ
Hành trình học tập của tôi trong Âm nhạc AI bị chi phối bởi học sâu. Cho đến một năm trước, tôi đã giải quyết được hầu hết mọi vấn đề bằng cách sử dụng mạng lưới thần kinh lớn. Mặc dù điều này có ý nghĩa đối với các tác vụ phức tạp như gắn thẻ nhạc hoặc nhận dạng nhạc cụ, không phải mọi nhiệm vụ đều phức tạp.
Ví dụ: có thể xây dựng một công cụ ước tính BPM hoặc trình phát hiện khóa phù hợp mà không cần bất kỳ quá trình học máy nào bằng cách phân tích thời gian giữa các lần khởi động hoặc bằng cách tương ứng các sắc đồ với các cấu hình chính tương ứng.
Ngay cả đối với các tác vụ như gắn thẻ âm nhạc, không nhất thiết phải là mô hình học sâu. Tôi đã đạt được kết quả tốt trong việc gắn thẻ tâm trạng thông qua bộ phân loại Ok-Nearest Neighbor đơn giản trên một không gian nhúng (ví dụ: CLAP).
Mặc dù hầu hết các phương pháp tiên tiến nhất trong Music AI đều dựa trên deep studying, các giải pháp thay thế cần được xem xét trong tình trạng khan hiếm dữ liệu.
Chú ý đến kích thước đầu vào dữ liệu
Quan trọng hơn việc lựa chọn mô hình thường là việc lựa chọn dữ liệu đầu vào. Trong Music AI, chúng tôi hiếm khi sử dụng dạng sóng thô làm đầu vào do dữ liệu của chúng không hiệu quả. Bằng cách chuyển đổi dạng sóng thành phổ (mel), chúng ta có thể giảm kích thước dữ liệu đầu vào với hệ số 100 trở lên. Điều này quan trọng vì dữ liệu đầu vào lớn thường yêu cầu các mô hình lớn hơn và/hoặc phức tạp hơn để xử lý chúng.
Để giảm thiểu kích thước của đầu vào mô hình, chúng ta có thể thực hiện hai tuyến đường
- Sử dụng đoạn nhạc nhỏ hơn
- Sử dụng nhiều cách biểu diễn âm nhạc được nén/đơn giản hóa hơn.
Sử dụng đoạn nhạc nhỏ hơn
Việc sử dụng các đoạn nhạc nhỏ hơn đặc biệt hiệu quả nếu kết quả mà chúng ta quan tâm mang tính toàn cầu, tức là áp dụng cho mọi phần của bài hát. Ví dụ: chúng ta có thể giả định rằng thể loại của một bản nhạc vẫn tương đối ổn định trong suốt quá trình của bản nhạc đó. Do đó, chúng ta có thể dễ dàng sử dụng đoạn trích dài 10 giây thay vì bản nhạc đầy đủ (hoặc đoạn trích 30 giây rất phổ biến) cho nhiệm vụ phân loại thể loại.
Điều này có hai lợi thế:
- Đoạn mã ngắn hơn dẫn đến ít điểm dữ liệu hơn trên mỗi ví dụ đào tạo, cho phép bạn sử dụng các mô hình nhỏ hơn.
- Bằng cách vẽ ba đoạn 10 giây thay vì một đoạn 30 giây, chúng ta có thể tăng gấp ba số lần quan sát huấn luyện. Nói chung, điều này có nghĩa là chúng ta có thể xây dựng các mô hình ít sử dụng dữ liệu hơn, đồng thời cung cấp cho chúng nhiều ví dụ đào tạo hơn trước.
Tuy nhiên, có hai mối nguy hiểm tiềm tàng ở đây. Thứ nhất, kích thước đoạn mã phải đủ dài để có thể phân loại. Ví dụ: ngay cả con người cũng gặp khó khăn trong việc phân loại thể loại khi trình bày các đoạn trích dài 3 giây. Chúng ta nên chọn kích thước đoạn mã một cách cẩn thận và xem quyết định này như một siêu tham số cho giải pháp AI của mình.
Thứ hai, không phải mọi thuộc tính âm nhạc đều mang tính toàn cầu. Ví dụ: nếu một bài hát có giọng hát thì điều đó không có nghĩa là không có phần nhạc cụ. Nếu chúng tôi cắt bản nhạc thành các đoạn thực sự ngắn, chúng tôi sẽ đưa nhiều ví dụ bị gắn nhãn sai vào tập dữ liệu huấn luyện của mình.
Sử dụng cách trình bày âm nhạc hiệu quả hơn
Nếu bạn nghiên cứu về AI âm nhạc mười năm trước (khi tất cả những thứ này được gọi là “Truy xuất thông tin âm nhạc”), thì bạn đã học về sắc ký đồ, MFCC và biểu đồ nhịp. Những tính năng thủ công này được thiết kế để giúp dữ liệu âm nhạc hoạt động với các phương pháp ML truyền thống. Với sự phát triển của học sâu, có vẻ như những tính năng này đã được được thay thế hoàn toàn bằng quang phổ (mel).
Quang phổ nén nhạc thành hình ảnh mà không làm mất nhiều thông tin, khiến chúng lý tưởng khi kết hợp với các mô hình thị giác máy tính. Thay vì thiết kế các tính năng tùy chỉnh cho các tác vụ khác nhau, giờ đây chúng tôi có thể sử dụng cùng một mô hình và biểu diễn dữ liệu đầu vào cho hầu hết các vấn đề về AI Âm nhạc – miễn là bạn có hàng chục nghìn ví dụ đào tạo để cung cấp cho các mô hình này.
Khi dữ liệu khan hiếm, chúng tôi muốn nén thông tin càng nhiều càng tốt để giúp mô hình trích xuất các mẫu có liên quan từ dữ liệu dễ dàng hơn. Hãy xem xét bốn cách biểu diễn âm nhạc dưới đây và cho tôi biết cách biểu diễn nào giúp bạn xác định phím nhạc nhanh nhất.
Mặc dù biểu đồ phổ mel có thể được sử dụng làm đầu vào cho các hệ thống phát hiện chính (và có thể nên làm như vậy nếu bạn có đủ dữ liệu), một biểu đồ sắc độ đơn giản được tính trung bình theo chiều thời gian sẽ tiết lộ thông tin cụ thể này nhanh hơn nhiều. Đó là lý do tại sao biểu đồ phổ yêu cầu các mô hình phức tạp như CNN trong khi biểu đồ sắc độ có thể được phân tích dễ dàng bằng các mô hình truyền thống như hồi quy logistic hoặc cây quyết định.
Tóm tắt, sự kết hợp phổ tần + CNN đã được thiết lập vẫn có hiệu quả cao đối với nhiều vấn đề, miễn là bạn có đủ dữ liệu. Tuy nhiên, với các tập dữ liệu nhỏ hơn, có thể hữu ích khi xem lại một số kỹ thuật kỹ thuật tính năng từ MIR hoặc phát triển các biểu diễn dành riêng cho nhiệm vụ của riêng bạn.
[ad_2]
Source link