[ad_1]
Bài viết này thảo luận về MusGConv, một khối tích chập đồ thị lấy cảm hứng từ nhận thức dành cho các ứng dụng âm nhạc tượng trưng
Trong lĩnh vực Nghiên cứu thông tin âm nhạc (MIR), thách thức trong việc hiểu và xử lý bản nhạc liên tục được đưa vào các phương pháp và cách tiếp cận mới. Gần đây nhất, nhiều kỹ thuật dựa trên đồ thị đã được đề xuất như một cách để nhắm mục tiêu vào các nhiệm vụ hiểu âm nhạc như tách giọng, phát hiện nhịp điệu, phân loại nhà soạn nhạc và phân tích số La Mã.
Bài đăng trên weblog này đề cập đến một trong những bài báo gần đây của tôi trong đó tôi giới thiệu một khối tích chập đồ thị mới, được gọi là MusGConvđược thiết kế chuyên biệt để xử lý dữ liệu bản nhạc. MusGConv tận dụng các nguyên lý nhận thức âm nhạc để cải thiện hiệu quả và hiệu suất của phép tích chập đồ thị trong Mạng nơ-ron đồ thị được áp dụng cho các nhiệm vụ hiểu âm nhạc.
Các phương pháp tiếp cận truyền thống trong MIR thường dựa vào các biểu diễn âm thanh hoặc biểu tượng của âm nhạc. Trong khi âm thanh nắm bắt được cường độ của sóng âm theo thời gian, các biểu diễn biểu tượng như tệp MIDI hoặc bản nhạc mã hóa các sự kiện âm nhạc riêng biệt. Các biểu diễn biểu tượng đặc biệt có giá trị vì chúng cung cấp thông tin cấp cao hơn cần thiết cho các nhiệm vụ như phân tích và tạo nhạc.
Tuy nhiên, các kỹ thuật hiện có dựa trên biểu diễn âm nhạc tượng trưng thường vay mượn từ các phương pháp luận về thị giác máy tính (CV) hoặc xử lý ngôn ngữ tự nhiên (NLP). Ví dụ, biểu diễn âm nhạc dưới dạng “pianoroll” theo định dạng ma trận và xử lý nó tương tự như một hình ảnh, hoặc biểu diễn âm nhạc dưới dạng một chuỗi các mã thông báo và xử lý nó bằng các mô hình hoặc bộ biến đổi tuần tự. Các cách tiếp cận này, mặc dù hiệu quả, có thể không nắm bắt được đầy đủ bản chất phức tạp, đa chiều của âm nhạc, bao gồm mối quan hệ nốt nhạc theo thứ bậc và các mối quan hệ phức tạp giữa cao độ và thời gian. Một số cách tiếp cận gần đây đã được đề xuất để mô hình hóa bản nhạc dưới dạng đồ thị và áp dụng Mạng nơ-ron đồ thị để giải quyết các nhiệm vụ khác nhau.
Bản nhạc như một biểu đồ
Ý tưởng cơ bản của các phương pháp tiếp cận dựa trên GNN đối với bản nhạc là mô hình hóa bản nhạc như một đồ thị trong đó các nốt nhạc là các đỉnh và các cạnh được xây dựng từ các mối quan hệ thời gian giữa các nốt nhạc. Để tạo đồ thị từ bản nhạc, chúng ta có thể xem xét bốn loại cạnh (xem Hình bên dưới để trực quan hóa đồ thị trên bản nhạc):
- cạnh khởi đầu: kết nối các nốt có cùng một khởi đầu;
- các cạnh liên tiếp (hoặc cạnh tiếp theo): kết nối một nốt x với một nốt y nếu độ lệch của x tương ứng với điểm bắt đầu của y;
- trong các cạnh: nối một nốt x với một nốt y nếu điểm bắt đầu của y nằm trong điểm bắt đầu và điểm kết thúc của x;
- các cạnh còn lại (hoặc im lặng cạnh): kết nối các nốt cuối trước dấu nghỉ với các nốt đầu tiên sau dấu nghỉ.
GNN có thể xử lý đồ thị được tạo từ các ghi chú và bốn loại quan hệ này.
MusGConv được thiết kế để tận dụng đồ thị bản nhạc và cải thiện chúng bằng cách kết hợp các nguyên tắc về nhận thức âm nhạc vào quá trình tích chập đồ thị. Nó tập trung vào hai chiều cơ bản của âm nhạc: cao độ và nhịp điệu, xem xét cả biểu diễn tương đối và tuyệt đối của chúng.
Biểu diễn tuyệt đối đề cập đến các đặc điểm có thể được gán cho từng nốt nhạc riêng lẻ như cao độ hoặc cách viết của nốt nhạc, độ dài của nốt nhạc hoặc bất kỳ đặc điểm nào khác. Mặt khác, các đặc điểm tương đối được tính toán giữa các cặp nốt nhạc, chẳng hạn như khoảng cách giữa hai nốt nhạc, sự khác biệt về thời điểm bắt đầu của chúng, tức là thời điểm chúng xuất hiện, v.v.
Các tính năng chính của MusGConv
- Tính toán tính năng cạnh: MusGConv tính toán các đặc điểm cạnh dựa trên khoảng cách giữa các nốt nhạc về mặt khởi đầu, thời lượng và cao độ. Các đặc điểm cạnh có thể được chuẩn hóa để đảm bảo chúng hiệu quả hơn cho các phép tính của Mạng nơ-ron.
- Biểu diễn tương đối và tuyệt đối:Bằng cách xem xét cả các đặc điểm tương đối (khoảng cách giữa các bước như các đặc điểm cạnh) và các giá trị tuyệt đối (bước thực tế và thời gian như các đặc điểm nút), MusGConv có thể điều chỉnh và sử dụng biểu diễn phù hợp hơn tùy thuộc vào từng dịp.
- Tích hợp với mạng nơ-ron đồ thị:Khối MusGConv tích hợp dễ dàng với các kiến trúc GNN hiện có mà hầu như không tốn thêm chi phí tính toán và có thể được sử dụng để cải thiện các tác vụ hiểu âm nhạc như tách giọng, phân tích hài hòa, phát hiện nhịp điệu hoặc nhận dạng nhà soạn nhạc.
Tầm quan trọng và sự cùng tồn tại của các biểu diễn tương đối và tuyệt đối có thể được hiểu từ góc độ chuyển vị trong âm nhạc. Hãy tưởng tượng cùng một nội dung âm nhạc được chuyển vị. Sau đó, các mối quan hệ khoảng cách giữa các nốt nhạc vẫn giữ nguyên nhưng cao độ của mỗi nốt nhạc bị thay đổi.
Để hiểu đầy đủ về cách thức hoạt động bên trong của khối tích chập MusGConv, trước tiên, điều quan trọng là phải giải thích các nguyên tắc của Truyền tin nhắn.
Truyền tin là gì?
Trong bối cảnh của GNN, truyền thông điệp là một quá trình mà các đỉnh trong đồ thị trao đổi thông tin với các đỉnh lân cận để cập nhật biểu diễn của riêng chúng. Trao đổi này cho phép mỗi nút thu thập thông tin theo ngữ cảnh từ đồ thị, sau đó được sử dụng cho các tác vụ dự đoán.
Quá trình truyền tin nhắn được xác định theo các bước sau:
- Khởi tạo: Mỗi nút được gán cho một vectơ đặc trưng, có thể bao gồm một số thuộc tính quan trọng. Ví dụ, trong một bản nhạc, điều này có thể bao gồm cao độ, thời lượng và thời điểm bắt đầu cho mỗi nút/nốt nhạc.
- Tạo tin nhắn: Mỗi nút tạo ra một thông điệp để gửi đến các nút lân cận. Thông điệp thường bao gồm vectơ đặc điểm hiện tại của nút và bất kỳ đặc điểm cạnh nào mô tả mối quan hệ giữa các nút. Ví dụ, thông điệp có thể là phép biến đổi tuyến tính các đặc điểm nút của nút lân cận.
- Tổng hợp tin nhắn: Mỗi nút thu thập thông điệp từ các nút lân cận. Hàm tổng hợp thường là một hàm bất biến hoán vị như sum, imply hoặc max và nó kết hợp các thông điệp này thành một vectơ duy nhất, đảm bảo rằng nút thu thập thông tin từ toàn bộ nút lân cận của nó.
- Cập nhật nút: Thông điệp tổng hợp được sử dụng để cập nhật vectơ đặc trưng của nút. Bản cập nhật này thường liên quan đến việc áp dụng một lớp mạng nơ-ron (như một lớp được kết nối đầy đủ) theo sau là một hàm kích hoạt phi tuyến tính (như ReLU).
- Lặp lại: Các bước 2–4 được lặp lại cho một số lần lặp hoặc lớp nhất định, cho phép thông tin lan truyền qua đồ thị. Với mỗi lần lặp, các nút kết hợp thông tin từ các vùng lân cận lớn dần.
Truyền tin nhắn trong MusGConv
MusGConv thay đổi quá trình truyền tin nhắn chuẩn chủ yếu bằng cách kết hợp cả các tính năng tuyệt đối làm tính năng nút và các tính năng âm nhạc tương đối làm tính năng cạnh. Thiết kế này được thiết kế riêng để phù hợp với bản chất của dữ liệu âm nhạc.
Tích chập MusGConv được xác định theo các bước sau:
- Tính toán các tính năng cạnh: Trong MusGConv, các đặc điểm cạnh được tính là sự khác biệt giữa các nốt nhạc về mặt khởi đầu, thời lượng và cao độ. Ngoài ra, các khoảng cách lớp cao độ (khoảng cách giữa các nốt nhạc mà không tính đến quãng tám) được đưa vào, cung cấp một phương pháp rút gọn nhưng hiệu quả để định lượng các khoảng cách âm nhạc.
- Tính toán tin nhắn:Tin nhắn trong MusGConv bao gồm vectơ đặc điểm hiện tại của nút nguồn nhưng cũng bao gồm các đặc điểm cạnh đã đề cập ở trên từ nút nguồn đến nút đích, cho phép mạng tận dụng cả thông tin tuyệt đối và tương đối của các nút lân cận trong quá trình truyền tin nhắn.
- Tổng hợp và Cập nhật:MusGConv sử dụng tổng làm hàm tổng hợp, tuy nhiên, nó nối biểu diễn nút hiện tại với tổng các thông điệp lân cận của nó.
Bằng cách thiết kế cơ chế truyền tải thông điệp theo cách này, MusGConv cố gắng bảo tồn các đặc tính nhận thức tương đối của âm nhạc (như khoảng cách và nhịp điệu), dẫn đến việc biểu diễn dữ liệu âm nhạc có ý nghĩa hơn.
Nếu các đặc điểm cạnh không có hoặc cố tình không được cung cấp thì MusGConv sẽ tính toán các đặc điểm cạnh giữa hai nút là sự khác biệt tuyệt đối giữa các đặc điểm nút của chúng. Phiên bản MusGConv với các đặc điểm cạnh được đặt tên là MusGConv(+EF) trong các thí nghiệm.
Để chứng minh tiềm năng của MusGConv, tôi thảo luận bên dưới các nhiệm vụ và các thí nghiệm được tiến hành trong bài báo. Tất cả các mô hình độc lập với nhiệm vụ đều được thiết kế với đường ống được hiển thị trong hình bên dưới. Khi MusGConv được sử dụng, các khối GNN được thay thế bằng các khối MusGConv.
Tôi quyết định áp dụng MusGConv cho bốn nhiệm vụ: tách giọng, phân loại nhạc sĩ, phân tích số La Mã và phát hiện nhịp điệu. Mỗi nhiệm vụ này trình bày một phân loại khác nhau theo góc nhìn học đồ thị. Tách giọng là nhiệm vụ dự đoán liên kết, phân loại nhạc sĩ là nhiệm vụ phân loại toàn cục, phát hiện nhịp điệu là nhiệm vụ phân loại nút và phân tích số La Mã có thể được xem như nhiệm vụ phân loại đồ thị con. Do đó, chúng tôi đang khám phá tính phù hợp của MusGConv không chỉ theo góc nhìn phân tích âm nhạc mà còn trong toàn bộ phổ phân loại nhiệm vụ học sâu đồ thị.
[ad_2]
Source link