[ad_1]
Một công cụ mới giúp người dùng cơ sở dữ liệu dễ dàng thực hiện các phân tích thống kê phức tạp về dữ liệu dạng bảng mà không cần biết những gì đang diễn ra đằng sau.
GenSQL, một hệ thống AI tạo sinh cho cơ sở dữ liệu, có thể giúp người dùng đưa ra dự đoán, phát hiện bất thường, đoán giá trị bị thiếu, sửa lỗi hoặc tạo dữ liệu tổng hợp chỉ bằng một vài lần nhấn phím.
Ví dụ, nếu hệ thống được sử dụng để phân tích dữ liệu y tế từ một bệnh nhân luôn bị huyết áp cao, hệ thống có thể phát hiện ra chỉ số huyết áp thấp của bệnh nhân đó nhưng vẫn ở mức bình thường.
GenSQL tự động tích hợp một tập dữ liệu dạng bảng và một mô hình AI xác suất tạo sinh, có thể tính đến sự không chắc chắn và điều chỉnh quá trình ra quyết định dựa trên dữ liệu mới.
Hơn nữa, GenSQL có thể được sử dụng để tạo và phân tích dữ liệu tổng hợp mô phỏng dữ liệu thực trong cơ sở dữ liệu. Điều này có thể đặc biệt hữu ích trong các tình huống mà dữ liệu nhạy cảm không thể chia sẻ, chẳng hạn như hồ sơ sức khỏe của bệnh nhân hoặc khi dữ liệu thực thưa thớt.
Công cụ mới này được xây dựng dựa trên SQL, một ngôn ngữ lập trình để tạo và xử lý cơ sở dữ liệu được giới thiệu vào cuối những năm 1970 và được hàng triệu nhà phát triển trên toàn thế giới sử dụng.
“Theo truyền thống, SQL đã dạy cho thế giới kinh doanh những gì máy tính có thể làm. Họ không phải viết các chương trình tùy chỉnh, họ chỉ cần đặt câu hỏi cho cơ sở dữ liệu bằng ngôn ngữ cấp cao. Chúng tôi nghĩ rằng, khi chúng tôi chuyển từ việc chỉ truy vấn dữ liệu sang đặt câu hỏi cho các mô hình và dữ liệu, chúng tôi sẽ cần một ngôn ngữ tương tự dạy cho mọi người những câu hỏi mạch lạc mà bạn có thể hỏi một máy tính có mô hình dữ liệu xác suất”, Vikash Mansinghka, tác giả chính của một bài báo giới thiệu GenSQL và là nhà khoa học nghiên cứu chính và là người đứng đầu Dự án tính toán xác suất tại Khoa Khoa học não bộ và nhận thức của MIT.
Khi các nhà nghiên cứu so sánh GenSQL với các phương pháp phổ biến dựa trên AI để phân tích dữ liệu, họ thấy rằng nó không chỉ nhanh hơn mà còn tạo ra kết quả chính xác hơn. Điều quan trọng là các mô hình xác suất được GenSQL sử dụng có thể giải thích được, do đó người dùng có thể đọc và chỉnh sửa chúng.
“Việc xem xét dữ liệu và cố gắng tìm ra một số mẫu có ý nghĩa chỉ bằng cách sử dụng một số quy tắc thống kê đơn giản có thể bỏ lỡ các tương tác quan trọng. Bạn thực sự muốn nắm bắt các mối tương quan và sự phụ thuộc của các biến, vốn có thể khá phức tạp, trong một mô hình. Với GenSQL, chúng tôi muốn cho phép một nhóm lớn người dùng truy vấn dữ liệu và mô hình của họ mà không cần phải biết tất cả các chi tiết”, tác giả chính Mathieu Huot, một nhà khoa học nghiên cứu tại Khoa Khoa học Não bộ và Nhận thức và là thành viên của Dự án Điện toán Xác suất, cho biết thêm.
Tham gia vào bài báo này có Matin Ghavami và Alexander Lew, sinh viên sau đại học của MIT; Cameron Freer, một nhà khoa học nghiên cứu; Ulrich Schaechtel và Zane Shelby của Digital Storage; Martin Rinard, một giáo sư của MIT tại Khoa Kỹ thuật Điện và Khoa học Máy tính và là thành viên của Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo (CSAIL); và Feras Saad, một trợ lý giáo sư tại Đại học Carnegie Mellon. Nghiên cứu này gần đây đã được trình bày tại Hội nghị ACM về Thiết kế và Triển khai Ngôn ngữ Lập trình.
Kết hợp các mô hình và cơ sở dữ liệu
SQL, viết tắt của Structured Question Language, là ngôn ngữ lập trình để lưu trữ và thao tác thông tin trong cơ sở dữ liệu. Trong SQL, mọi người có thể đặt câu hỏi về dữ liệu bằng cách sử dụng từ khóa, chẳng hạn như bằng cách tổng hợp, lọc hoặc nhóm các bản ghi cơ sở dữ liệu.
Tuy nhiên, việc truy vấn một mô hình có thể cung cấp những hiểu biết sâu sắc hơn, vì các mô hình có thể nắm bắt được dữ liệu ngụ ý gì đối với một cá nhân. Ví dụ, một nhà phát triển nữ tự hỏi liệu cô ấy có bị trả lương thấp không có khả năng quan tâm nhiều hơn đến dữ liệu lương có ý nghĩa gì đối với cá nhân cô ấy hơn là xu hướng từ hồ sơ cơ sở dữ liệu.
Các nhà nghiên cứu nhận thấy rằng SQL không cung cấp một cách hiệu quả để kết hợp các mô hình AI xác suất, nhưng đồng thời, các phương pháp sử dụng mô hình xác suất để đưa ra suy luận lại không hỗ trợ các truy vấn cơ sở dữ liệu phức tạp.
Họ đã xây dựng GenSQL để lấp đầy khoảng trống này, cho phép người dùng truy vấn cả tập dữ liệu và mô hình xác suất bằng ngôn ngữ lập trình chính thức đơn giản nhưng mạnh mẽ.
Người dùng GenSQL tải dữ liệu và mô hình xác suất của họ lên, hệ thống sẽ tự động tích hợp. Sau đó, người dùng có thể chạy truy vấn trên dữ liệu cũng nhận được dữ liệu đầu vào từ mô hình xác suất chạy ẩn. Điều này không chỉ cho phép truy vấn phức tạp hơn mà còn có thể cung cấp câu trả lời chính xác hơn.
Ví dụ, một truy vấn trong GenSQL có thể giống như, “Khả năng một nhà phát triển từ Seattle biết ngôn ngữ lập trình Rust là bao nhiêu?” Chỉ cần xem xét mối tương quan giữa các cột trong cơ sở dữ liệu có thể bỏ qua các phụ thuộc tinh tế. Việc kết hợp một mô hình xác suất có thể nắm bắt được các tương tác phức tạp hơn.
Thêm vào đó, các mô hình xác suất mà GenSQL sử dụng có thể kiểm tra được, do đó mọi người có thể xem dữ liệu nào mà mô hình sử dụng để ra quyết định. Ngoài ra, các mô hình này cung cấp các biện pháp về sự không chắc chắn được hiệu chuẩn cùng với mỗi câu trả lời.
Ví dụ, với sự không chắc chắn được hiệu chỉnh này, nếu ai đó truy vấn mô hình để dự đoán kết quả của các phương pháp điều trị ung thư khác nhau cho một bệnh nhân thuộc nhóm thiểu số không được đại diện đầy đủ trong tập dữ liệu, GenSQL sẽ cho người dùng biết rằng kết quả đó không chắc chắn và mức độ không chắc chắn đó như thế nào, thay vì tự tin thái quá ủng hộ phương pháp điều trị sai.
Kết quả nhanh hơn và chính xác hơn
Để đánh giá GenSQL, các nhà nghiên cứu đã so sánh hệ thống của họ với các phương pháp cơ bản phổ biến sử dụng mạng nơ-ron. GenSQL nhanh hơn từ 1,7 đến 6,8 lần so với các phương pháp này, thực hiện hầu hết các truy vấn trong vài mili giây trong khi cung cấp kết quả chính xác hơn.
Họ cũng áp dụng GenSQL trong hai nghiên cứu điển hình: một nghiên cứu trong đó hệ thống xác định dữ liệu thử nghiệm lâm sàng được dán nhãn sai và nghiên cứu còn lại trong đó hệ thống tạo ra dữ liệu tổng hợp chính xác, nắm bắt được các mối quan hệ phức tạp trong hệ gen.
Tiếp theo, các nhà nghiên cứu muốn áp dụng GenSQL rộng rãi hơn để tiến hành mô hình hóa quy mô lớn các quần thể người. Với GenSQL, họ có thể tạo dữ liệu tổng hợp để rút ra suy luận về những thứ như sức khỏe và tiền lương trong khi kiểm soát thông tin nào được sử dụng trong phân tích.
Họ cũng muốn làm cho GenSQL dễ sử dụng hơn và mạnh mẽ hơn bằng cách thêm các tối ưu hóa và tự động hóa mới vào hệ thống. Về lâu dài, các nhà nghiên cứu muốn cho phép người dùng thực hiện các truy vấn ngôn ngữ tự nhiên trong GenSQL. Mục tiêu của họ là cuối cùng phát triển một chuyên gia AI giống ChatGPT mà người ta có thể nói chuyện về bất kỳ cơ sở dữ liệu nào, dựa trên các câu trả lời của nó bằng các truy vấn GenSQL.
Nghiên cứu này được tài trợ một phần bởi Cơ quan Dự án Nghiên cứu Quốc phòng Tiên tiến (DARPA), Google và Quỹ Gia đình Siegel.
[ad_2]
Source link