[ad_1]
Tác động của trí tuệ nhân tạo sẽ không bao giờ công bằng nếu chỉ có một công ty xây dựng và kiểm soát các mô hình (chưa kể dữ liệu đi vào chúng). Thật không could, các mô hình AI ngày nay được tạo thành từ hàng tỷ tham số phải được đào tạo và điều chỉnh để tối đa hóa hiệu suất cho từng trường hợp sử dụng, khiến hầu hết mọi người và công ty đều không thể tiếp cận được các mô hình AI mạnh mẽ nhất.
KhảmML bắt đầu với sứ mệnh làm cho những mô hình đó dễ tiếp cận hơn. Công ty có Tiến sĩ Jonathan Frankle ’23 và Phó giáo sư Michael Carbin của MIT là người đồng sáng lập, đã phát triển một nền tảng cho phép người dùng đào tạo, cải tiến và giám sát các mô hình nguồn mở bằng cách sử dụng dữ liệu của riêng họ. Công ty cũng xây dựng các mô hình nguồn mở của riêng mình bằng cách sử dụng các đơn vị xử lý đồ họa (GPU) của Nvidia.
Cách tiếp cận này giúp học sâu, một lĩnh vực còn non trẻ khi bắt đầu sử dụng KhảmML, có thể tiếp cận được với nhiều tổ chức hơn khi sự phấn khích xung quanh AI tổng quát và các mô hình ngôn ngữ lớn (LLM) bùng nổ sau khi phát hành Chat GPT-3.5. Nó cũng biến KhảmML trở thành một công cụ bổ sung mạnh mẽ cho các công ty quản lý dữ liệu cũng cam kết giúp các tổ chức sử dụng dữ liệu của họ mà không cần cung cấp dữ liệu cho các công ty AI.
Năm ngoái, lý do đó đã dẫn đến việc Databricks, một công ty lưu trữ, phân tích và AI lưu trữ dữ liệu toàn cầu hợp tác với một số tổ chức lớn nhất trên thế giới, mua lại KhảmML. Kể từ khi mua lại, các công ty kết hợp đã phát hành một trong những LLM đa năng, nguồn mở có hiệu suất cao nhất từng được xây dựng. Được biết đến với cái tên DBRX, mô hình này đã đặt ra các tiêu chuẩn mới trong các nhiệm vụ như đọc hiểu, câu hỏi kiến thức tổng quát và câu đố logic.
Kể từ đó, DBRX đã nổi tiếng là một trong những LLM nguồn mở nhanh nhất hiện có và đã được chứng minh là đặc biệt hữu ích tại các doanh nghiệp lớn.
Tuy nhiên, hơn cả mô hình, Frankle cho biết DBRX rất quan trọng vì nó được xây dựng bằng các công cụ Databricks, nghĩa là bất kỳ khách hàng nào của công ty đều có thể đạt được hiệu suất tương tự với các mô hình của riêng họ, điều này sẽ đẩy nhanh tác động của AI tổng hợp.
“Thành thật mà nói, thật thú vị khi thấy cộng đồng làm những điều thú vị với nó,” Frankle nói. “Đối với tôi với tư cách là một nhà khoa học, đó là phần hay nhất. Đó không phải là mô hình, mà là tất cả những điều tuyệt vời mà cộng đồng đang thực hiện dựa trên nó. Đó là nơi phép màu xảy ra.”
Làm cho thuật toán hiệu quả
Frankle lấy bằng cử nhân và thạc sĩ về khoa học máy tính tại Đại học Princeton trước khi đến MIT để theo đuổi bằng tiến sĩ vào năm 2016. Khi mới đến MIT, anh không chắc mình muốn học lĩnh vực điện toán nào. Sự lựa chọn cuối cùng của anh ấy sẽ thay đổi cuộc đời anh ấy.
Frankle cuối cùng quyết định tập trung vào một dạng trí tuệ nhân tạo được gọi là học sâu. Vào thời điểm đó, deep studying và trí tuệ nhân tạo không tạo được sự hứng thú rộng rãi như ngày nay. Học sâu là một lĩnh vực nghiên cứu kéo dài hàng thập kỷ nhưng vẫn chưa mang lại nhiều kết quả.
Frankle nói: “Tôi không nghĩ có ai vào thời điểm đó dự đoán được việc học sâu sẽ bùng nổ như hiện nay”. “Những người biết đến đều cho rằng đây là một lĩnh vực thực sự gọn gàng và có rất nhiều vấn đề chưa được giải quyết, nhưng những cụm từ như mô hình ngôn ngữ lớn (LLM) và AI tổng quát không thực sự được sử dụng vào thời điểm đó. Đó là những ngày đầu.”
Mọi thứ bắt đầu trở nên thú vị với việc phát hành năm 2017 của một tựa sport nổi tiếng hiện nay. giấy bởi các nhà nghiên cứu của Google, trong đó họ đã cho thấy một kiến trúc deep studying mới được gọi là máy biến áp có hiệu quả đáng ngạc nhiên trong việc dịch ngôn ngữ và hứa hẹn áp dụng cho một số ứng dụng khác, bao gồm cả việc tạo nội dung.
Vào năm 2020, Naveen Rao, người đồng sáng lập và giám đốc điều hành công nghệ của Moses, đã bất ngờ gửi e mail cho Frankle và Carbin. Rao đã đọc một bài báo mà cả hai đều là đồng tác giả, trong đó các nhà nghiên cứu đã chỉ ra cách thu nhỏ các mô hình học sâu mà không làm giảm hiệu suất. Rao thuyết phục cặp đôi thành lập công ty. Tham gia cùng họ có Hanlin Tang, người đã từng làm việc với Rao trong một công ty khởi nghiệp AI trước đây đã được Intel mua lại.
Những người sáng lập bắt đầu bằng cách đọc các kỹ thuật khác nhau được sử dụng để tăng tốc độ đào tạo các mô hình AI, cuối cùng kết hợp một số kỹ thuật trong số đó để cho thấy rằng họ có thể đào tạo một mô hình để thực hiện phân loại hình ảnh nhanh hơn bốn lần so với những gì đã đạt được trước đây.
Frankle nói: “Bí quyết là không có mẹo nào cả. “Tôi nghĩ chúng tôi đã phải thực hiện 17 thay đổi khác nhau trong cách huấn luyện mô hình để tìm ra điều đó. Chỉ một chút ở đây và một chút ở đó, nhưng hóa ra chỉ bấy nhiêu thôi cũng đủ để có được tốc độ tăng tốc đáng kinh ngạc. Đó thực sự là câu chuyện của Khảm.”
Nhóm đã cho thấy các kỹ thuật của họ có thể làm cho các mô hình hiệu quả hơn và họ đã phát hành một mô hình ngôn ngữ lớn nguồn mở vào năm 2023 cùng với một thư viện nguồn mở về các phương pháp của họ. Họ cũng phát triển các công cụ trực quan để cho phép các nhà phát triển vạch ra các tùy chọn thử nghiệm khác nhau cho việc đào tạo và chạy mô hình.
Quỹ E14 của MIT đã đầu tư vào vòng tài trợ Sequence A của Khảm và Frankle cho biết nhóm của E14 đã sớm đưa ra hướng dẫn hữu ích. Sự tiến bộ của Khảm đã cho phép một lớp công ty mới đào tạo các mô hình AI sáng tạo của riêng họ.
Frankle nói: “Có một sự dân chủ hóa và một góc độ nguồn mở đối với sứ mệnh của Khảm”. “Đó là điều luôn ở rất gần trái tim tôi. Kể từ khi tôi còn là nghiên cứu sinh tiến sĩ và không có GPU vì tôi không ở trong phòng thí nghiệm máy học và tất cả bạn bè của tôi đều có GPU. Tôi vẫn còn cảm thấy như vậy. Tại sao tất cả chúng ta không thể tham gia? Tại sao tất cả chúng ta không thể làm những việc này và làm khoa học?”
Đổi mới nguồn mở
Databricks cũng đang nỗ lực cung cấp cho khách hàng quyền truy cập vào các mô hình AI. Công ty đã hoàn tất việc mua lại KhảmML vào năm 2023 với số tiền được báo cáo là 1,3 tỷ USD.
Frankle nói: “Tại Databricks, chúng tôi thấy một nhóm sáng lập gồm các học giả giống như chúng tôi. “Chúng tôi cũng thấy một nhóm các nhà khoa học am hiểu công nghệ. Databricks có dữ liệu, chúng tôi có máy học. Bạn không thể làm cái này mà không có cái kia và ngược lại. Nó vừa kết thúc là một trận đấu thực sự tốt.”
Vào tháng 3, Databricks đã phát hành DBRX, mang đến cho cộng đồng nguồn mở và các doanh nghiệp xây dựng khả năng LLM của riêng họ mà trước đây chỉ giới hạn ở các mô hình đóng.
Frankle nói: “Điều mà DBRX cho thấy là bạn có thể xây dựng LLM nguồn mở tốt nhất trên thế giới với Databricks. “Nếu bạn là một doanh nghiệp, ngày hôm nay là giới hạn của bầu trời.”
Frankle cho biết nhóm của Databricks đã được khuyến khích sử dụng DBRX trong nội bộ cho nhiều nhiệm vụ khác nhau.
Anh ấy nói: “Nó vốn đã tuyệt vời và chỉ cần tinh chỉnh một chút thì nó sẽ tốt hơn so với các mô hình đóng”. “Bạn sẽ không giỏi hơn GPT về mọi thứ. Đó không phải là cách nó hoạt động. Nhưng không ai muốn giải quyết mọi vấn đề. Mọi người đều muốn giải quyết một vấn đề. Và chúng tôi có thể tùy chỉnh mô hình này để làm cho nó thực sự phù hợp với các tình huống cụ thể.”
Khi Databricks tiếp tục vượt qua các giới hạn của AI và khi các đối thủ cạnh tranh tiếp tục đầu tư số tiền lớn vào AI một cách rộng rãi hơn, Frankle hy vọng ngành này sẽ coi nguồn mở là con đường tốt nhất phía trước.
Frankle nói: “Tôi là người tin tưởng vào khoa học, tôi là người tin tưởng vào sự tiến bộ và tôi rất vui mừng vì hiện tại chúng tôi đang thực hiện một lĩnh vực khoa học thú vị như vậy”. “Tôi cũng là người tin tưởng vào sự cởi mở và tôi hy vọng rằng mọi người khác cũng đón nhận sự cởi mở theo cách chúng tôi có. Đó là cách chúng tôi đến được đây nhờ khoa học tốt và sự chia sẻ tốt.”
[ad_2]
Source link