[ad_1]
Các nhà nghiên cứu từ Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo MIT (CSAIL) và Google Analysis có thể vừa thực hiện phép thuật kỹ thuật số – dưới dạng mô hình khuếch tán có thể thay đổi đặc tính vật chất của vật thể trong hình ảnh.
Được mệnh danh Nhà giả kim, hệ thống cho phép người dùng thay đổi bốn thuộc tính của cả ảnh thật và ảnh do AI tạo ra: độ nhám, độ kim loại, độ phản chiếu (màu cơ bản ban đầu của vật thể) và độ trong suốt. Là mô hình khuếch tán hình ảnh sang hình ảnh, người ta có thể nhập bất kỳ ảnh nào và sau đó điều chỉnh từng thuộc tính trong phạm vi liên tục từ -1 đến 1 để tạo hình ảnh mới. Những khả năng chỉnh sửa ảnh này có khả năng mở rộng để cải thiện các mô hình trong trò chơi điện tử, mở rộng khả năng của AI trong hiệu ứng hình ảnh và làm phong phú thêm dữ liệu đào tạo robotic.
Điều kỳ diệu đằng sau Nhà giả kim bắt đầu bằng mô hình khuếch tán khử nhiễu: Trong thực tế, các nhà nghiên cứu đã sử dụng Steady Diffusion 1.5, một mô hình chuyển văn bản thành hình ảnh được ca ngợi vì kết quả quang học và khả năng chỉnh sửa. Công việc trước đây được xây dựng trên mô hình phổ biến để cho phép người dùng thực hiện các thay đổi ở cấp độ cao hơn, như hoán đổi đối tượng hoặc thay đổi độ sâu của hình ảnh. Ngược lại, phương pháp của CSAIL và Google Analysis áp dụng mô hình này để tập trung vào các thuộc tính cấp thấp, sửa đổi các chi tiết tốt hơn về thuộc tính vật liệu của đối tượng bằng giao diện dựa trên thanh trượt độc đáo, hoạt động tốt hơn so với các đối tượng tương ứng.
Trong khi các hệ thống khuếch tán trước đây có thể kéo một con thỏ trong câu tục ngữ ra khỏi mũ để tạo hình ảnh, thì Nhà giả kim có thể biến đổi con vật đó thành trong suốt. Hệ thống này cũng có thể làm cho con vịt cao su trông như kim loại, loại bỏ màu vàng của con cá vàng và đánh bóng một chiếc giày cũ. Các chương trình như Photoshop có khả năng tương tự, nhưng mô hình này có thể thay đổi các thuộc tính vật liệu theo cách đơn giản hơn. Ví dụ: sửa đổi giao diện kim loại của ảnh yêu cầu một số bước trong ứng dụng được sử dụng rộng rãi.
Prafull Sharma, nghiên cứu sinh tiến sĩ tại MIT về kỹ thuật điện và khoa học máy tính, chi nhánh của CSAIL, đồng thời là tác giả chính của một bài báo mới mô tả: “Khi bạn nhìn vào một hình ảnh bạn đã tạo, kết quả thường không chính xác như những gì bạn nghĩ trong đầu”. công việc. “Bạn muốn kiểm soát hình ảnh trong khi chỉnh sửa nó, nhưng các điều khiển hiện có trong trình chỉnh sửa hình ảnh không thể thay đổi chất liệu. Với Alchemist, chúng tôi tận dụng tính chân thực của kết quả đầu ra từ các mô hình chuyển văn bản thành hình ảnh và đưa ra điều khiển thanh trượt cho phép chúng tôi sửa đổi một thuộc tính cụ thể sau khi hình ảnh ban đầu được cung cấp.”
Kiểm soát chính xác
“Các mô hình tạo văn bản thành hình ảnh đã trao quyền cho người dùng hàng ngày tạo ra hình ảnh một cách dễ dàng như viết một câu. Tuy nhiên, việc kiểm soát những mô hình này có thể là một thách thức,” Trợ lý Giáo sư Jun-Yan Zhu của Đại học Carnegie Mellon, người không tham gia vào bài báo, cho biết. “Mặc dù việc tạo ra một chiếc bình rất đơn giản nhưng việc tổng hợp một chiếc bình với các đặc tính vật liệu cụ thể như độ trong suốt và độ nhám đòi hỏi người dùng phải dành hàng giờ để thử các lời nhắc văn bản khác nhau và các hạt ngẫu nhiên. Điều này có thể gây khó chịu, đặc biệt đối với những người dùng chuyên nghiệp yêu cầu độ chính xác trong công việc. Alchemist trình bày một giải pháp thiết thực cho thách thức này bằng cách cho phép kiểm soát chính xác chất liệu của hình ảnh đầu vào đồng thời khai thác các ưu điểm dựa trên dữ liệu của các mô hình khuếch tán quy mô lớn, truyền cảm hứng cho các công trình trong tương lai để kết hợp liền mạch các mô hình tổng hợp vào các giao diện hiện có của việc tạo nội dung thường được sử dụng phần mềm.”
Khả năng thiết kế của Nhà giả kim có thể giúp điều chỉnh diện mạo của các mô hình khác nhau trong trò chơi điện tử. Việc áp dụng mô hình phổ biến như vậy trong lĩnh vực này có thể giúp người sáng tạo tăng tốc quá trình thiết kế của họ, tinh chỉnh kết cấu để phù hợp với lối chơi ở một cấp độ. Hơn nữa, Sharma và dự án của nhóm anh ấy có thể hỗ trợ thay đổi các yếu tố thiết kế đồ họa, video và hiệu ứng phim để nâng cao hiệu ứng quang học và đạt được hình thức vật liệu mong muốn một cách chính xác.
Phương pháp này cũng có thể tinh chỉnh dữ liệu huấn luyện robotic cho các nhiệm vụ như thao tác. Bằng cách giới thiệu cho máy móc nhiều kết cấu hơn, chúng có thể hiểu rõ hơn về các vật phẩm đa dạng mà chúng sẽ nắm bắt được trong thế giới thực. Nhà giả kim thậm chí còn có thể giúp phân loại hình ảnh, phân tích nơi mạng lưới thần kinh không nhận ra những thay đổi vật chất của hình ảnh.
Công việc của Sharma và nhóm của anh ấy đã vượt xa các mô hình tương tự khi chỉ chỉnh sửa một cách trung thực đối tượng quan tâm được yêu cầu. Ví dụ: khi người dùng nhắc các mô hình khác nhau điều chỉnh một con cá heo để đạt độ trong suốt tối đa, chỉ Nhà giả kim mới đạt được thành tích này trong khi vẫn giữ nguyên phông nền đại dương. Khi các nhà nghiên cứu đào tạo mô hình khuếch tán có thể so sánh InstructPix2Pix trên cùng dữ liệu với phương pháp so sánh của họ, họ nhận thấy rằng Alchemist đạt được điểm chính xác vượt trội. Tương tự như vậy, một nghiên cứu người dùng đã tiết lộ rằng mô hình MIT được ưa thích hơn và được coi là có tính chân thực hơn so với mô hình tương tự.
Giữ nó thực tế với dữ liệu tổng hợp
Theo các nhà nghiên cứu, việc thu thập dữ liệu thực tế là không thực tế. Thay vào đó, họ đào tạo mô hình của mình trên một tập dữ liệu tổng hợp, chỉnh sửa ngẫu nhiên các thuộc tính vật liệu của 1.200 vật liệu được áp dụng cho 100 đối tượng 3D độc đáo, có sẵn công khai trong Blender, một công cụ thiết kế đồ họa máy tính phổ biến.
Frédo Durand, Giáo sư Máy tính Amar Bose tại Khoa Kỹ thuật Điện và Khoa học Máy tính (EECS) của MIT và là thành viên CSAIL, cho biết: “Việc kiểm soát tổng hợp hình ảnh AI tổng hợp cho đến nay vẫn bị hạn chế bởi những gì văn bản có thể mô tả”. tác giả cao cấp trên bài báo. “Công trình này mở ra khả năng kiểm soát mới và chi tiết hơn cho các thuộc tính hình ảnh được kế thừa từ nhiều thập kỷ nghiên cứu đồ họa máy tính.”
“Nhà giả kim là loại kỹ thuật cần thiết để biến các mô hình học máy và phổ biến trở nên thiết thực và hữu ích cho cộng đồng CGI và các nhà thiết kế đồ họa,” kỹ sư phần mềm cao cấp và đồng tác giả của Google Analysis, Mark Matthews, cho biết thêm. “Không có nó, bạn sẽ bị mắc kẹt với kiểu ngẫu nhiên không thể kiểm soát này có thể sẽ thú vị trong một thời gian, nhưng đến một lúc nào đó, bạn cần phải hoàn thành công việc thực sự và tuân theo tầm nhìn sáng tạo.”
Dự án mới nhất của Sharma được thực hiện một năm sau khi ông dẫn đầu nghiên cứu về Nặng về vật chất, một phương pháp học máy có thể xác định các vật liệu tương tự trong một hình ảnh. Công việc trước đây đã chứng minh cách các mô hình AI có thể tinh chỉnh các kỹ năng hiểu biết vật chất của chúng và giống như Nhà giả kim, đã được tinh chỉnh trên bộ dữ liệu tổng hợp của các mô hình 3D từ Blender.
Tuy nhiên, Alchemist vẫn còn một số hạn chế ở thời điểm hiện tại. Mô hình gặp khó khăn trong việc suy luận chính xác mức độ chiếu sáng, do đó, đôi khi nó không tuân theo thông tin đầu vào của người dùng. Sharma lưu ý rằng phương pháp này đôi khi cũng tạo ra sự trong suốt khó tin về mặt vật lý. Ví dụ: hãy hình dung một phần bàn tay bên trong hộp ngũ cốc – ở cài đặt tối đa của Nhà giả kim cho thuộc tính này, bạn sẽ thấy một hộp đựng trong suốt mà không cần đưa ngón tay vào.
Các nhà nghiên cứu muốn mở rộng cách một mô hình như vậy có thể cải thiện nội dung 3D cho đồ họa ở cấp độ cảnh. Ngoài ra, Nhà giả kim có thể giúp suy ra các đặc tính vật chất từ hình ảnh. Theo Sharma, loại công việc này có thể mở khóa các liên kết giữa đặc điểm hình ảnh và cơ học của vật thể trong tương lai.
Giáo sư MIT EECS và thành viên CSAIL William T. Freeman cũng là tác giả cấp cao, tham gia cùng Varun Jampani và các nhà khoa học Nghiên cứu của Google Yuanzhen Li PhD ’09, Xuhui Jia và Dmitry Lagun. Công trình này được hỗ trợ một phần bởi khoản tài trợ của Quỹ Khoa học Quốc gia và quà tặng từ Google và Amazon. Công việc của nhóm sẽ được nêu bật tại CVPR vào tháng 6.
[ad_2]
Source link