[ad_1]
“Nó rất ấn tượng. Jack Saunders, nhà nghiên cứu tại Đại học Bathtub, người không tham gia vào công việc của Synthesia, cho biết không ai khác có thể làm được điều đó.
Anh ấy nói rằng những hình đại diện toàn thân mà anh ấy xem trước rất đẹp, mặc dù có những lỗi nhỏ như đôi khi hai bàn tay “cắt” vào nhau. Nhưng “rất có thể bạn sẽ không thực sự nhìn kỹ đến mức đó để nhận ra nó,” Saunders nói.
tổng hợp ra mắt phiên bản đầu tiên của avatar AI siêu thực, còn được gọi là deepfake, vào tháng Tư. Những hình đại diện này sử dụng các mô hình ngôn ngữ lớn để khớp cách diễn đạt và giọng điệu với cảm xúc của văn bản được nói. Các mô hình khuếch tán, như được sử dụng trong các hệ thống AI tạo hình ảnh và video, tạo ra giao diện của hình đại diện. Tuy nhiên, hình đại diện ở thế hệ này chỉ xuất hiện từ phần thân trở lên, điều này có thể làm mất đi tính hiện thực ấn tượng.
Để tạo hình đại diện toàn thân, Synthesia đang xây dựng một mô hình AI thậm chí còn lớn hơn. Người dùng sẽ phải vào phòng thu để ghi lại chuyển động cơ thể của mình.
Nhưng trước khi những hình đại diện toàn thân này ra mắt, công ty sẽ tung ra một phiên bản khác của hình đại diện AI có bàn tay và có thể quay phim từ nhiều góc độ. Những người tiền nhiệm của chúng chỉ có ở chế độ dọc và chỉ có thể nhìn thấy từ phía trước.
Các công ty khởi nghiệp khác, chẳng hạn như Hour One, đã ra mắt avatar tương tự với bàn tay. Phiên bản của Synthesia mà tôi đã thử nghiệm trong bản xem trước nghiên cứu và sẽ ra mắt vào cuối tháng 7, có chuyển động tay và hát nhép thực tế hơn một chút.
Điều quan trọng là bản cập nhật sắp tới cũng giúp việc tạo hình đại diện được cá nhân hóa của riêng bạn dễ dàng hơn nhiều. Các hình đại diện AI tùy chỉnh trước đây của công ty yêu cầu người dùng phải vào studio để ghi lại khuôn mặt và giọng nói của họ trong khoảng vài giờ, như Tôi đã báo cáo vào tháng Tư.
Lần này, tôi ghi lại những tài liệu cần thiết chỉ trong 10 phút tại văn phòng Synthesia, sử dụng máy ảnh kỹ thuật số, micro cài áo và máy tính xách tay. Nhưng một thiết lập thậm chí còn cơ bản hơn, chẳng hạn như máy ảnh máy tính xách tay, sẽ làm được. Và mặc dù trước đây tôi phải ghi lại chuyển động khuôn mặt và giọng nói của mình một cách riêng biệt, nhưng lần này dữ liệu được thu thập cùng lúc. Quá trình này cũng bao gồm việc đọc một tập lệnh thể hiện sự đồng ý cho phép ghi lại theo cách này và đọc mật mã bảo mật được tạo ngẫu nhiên.
[ad_2]
Source link