Phòng thí nghiệm Intel, phối hợp với Blockade Labs, đã giới thiệu Mô hình khuếch tán tiềm ẩn cho 3D (LDM3D), một mô hình khuếch tán mới sử dụng AI tổng quát để tạo nội dung hình ảnh 3D thực tế. LDM3D là mô hình đầu tiên trong ngành tạo bản đồ độ sâu bằng cách sử dụng quy trình khuếch tán để tạo hình ảnh 3D với chế độ xem 360 độ rõ ràng và chân thực. LDM3D có tiềm năng cách mạng hóa việc tạo nội dung, ứng dụng siêu dữ liệu và trải nghiệm kỹ thuật số, chuyển đổi nhiều ngành công nghiệp, từ giải trí và trò chơi sang kiến ​​trúc và thiết kế.

(Ảnh: Tập đoàn Intel)

CŨNG ĐỌC: Intel công bố các bản cập nhật thương hiệu lớn trước khi ra mắt hồ sao băng sắp tới

“Công nghệ AI sáng tạo nhằm tăng cường và nâng cao hơn nữa khả năng sáng tạo của con người cũng như tiết kiệm thời gian. Tuy nhiên, hầu hết các mô hình AI sáng tạo ngày nay đều bị giới hạn trong việc tạo hình ảnh 2D và chỉ một số ít có thể tạo hình ảnh 3D từ lời nhắc văn bản. Không giống như các mô hình khuếch tán ổn định tiềm ẩn hiện có, LDM3D cho phép người dùng tạo hình ảnh và bản đồ độ sâu từ các lời nhắc văn bản nhất định bằng cách sử dụng số lượng tham số gần như giống nhau. Nó cung cấp độ sâu tương đối chính xác hơn cho từng pixel trong hình ảnh so với các phương pháp xử lý hậu kỳ tiêu chuẩn để ước tính độ sâu và tiết kiệm thời gian đáng kể cho các nhà phát triển phát triển cảnh .”
-Vaudev Lal, nhà khoa học nghiên cứu AI/ML, Intel Labs

Tại sao nó quan trọng:

Giới hạn quy mô của hệ sinh thái khép kín. Và cam kết của Intel đối với quá trình dân chủ hóa AI thực sự sẽ cho phép tiếp cận rộng rãi hơn với các lợi ích của AI thông qua một hệ sinh thái mở. Một lĩnh vực đã đạt được tiến bộ đáng kể trong những năm gần đây là về thị giác máy tính, đặc biệt là AI tổng hợp. Tuy nhiên, hầu hết các mô hình AI thế hệ tiên tiến hiện nay chỉ giới hạn ở việc tạo ra hình ảnh 2D. Không giống như các mô hình khuếch tán hiện có, thường chỉ tạo hình ảnh 2D RGB từ dấu nhắc văn bản, LDM3D cho phép người dùng tạo cả hình ảnh và bản đồ độ sâu từ dấu nhắc văn bản nhất định. Sử dụng gần như cùng số lượng tham số như khuếch tán ổn định tiềm ẩn, LDM3D cung cấp độ sâu tương đối chính xác hơn cho từng pixel trong hình ảnh so với các phương pháp xử lý hậu kỳ tiêu chuẩn để ước tính độ sâu.

Nghiên cứu này có thể cách mạng hóa cách chúng ta tương tác với nội dung kỹ thuật số bằng cách cho phép người dùng trải nghiệm lời nhắc văn bản của họ theo những cách mà trước đây không thể tưởng tượng được. Hình ảnh và bản đồ độ sâu do LDM3D tạo ra cho phép người dùng biến các mô tả văn bản về bãi biển nhiệt đới yên tĩnh, tòa nhà chọc trời hiện đại hoặc vũ trụ khoa học viễn tưởng thành ảnh toàn cảnh 360 độ chi tiết. Khả năng nắm bắt ngay lập tức thông tin chuyên sâu này có thể làm tăng tính hiện thực và toàn diện, cho phép các ứng dụng đổi mới cho các ngành từ giải trí và trò chơi đến thiết kế nội thất và danh sách bất động sản, cũng như bảo tàng ảo và trải nghiệm thực tế ảo (VR) nhập vai.

Vào ngày 20 tháng 6, LDM3D đã giành được Giải thưởng Áp phích xuất sắc nhất tại hội thảo 3DMV tại CVPR.

Làm thế nào nó hoạt động:

LDM3D đã được đào tạo trên tập dữ liệu được xây dựng từ tập hợp con gồm 10.000 mẫu của cơ sở dữ liệu LAION-400M, chứa hơn 400 triệu cặp chú thích hình ảnh. Nhóm đã sử dụng mô hình ước tính độ sâu lớn của Máy biến áp dự đoán dày đặc (DPT) (được phát triển trước đây tại Phòng thí nghiệm Intel) để chú thích kho dữ liệu đào tạo. Mô hình DPT lớn cung cấp độ sâu tương đối rất chính xác cho từng pixel trong ảnh. Bộ dữ liệu LAION-400M đã được xây dựng cho mục đích nghiên cứu để cho phép đào tạo các mô hình thử nghiệm trên quy mô lớn hơn cho các nhà nghiên cứu rộng rãi và các cộng đồng quan tâm khác.

Mô hình LDM3D được đào tạo trên siêu máy tính Intel AI được hỗ trợ bởi bộ xử lý Intel® Xeon® và bộ tăng tốc AI Intel® Habana Gaudi®. Mô hình và đường dẫn kết quả kết hợp hình ảnh RGB và bản đồ độ sâu được tạo để tạo chế độ xem 360 độ cho trải nghiệm sống động.

Để chứng minh tiềm năng của LDM3D, Intel và các nhà nghiên cứu của Blockade đã phát triển DepthFusion, một ứng dụng tận dụng ảnh RGB 2D tiêu chuẩn và bản đồ độ sâu để tạo trải nghiệm hiển thị 360 độ sống động và tương tác. DepthFusion sử dụng TouchDesigner, ngôn ngữ lập trình hình ảnh dựa trên nút cho nội dung đa phương tiện tương tác thời gian thực, để biến lời nhắc văn bản thành trải nghiệm kỹ thuật số tương tác và sống động. Mô hình LDM3D là một mô hình duy nhất để tạo hình ảnh RGB và bản đồ độ sâu của chúng, giúp tiết kiệm dung lượng bộ nhớ và độ trễ được cải thiện.

Điều gì sẽ đến:

Sự ra đời của LDM3D và DepthFusion mở đường cho những tiến bộ hơn nữa trong thị giác máy tính và trí tuệ nhân tạo đa màn hình. Intel sẽ tiếp tục khám phá việc sử dụng trí tuệ nhân tạo tổng hợp để nâng cao khả năng của con người và xây dựng một hệ sinh thái mạnh mẽ về nghiên cứu và phát triển trí tuệ nhân tạo mã nguồn mở nhằm dân chủ hóa quyền truy cập vào công nghệ này. Tiếp tục hỗ trợ mạnh mẽ của Intel cho một hệ sinh thái mở trong AI, LDM3D đang được cung cấp nguồn mở thông qua HuggingFace. Điều này sẽ cho phép các nhà nghiên cứu và thực hành AI cải thiện hơn nữa hệ thống này và tinh chỉnh nó cho các ứng dụng tùy chỉnh.

BÀI VIẾT LIÊN QUAN: Intel, Chính phủ Đức đồng ý về việc tăng phạm vi cho địa điểm chế tạo wafer ở Magdeburg