Meta giới thiệu mô hình AI sinh ra giọng nói “Voicebox”

Meta, công ty mẹ của Facebook và Instagram, đã giới thiệu bước phát triển mới nhất của mình trong lĩnh vực AI tổng hợp cho giọng nói với việc giới thiệu Hộp thoại. Voicebox, mô hình AI đa ngôn ngữ này, có khả năng tạo các clip âm thanh chất lượng cao và chuyển đổi văn bản thành giọng nói trong ngữ cảnh. Đáng chú ý, mô hình này có thể tạo ra lời nói bằng sáu ngôn ngữ khác nhau. Tính linh hoạt của Hộp thoại thể hiện qua các chức năng chỉnh sửa, lấy mẫu và tạo kiểu giọng nói, cũng như chuyển giao phong cách ngôn ngữ chéo. Meta hy vọng công nghệ này có thể giúp chỉnh sửa các bản âm thanh, cho phép người khiếm thị nghe được tin nhắn bằng văn bản từ bạn bè bằng giọng nói của họ, và cho phép nhiều người nói bất kỳ ngoại ngữ nào bằng chính giọng nói của họ.
Meta, công ty mẹ của Facebook và Instagram, đã giới thiệu bước phát triển mới nhất của mình trong lĩnh vực AI tổng hợp cho giọng nói với việc giới thiệu Hộp thoại.
Các mô hình AI này thể hiện khả năng tạo giọng nói, chẳng hạn như chỉnh sửa, lấy mẫu và tạo kiểu, ngay cả khi không được đào tạo cụ thể cho các tác vụ này.
Thông qua học theo ngữ cảnh, Voicebox có thể tạo các clip âm thanh chất lượng cao trong khi vẫn giữ nguyên nội dung và phong cách của bản ghi gốc. Đáng chú ý, mô hình đa ngôn ngữ này có thể tạo ra lời nói bằng sáu ngôn ngữ khác nhau.
(Ảnh: KIRILL KUDRYAVTSEV/AFP qua Getty Images))
Ảnh chụp logo META trong buổi ra mắt mạng xã hội Instagram tại Mỹ trên màn hình máy tính bảng ở Moscow vào ngày 11 tháng 11 năm 2021. – Giám đốc Facebook Mark Zuckerberg thông báo tên công ty mẹ được đổi thành “Meta” để thể hiện một tương lai xa hơn các vấn đề của nó. mạng xã hội.
Ảnh chụp logo META trong buổi ra mắt mạng xã hội Instagram tại Mỹ trên màn hình máy tính bảng ở Moscow vào ngày 11 tháng 11 năm 2021. – Giám đốc Facebook Mark Zuckerberg thông báo tên công ty mẹ được đổi thành “Meta” để thể hiện một tương lai xa hơn các vấn đề của nó. mạng xã hội.
Nhiều chức năng Hộp thoại Meta
Tính linh hoạt của Hộp thoại được thể hiện thông qua các chức năng khác nhau của nó:
1. Tổng hợp văn bản thành giọng nói trong ngữ cảnh: Chỉ với một mẫu âm thanh dài hai giây, Hộp thoại có thể khớp với kiểu của mẫu và tạo đầu ra chuyển văn bản thành giọng nói tương ứng.
2. Chỉnh sửa giọng nói và giảm tiếng ồn: Hộp thoại có khả năng tạo lại các đoạn giọng nói bị ngắt quãng do tiếng ồn hoặc thay thế các từ phát âm sai mà không cần phải ghi âm lại toàn bộ bài phát biểu. Tính năng này cho phép chỉnh sửa âm thanh mượt mà, giống như một cục tẩy cho âm thanh.
3. Chuyển giao phong cách ngôn ngữ chéo: Hộp thoại có thể đọc các đoạn văn bản bằng các ngôn ngữ khác nhau, tạo ra giọng nói bằng ngôn ngữ mong muốn bất kể ngôn ngữ mẫu được cung cấp. Khả năng giao thoa ngôn ngữ này mang đến tiềm năng giao tiếp tự nhiên giữa những cá nhân nói các ngôn ngữ khác nhau.
4. Lấy mẫu giọng nói đa dạng: Sau khi được đào tạo về nhiều loại dữ liệu, Voicebox có thể tạo giọng nói gần giống với cách mọi người nói một cách tự nhiên trong các tình huống thực tế trên sáu ngôn ngữ được hỗ trợ.
Do những rủi ro tiềm ẩn liên quan đến việc sử dụng sai, mô hình và mã không được cung cấp cho công chúng vào thời điểm này. Tuy nhiên, các mẫu âm thanh và tài liệu nghiên cứu mô tả chi tiết cách tiếp cận và kết quả của mô hình đã được chia sẻ.
Đọc thêm: Tai nghe AI mới của Neurable có thể diễn giải tín hiệu não, giúp người dùng tập trung và làm việc hiệu quả
Mô hình kết hợp dòng chảy
Hộp thoại tận dụng mô hình Khớp luồng, đại diện cho bước đột phá mới nhất của Meta trong mô hình tổng quát không tự hồi quy. Cải tiến này cho phép Hộp thoại học hỏi từ dữ liệu giọng nói đa dạng mà không cần gắn nhãn mở rộng, dẫn đến tập dữ liệu đào tạo rộng hơn và đa dạng hơn.
Với hơn 50.000 giờ giọng nói được ghi lại và bản chép lời từ sách nói thuộc phạm vi công cộng, Voicebox được đào tạo để dự đoán các phân đoạn giọng nói dựa trên ngữ cảnh, cho phép tạo giọng nói trong các bản ghi âm hiện có.
Các khả năng của Voicebox, cùng với tác động tiềm ẩn của nó đối với lĩnh vực AI tổng quát cho lời nói, đánh dấu một cột mốc quan trọng trong nỗ lực nghiên cứu của Meta.
Bằng cách chia sẻ các phương pháp tiếp cận và kết quả của họ, Meta khuyến khích cộng đồng nghiên cứu tiếp tục phát triển công việc của họ và đóng góp vào sự phát triển AI có trách nhiệm.
“Hộp thoại là một mô hình AI tổng quát có thể giúp chỉnh sửa, lấy mẫu và tạo kiểu âm thanh. Loại công nghệ này có thể được sử dụng trong tương lai để giúp người sáng tạo dễ dàng chỉnh sửa các bản âm thanh, cho phép người khiếm thị nghe được tin nhắn bằng văn bản từ bạn bè bằng giọng nói của họ, và cho phép nhiều người nói bất kỳ ngoại ngữ nào bằng chính giọng nói của họ,” Meta viết trong bài đăng thông báo của mình.
Những bài viết liên quan: Bảo mật AI: Nghiên cứu mới khám phá bảo mật máy học mà không cần chạy vô số thử nghiệm
