Cuối tháng 3 năm ngoái, OpenAI đã công bố “bản xem trước ở quy mô nhỏ” của dịch vụ AI, Voice Engine, mà công ty tuyên bố có thể sao chép giọng nói của một người chỉ với 15 giây nói. Khoảng một năm sau, công cụ này vẫn ở trạng thái xem trước và OpenAI không đưa ra dấu hiệu nào về thời điểm nó có thể ra mắt – hoặc liệu nó có ra mắt hay không.
Việc công ty miễn cưỡng triển khai rộng rãi dịch vụ có thể dẫn đến lo ngại về việc sử dụng sai mục đích, nhưng nó cũng có thể phản ánh nỗ lực tránh mời gọi sự giám sát của cơ quan quản lý. OpenAI trước đây bị cáo buộc ưu tiên “sản phẩm sáng bóng” gây tổn hại đến sự an toàn và phát hành vội vã để đánh bại các công ty đối thủ trên thị trường.
Trong một tuyên bố, người phát ngôn của OpenAI nói với TechCrunch rằng công ty đang tiếp tục thử nghiệm Voice Engine với một nhóm hạn chế gồm “đối tác đáng tin cậy.”
“Chúng tôi đang học hỏi từ cách đối tác của chúng tôi sử dụng công nghệ để có thể cải thiện tính hữu ích và an toàn của mô hình,” Người phát ngôn cho biết. “Chúng tôi rất vui mừng khi thấy nó được sử dụng theo nhiều cách khác nhau, từ trị liệu ngôn ngữ, học ngôn ngữ, hỗ trợ khách hàng, nhân vật trò chơi điện tử, đến hình đại diện AI.”
Đổi thời điểm phát hành
Voice Engine, hỗ trợ giọng nói có trong API chuyển văn bản thành giọng nói của OpenAI cũng như Chế độ giọng nói của ChatGPT, tạo ra lời nói có âm thanh tự nhiên gần giống với người nói ban đầu. Công cụ này chuyển đổi các ký tự viết thành lời nói, chỉ bị giới hạn bởi một số rào cản nhất định về nội dung. Tuy nhiên, nó đã bị chậm trễ và phải thay đổi thời điểm phát hành ngay từ đầu.
Như OpenAI đã giải thích trong bài đăng trên blog vào tháng 6 năm 2024, mô hình Voice Engine học cách dự đoán những âm thanh có khả năng xảy ra nhất mà người nói sẽ tạo ra trong một bản ghi văn bản nhất định, có tính đến các giọng nói khác nhau, giọng điệu và phong cách nói. Sau này, mô hình có thể tạo ra không chỉ các phiên bản văn bản nói mà còn cả “lời nói được nói” phản ánh cách các loại người nói khác nhau sẽ đọc to văn bản.
OpenAI ban đầu dự định đưa Voice Engine, ban đầu được gọi là Giọng nói tùy chỉnh, vào API của nó vào ngày 7 tháng 3 năm 2024, theo một bài đăng trên blog dự thảo mà TechCrunch đã xem. Kế hoạch là cung cấp cho một nhóm lên tới 100 “nhà phát triển đáng tin cậy” quyền truy cập trước khi ra mắt rộng rãi hơn, với ưu tiên dành cho các nhà phát triển xây dựng ứng dụng mang lại “lợi ích xã hội” hoặc thể hiện “sáng tạo và có trách nhiệm” công dụng của công nghệ. OpenAI thậm chí còn đã được đăng ký nhãn hiệu và định giá: 15 USD cho mỗi triệu ký tự cho “tiêu chuẩn” giọng nói và 30 USD cho một triệu ký tự cho “chất lượng HD” tiếng nói.
Sau đó, vào giờ thứ 11, công ty đã hoãn công bố. OpenAI cuối cùng đã tiết lộ Voice Engine vài tuần sau đó mà không có tùy chọn đăng ký. OpenAI cho biết quyền truy cập vào công cụ này sẽ vẫn bị giới hạn ở một nhóm khoảng 10 nhà phát triển mà công ty bắt đầu hợp tác vào cuối năm 2023.
“Chúng tôi hy vọng sẽ bắt đầu một cuộc đối thoại về việc triển khai có trách nhiệm các giọng nói tổng hợp và cách xã hội có thể thích ứng với những khả năng mới này,”” OpenAI đã viết trong bài đăng trên blog thông báo của Voice Engine vào cuối tháng 3 năm 2024. “Dựa trên những cuộc trò chuyện này và kết quả của những thử nghiệm quy mô nhỏ này, chúng tôi sẽ đưa ra một quyết định sáng suốt hơn về việc có nên triển khai công nghệ này trên quy mô lớn hay không và bằng cách nào.”
Bản xem trước lâu nhất trong lịch sử OpenAI
Voice Engine đã hoạt động từ năm 2022, theo OpenAI. Công ty tuyên bố họ đã giới thiệu công cụ này cho “các nhà hoạch định chính sách toàn cầu ở cấp cao nhất” vào mùa hè năm 2023 để thể hiện tiềm năng — và rủi ro của nó.
Ngày nay, một số đối tác đã có quyền truy cập vào Voice Engine, bao gồm cả công ty khởi nghiệp Livox, công ty đang phát triển các thiết bị cho phép người khuyết tật giao tiếp tự nhiên hơn. Giám đốc điều hành Carlos Pereira nói với TechCrunch trong khi Livox cuối cùng không thể xây dựng Voice Engine thành một sản phẩm do yêu cầu trực tuyến của công cụ này (nhiều khách hàng của Livox không có Internet), ông nhận thấy công nghệ này "thực sự ấn tượng".
“Chất lượng giọng nói và khả năng giọng nói nói bằng các ngôn ngữ khác nhau là duy nhất — đặc biệt là đối với người khuyết tật, khách hàng của chúng tôi,” Pereira nói với TechCrunch qua email. “Đây thực sự là [công cụ] tạo giọng nói ấn tượng và dễ sử dụng nhất mà tôi từng thấy […] Chúng tôi hy vọng rằng OpenAI sẽ sớm phát triển phiên bản ngoại tuyến.”
Pereira cho biết anh chưa nhận được hướng dẫn từ OpenAI về khả năng ra mắt Voice Engine, cũng như không thấy bất kỳ dấu hiệu nào cho thấy công ty có kế hoạch bắt đầu tính phí dịch vụ. Cho đến nay, Livox chưa phải trả tiền cho việc sử dụng.
Trong bài đăng nói trên vào tháng 6 năm 2024, OpenAI đã ám chỉ rằng một trong những cân nhắc của họ trong việc trì hoãn Voice Engine là khả năng xảy ra lạm dụng trong chu kỳ bầu cử Hoa Kỳ năm ngoái. Được thông báo qua các cuộc thảo luận với các bên liên quan, Voice Engine có một số biện pháp an toàn giảm thiểu, bao gồm cả hình mờ để theo dõi nguồn gốc của âm thanh được tạo ra.
Nhà phát triển phải nhận được “sự đồng ý rõ ràng” từ người nói ban đầu trước khi sử dụng Voice Engine, theo OpenAI, và họ phải “tiết lộ rõ ràng” với khán giả của họ rằng giọng nói được tạo ra bởi AI. Tuy nhiên, công ty chưa cho biết họ thực thi các chính sách này như thế nào. Làm như vậy trên quy mô lớn có thể là thách thức vô cùng lớn, ngay cả đối với một công ty có tài nguyên của OpenAI.
Trong các bài đăng trên blog của mình, OpenAI cũng ngụ ý rằng họ hy vọng xây dựng một “trải nghiệm xác thực giọng nói” để xác minh người nói và “không đi” danh sách ngăn cản việc tạo ra những giọng nói quá giống với những nhân vật nổi bật. Cả hai đều là những dự án đầy tham vọng về mặt công nghệ và việc mắc sai lầm sẽ phản ánh kém cỏi về một công ty thường bị cáo buộc gạt bỏ các sáng kiến an toàn.
Việc lọc và xác minh ID hiệu quả đang nhanh chóng trở thành yêu cầu cơ bản cho các bản phát hành công nghệ nhân bản giọng nói có trách nhiệm. Nhân bản giọng nói AI là trò lừa đảo phát triển nhanh thứ ba trong năm 2024, theo một nguồn. Điều này đã dẫn đến lừa đảo và kiểm tra bảo mật ngân hàng bị bỏ qua khi luật về quyền riêng tư và bản quyền gặp khó khăn trong việc theo kịp. Những kẻ độc hại đã sử dụng tính năng sao chép giọng nói để tạo ra các tác phẩm giả mạo sâu gây cháy nổ của những người nổi tiếng và các chính trị gia và những trò giả mạo sâu đó có lan truyền như cháy rừng trên mạng xã hội.
OpenAI có thể phát hành Voice Engine vào tuần tới — hoặc không bao giờ. Công ty đã nhiều lần nói rằng họ đang cân nhắc việc giữ dịch vụ ở phạm vi nhỏ. Nhưng có một điều rõ ràng: Vì lý do quang học, lý do an toàn hoặc cả hai, bản xem trước giới hạn của Voice Engine đã trở thành một trong những bản xem trước dài nhất trong lịch sử của OpenAI.
Tech Crunch