ElevenLabs đang tung ra mô hình chuyển giọng nói thành văn bản của riêng mình
By Sumo Tech
Th02 27, 2025
Share this:
ElevenLabs, một công ty khởi nghiệp về AI vừa gây dựng được Vòng tài trợ lớn trị giá 180 triệu đô la, chủ yếu được biết đến nhờ khả năng tạo âm thanh. Công ty đã thực hiện một bước đi theo hướng công nghệ khác bằng cách tung ra mô hình chuyển giọng nói thành văn bản độc lập đầu tiên có tên là Scribe.
Công ty khởi nghiệp trị giá 3,3 tỷ USD, đã hỗ trợ nhiều công ty khác trong việc cung cấp dịch vụ chuyển giọng nói thành văn bản thông qua thư viện giọng nói rộng lớn của nó. Tuy nhiên, công ty hiện đang tìm cách tham gia vào lĩnh vực phát hiện giọng nói và cạnh tranh với những công ty như Gladia, Speechmatics, AssemblyAI, Deepgram và các mô hình Whisper của OpenAI.
Mô hình Scribe của ElevenLabs hỗ trợ hơn 99 ngôn ngữ khi ra mắt. Công ty phân loại hơn 25 ngôn ngữ ở loại có độ chính xác tuyệt vời cho mô hình có tỷ lệ lỗi từ dưới 5%. Danh sách này bao gồm tiếng Anh (tỷ lệ chính xác được xác nhận là 97%), tiếng Pháp, tiếng Đức, tiếng Hindi, tiếng Indonesia, tiếng Nhật, tiếng Kannada, tiếng Malayalam, tiếng Ba Lan, tiếng Bồ Đào Nha, tiếng Tây Ban Nha và tiếng Việt. Các ngôn ngữ khác được xếp hạng theo các hạng mục khác nhau với tỷ lệ lỗi từ cao (tỷ lệ lỗi từ 5% đến 10%), tỷ lệ lỗi từ tốt (tỷ lệ lỗi từ 10% đến 20%) và tỷ lệ lỗi từ trung bình (25% đến 50%).
Công ty cho biết mô hình này hoạt động tốt hơn Google Gemini 2.0 Flash và Whisper Large V3 trên nhiều ngôn ngữ trong FLEURS & Bài kiểm tra điểm chuẩn của Common Voice.
Tín dụng hình ảnh:ElevenLabs
ElevenLabs đã phát triển thành phần chuyển lời nói thành văn bản cho nền tảng tác nhân đàm thoại AI, được phát hành vào năm ngoái. Tuy nhiên, đây là lần đầu tiên công ty phát hành một mô hình phát hiện giọng nói độc lập. Trong cuộc trò chuyện với TechCrunch vào tháng trước, CEO Mati Staniszewski đã nói về việc cải thiện các mô hình phát hiện giọng nói.
“Chúng tôi muốn hiểu rõ hơn những gì bạn nói trong cuộc trò chuyện," Staniszewski cho biết vào thời điểm đó. “Nhiều người nói rằng việc chuyển lời nói thành văn bản đã giải quyết được vấn đề. Nhưng đối với nhiều ngôn ngữ, nó khá tệ. Chúng tôi nghĩ rằng chúng tôi có thể xây dựng các mô hình phát hiện giọng nói tốt hơn vì chúng tôi có các nhóm nội bộ để chú thích dữ liệu và cung cấp cho chúng tôi phản hồi nhanh chóng.”
Mô hình này còn có tính năng ghi nhật ký loa thông minh để cho bạn biết ai đang nói, dấu thời gian ở cấp độ từ để có phụ đề chính xác và tự động gắn thẻ các sự kiện âm thanh như tiếng cười của khán giả. Công ty khởi nghiệp này đang cung cấp một phương pháp để khách hàng có thể chép lại trực tiếp nội dung video để thêm phụ đề vào studio của mình.
Scribe hiện chỉ hoạt động với các định dạng âm thanh được ghi sẵn. Công ty cho biết họ sẽ sớm phát hành phiên bản thời gian thực có độ trễ thấp của mô hình này. Điều đó có nghĩa là nó chưa hiệu quả cho việc ghi chép cuộc họp hoặc ghi chú bằng giọng nói.
ElevenLabs đang định giá Scribe ở mức 0,40 USD cho một giờ ghi âm. Mặc dù giá cả cạnh tranh nhưng một số đối thủ của họđưa ra mức giá thấp hơn cho bản chép lời âm thanh vào thời điểm hiện tại với một số điểm khác biệt về tính năng.
ElevenLabs, một công ty khởi nghiệp trong lĩnh vực trí tuệ nhân tạo, vừa công bố ra mắt mô hình chuyển giọng nói thành văn bản độc lập đầu tiên mang tên Scribe, sau khi thu hút được 180 triệu đô la từ vòng tài trợ mới. Mô hình Scribe...
ElevenLabs, một công ty khởi nghiệp trong lĩnh vực trí tuệ nhân tạo, vừa công bố ra mắt mô hình chuyển giọng nói thành văn bản độc lập đầu tiên mang tên Scribe, sau khi thu hút được 180 triệu đô la từ vòng tài trợ mới. Mô hình Scribe...