OpenAI giới thiệu bộ AI giọng nói đa ngôn ngữ cho doanh nghiệp
OpenAI giới thiệu bộ AI giọng nói đa ngôn ngữ mới, hỗ trợ dịch trực tiếp, phiên âm và trò chuyện thời gian thực cho doanh nghiệp, người dùng toàn cầu.
Theo công bố ngày 7.5 theo giờ địa phương, các mô hình mới được tích hợp trong API (giao diện lập trình ứng dụng) của OpenAI cho phép nhà phát triển xây dựng ứng dụng có thể trò chuyện, dịch và ghi chép hội thoại trực tiếp ngay khi người dùng đang nói. Đây được xem là bước tiến quan trọng trong cuộc đua phát triển AI giọng nói thời gian thực.
Bộ mô hình mới gồm ba sản phẩm chính là GPT-Realtime-2, GPT-Realtime-Translate và GPT-Realtime-Whisper.
Trong đó, GPT-Realtime-2 được tích hợp khả năng suy luận ở cấp độ GPT-5, giúp AI xử lý các yêu cầu phức tạp hơn và duy trì hội thoại tự nhiên hơn với người dùng.
OpenAI cho biết mô hình này có thể hiểu ngữ cảnh cuộc trò chuyện, thích ứng khi yêu cầu thay đổi và phản hồi phù hợp theo từng tình huống.
Mô hình thứ hai là GPT-Realtime-Translate, tập trung vào dịch thuật giọng nói trực tiếp. Công nghệ này hỗ trợ hơn 70 ngôn ngữ đầu vào và khoảng 13 ngôn ngữ đầu ra.
Điểm đáng chú ý là hệ thống có thể dịch gần như đồng thời với lời nói gốc, đồng thời giữ được tốc độ và nhịp điệu tự nhiên của người nói.
Trong khi đó, GPT-Realtime-Whisper là mô hình chuyển đổi giọng nói thành văn bản trực tuyến mới, có khả năng ghi lại lời nói trực tiếp khi cuộc hội thoại đang diễn ra.
OpenAI cho rằng AI giọng nói hiện là một trong những cách tương tác phổ biến nhất giữa con người với phần mềm.
Tuy nhiên, việc xây dựng các sản phẩm giọng nói thực tế vẫn rất phức tạp vì AI không chỉ cần nghe hiểu mà còn phải theo dõi ngữ cảnh, sử dụng công cụ phù hợp và phản hồi đúng thời điểm.
“Các mô hình mới sẽ đưa âm thanh thời gian thực vượt khỏi hình thức hỏi đáp đơn giản để trở thành giao diện giọng nói có thể lắng nghe, suy luận, dịch, ghi chép và hành động ngay trong lúc cuộc hội thoại diễn ra”, OpenAI cho biết trên blog chính thức.
Công ty kỳ vọng công nghệ mới sẽ hỗ trợ mạnh cho các doanh nghiệp muốn mở rộng dịch vụ chăm sóc khách hàng tự động.
Ngoài ra, AI giọng nói thời gian thực cũng có thể được ứng dụng trong nhiều lĩnh vực như giáo dục, truyền thông, tổ chức sự kiện và các nền tảng sáng tạo nội dung.
Tại những quốc gia đa ngôn ngữ như Ấn Độ, công nghệ dịch trực tiếp được xem là đặc biệt hữu ích. Các mô hình mới cho phép nhiều người sử dụng ngôn ngữ khác nhau trong cùng một cuộc trò chuyện, đồng thời nghe bản dịch theo thời gian thực và theo dõi bản ghi văn bản trực tiếp.
Prateek Sachan, đồng sáng lập kiêm Giám đốc công nghệ của BolnaAI (công ty công nghệ chuyên phát triển nền tảng AI giọng nói cho doanh nghiệp của Ấn Độ), cho biết GPT-Realtime-Translate đạt tỉ lệ lỗi thấp hơn 12,5% so với nhiều mô hình khác mà công ty từng thử nghiệm trên các ngôn ngữ như Hindi, Tamil và Telugu.
Theo ông Sachan, công nghệ mới của OpenAI đang thiết lập một tiêu chuẩn mới cho AI giọng nói đa ngôn ngữ, đặc biệt trong các thị trường có hệ thống ngữ âm và giọng địa phương phức tạp.
Đọc bản gốc tại đây