Trang chủ Trí tuệ nhân tạo (AI) Công nghệ nhân bản giọng nói AI của Microsoft quá tốt nhưng...

Công nghệ nhân bản giọng nói AI của Microsoft quá tốt nhưng có một nhược điểm

Team nghiên cứu của Microsoft đã tiết lộ VALL-E 2, một hệ thống AI mới để tổng hợp giọng nói có khả năng tạo ra giọng nói “hiệu suất ở cấp độ con người” chỉ với vài giây âm thanh không thể phân biệt được với nguồn.

“VALL-E 2 là tiến bộ mới nhất trong mô hình ngôn ngữ codec thần kinh đánh dấu một cột mốc quan trọng trong quá trình tổng hợp chuyển văn bản thành giọng nói (TTS) không cần mẫu đào tạo, lần đầu tiên đạt được sự ngang bằng với con người”, bài nghiên cứu cho biết.

Hệ thống được xây dựng dựa trên phiên bản tiền nhiệm VALL-E giới thiệu vào đầu năm 2023. Các mô hình ngôn ngữ codec thần kinh biểu diễn giọng nói dưới dạng các chuỗi code.

Team cho biết điều khiến VALL-E 2 khác biệt so với các kỹ thuật nhân bản giọng nói khác là phương pháp “Lấy mẫu nhận biết lặp lại” và chuyển đổi thích ứng giữa các kỹ thuật lấy mẫu. Các chiến lược này cải thiện tính nhất quán và giải quyết vấn đề phổ biến nhất theo cách nói sáng tạo truyền thống.

Các nhà nghiên cứu viết:

“VALL-E 2 tổng hợp giọng nói chất lượng cao một cách nhất quán, ngay cả đối với những câu khó hiểu do độ phức tạp hoặc cụm từ lặp đi lặp lại”, đồng thời chỉ ra rằng công nghệ này có thể giúp tạo ra giọng nói cho những người mất khả năng nói.

Tuy nhiên, công cụ này quá ấn tượng đến mức sẽ không thể cung cấp cho công chúng.

“Hiện tại, chúng tôi không có kế hoạch kết hợp VALL-E 2 vào sản phẩm hoặc mở rộng khả năng tiếp cận công chúng”, Microsoft cho biết trong tuyên bố đầy đạo đức của mình, đồng thời lưu ý rằng các công cụ như vậy mang lại rủi ro như bắt chước giọng nói mà không có sự đồng ý và sử dụng giọng nói AI thuyết phục trong lừa đảo và các hoạt động tội phạm khác.

Team nghiên cứu nhấn mạnh cần có một phương pháp tiêu chuẩn để đánh dấu kỹ thuật số các thế hệ AI, nhận thấy rằng việc phát hiện nội dung do AI tạo ra với độ chính xác cao vẫn là một thách thức.

“Nếu mô hình được khái quát hóa cho những người không nhìn thấy trong thế giới thực, thì nó phải bao gồm một giao thức để đảm bảo người nói chấp thuận việc sử dụng giọng nói của họ và một mô hình phát hiện giọng nói tổng hợp”.

Điều đó nói lên rằng, kết quả của VALL-E 2 rất chính xác so với các công cụ khác. Trong một loạt thử nghiệm do team nghiên cứu thực hiện, VALL-E 2 vượt trội hơn các tiêu chuẩn của con người về độ mạnh mẽ, tự nhiên và độ giống nhau của giọng nói được tạo ra.

Microsoft

Nguồn: Microsoft

VALL-E-2 có thể đạt được những kết quả này chỉ với 3 giây âm thanh. Tuy nhiên, team nghiên cứu lưu ý rằng “sử dụng mẫu giọng nói dài 10 giây thậm chí còn mang lại chất lượng tốt hơn”.

Microsoft không phải là công ty AI duy nhất trình diễn các mô hình AI tiên tiến mà không tung ra thị trường. Voicebox của Meta và Voice Engine của OpenAI là hai công cụ sao chép giọng nói ấn tượng nhưng cũng gặp phải những hạn chế tương tự.

Người phát ngôn của Meta AI nói vào năm ngoái:

“Có nhiều trường hợp sử dụng thú vị đối với các mô hình giọng nói tổng quát, nhưng vì nguy cơ sử dụng sai mục đích, chúng tôi không cung cấp công khai mô hình hoặc code Voicebox vào thời điểm này”.

Ngoài ra, OpenAI giải thích rằng trước tiên họ đang cố gắng giải quyết vấn đề bảo mật trước khi tung ra mô hình giọng nói tổng hợp.

OpenAI giải thích trong một bài đăng trên blog chính thức:

“Theo cách tiếp cận của chúng tôi đối với an toàn AI và các cam kết tự nguyện của chúng tôi, chúng tôi đang chọn xem trước nhưng không phát hành rộng rãi công nghệ trên vào thời điểm này”.

Lời kêu gọi hướng dẫn đạo đức đang lan rộng khắp cộng đồng AI, đặc biệt là khi các cơ quan quản lý bắt đầu nêu lên mối lo ngại về tác động của AI tạo sinh trong cuộc sống hàng ngày của chúng ta.

Tham gia Telegram của Tạp Chí Bitcoin: https://t.me/tapchibitcoinvn

Theo dõi Twitter (X): https://twitter.com/tapchibtc_io

Theo dõi Tiktok: https://www.tiktok.com/@tapchibitcoin  

Đình Đình

Theo Decrypt

MỚI CẬP NHẬT

Xu hướng quỹ tiền tệ được token hóa đang lên ngôi ở Phố Wall

Ngày càng có nhiều trader chuyển đổi tài sản kỹ thuật số của họ sang các stablecoin được neo theo đô la Mỹ hoặc...

Hàn Quốc tăng cường giám sát các giao dịch tiền điện tử xuyên biên...

Bộ trưởng Tài chính Hàn Quốc, Choi Sang-Mok, đã phát biểu tại cuộc họp G20 ở Washington rằng nước này dự kiến sẽ tăng...
satoshi

Tượng Satoshi Nakamoto mới được trình làng tại Thụy Sĩ khi diễn đàn Plan...

Trader nổi tiếng Willy Woo vừa chia sẻ hình ảnh ấn tượng của Thị trưởng thành phố Lugano, Thụy Sĩ, đang giới thiệu bức...

Nghị sĩ French Hill: Gary Gensler nên rời SEC vào năm 2025

Nghị sĩ - French Hill (R-AR) cho biết trong một cuộc phỏng vấn với podcast Thinking Crypto rằng SEC nên có ban lãnh đạo...

Giá Bitcoin đạt $100.000 vào tháng 2/2025 là ‘hoàn toàn hợp lý’: Nhà kinh...

Bitcoin hiện đang trong giai đoạn đầu của một đợt tăng giá, và tài sản này có khả năng đạt 100.000 USD trong ba...

Injective có thể sớm tham gia Artificial Superintelligence Alliance

Injective (INJ) có thể sớm tham gia Artificial Superintelligence (ASI) Alliance, cùng với Fetch.ai, SingularityNET và Ocean Protocol. Sự kiện này diễn ra trong bối...

Chiến lược Bitcoin của Metaplanet mang lại lợi nhuận 116% cho các cổ đông

Metaplanet, công ty đầu tư niêm yết tại Tokyo, vừa công bố rằng hoạt động mua Bitcoin liên tục của họ đã mang lại...

Bitcoin đã sinh lời trong 98,48% thời gian kể từ khi ra mắt

Bitcoin đã liên tục chứng minh là một tài sản có giá trị lâu dài, với phần lớn các ngày đều mang lại lợi nhuận...

Tin vắn Crypto 25/10: Bitcoin đang trên đà hướng tới mức ATH mới cùng...

Từ nhận định Bitcoin đang trên đà hướng tới mức ATH mới đến XRP đang trên đà hình thành death cross. Sau đây là...
Aqua Doge huy động được 200.000 đô la vào ngày đầu tiên của đợt presale

Aqua Doge huy động được 200.000 đô la vào ngày đầu tiên của đợt...

Aqua Doge - một token theo chủ đề Doge - vừa ra mắt đợt presale và huy động được hơn 200.000 USD trong vòng...

Thị trường tiền điện tử Thái Lan đang chuyển hướng khỏi bán lẻ

Giám đốc điều hành của Binance Thái Lan cho biết thị trường tài sản kỹ thuật số tại Thái Lan đang trong quá trình...

MAGA và TREMP đều tăng trưởng 100 lần, liệu DUM có làm được điều...

 Chỉ còn 12 ngày nữa là đến cuộc bầu cử Tổng thống Mỹ và FreeDum Fighters (DUM) được cho là cơ hội x100 tài...

33.000 nhà đầu tư crypto Hàn Quốc bị kẹt 13 triệu đô la trên...

Theo báo cáo từ The Korea Times vào ngày 14 tháng 10, hơn 33.000 nhà đầu tư tiền điện tử tại Hàn Quốc hiện...

Trader sở hữu 4 tài khoản cá voi Polymarket ủng hộ Trump là một...

Phát ngôn viên của Polymarket đã xác nhận rằng cá voi chịu trách nhiệm cho 28 triệu đô la trong các vị thế giao...

Quá sớm để nói Layer 2 của ‘ăn mòn’ doanh thu Ethereum: Sygnum Bank

Lo ngại rằng các giải pháp mở rộng layer-2 có thể làm suy giảm doanh thu từ mainnet Ethereum và gây áp lực lên...

Hà Lan thu thập ý kiến công chúng về luật giám sát thuế tiền...

Cơ quan thuế Hà Lan vừa bắt đầu trưng cầu ý kiến công chúng về dự thảo luật yêu cầu các công ty tiền...