Trang chủ Trí tuệ nhân tạo (AI) Công nghệ nhân bản giọng nói AI của Microsoft quá tốt nhưng...

Công nghệ nhân bản giọng nói AI của Microsoft quá tốt nhưng có một nhược điểm

Team nghiên cứu của Microsoft đã tiết lộ VALL-E 2, một hệ thống AI mới để tổng hợp giọng nói có khả năng tạo ra giọng nói “hiệu suất ở cấp độ con người” chỉ với vài giây âm thanh không thể phân biệt được với nguồn.

“VALL-E 2 là tiến bộ mới nhất trong mô hình ngôn ngữ codec thần kinh đánh dấu một cột mốc quan trọng trong quá trình tổng hợp chuyển văn bản thành giọng nói (TTS) không cần mẫu đào tạo, lần đầu tiên đạt được sự ngang bằng với con người”, bài nghiên cứu cho biết.

Hệ thống được xây dựng dựa trên phiên bản tiền nhiệm VALL-E giới thiệu vào đầu năm 2023. Các mô hình ngôn ngữ codec thần kinh biểu diễn giọng nói dưới dạng các chuỗi code.

Team cho biết điều khiến VALL-E 2 khác biệt so với các kỹ thuật nhân bản giọng nói khác là phương pháp “Lấy mẫu nhận biết lặp lại” và chuyển đổi thích ứng giữa các kỹ thuật lấy mẫu. Các chiến lược này cải thiện tính nhất quán và giải quyết vấn đề phổ biến nhất theo cách nói sáng tạo truyền thống.

Các nhà nghiên cứu viết:

“VALL-E 2 tổng hợp giọng nói chất lượng cao một cách nhất quán, ngay cả đối với những câu khó hiểu do độ phức tạp hoặc cụm từ lặp đi lặp lại”, đồng thời chỉ ra rằng công nghệ này có thể giúp tạo ra giọng nói cho những người mất khả năng nói.

Tuy nhiên, công cụ này quá ấn tượng đến mức sẽ không thể cung cấp cho công chúng.

“Hiện tại, chúng tôi không có kế hoạch kết hợp VALL-E 2 vào sản phẩm hoặc mở rộng khả năng tiếp cận công chúng”, Microsoft cho biết trong tuyên bố đầy đạo đức của mình, đồng thời lưu ý rằng các công cụ như vậy mang lại rủi ro như bắt chước giọng nói mà không có sự đồng ý và sử dụng giọng nói AI thuyết phục trong lừa đảo và các hoạt động tội phạm khác.

Team nghiên cứu nhấn mạnh cần có một phương pháp tiêu chuẩn để đánh dấu kỹ thuật số các thế hệ AI, nhận thấy rằng việc phát hiện nội dung do AI tạo ra với độ chính xác cao vẫn là một thách thức.

“Nếu mô hình được khái quát hóa cho những người không nhìn thấy trong thế giới thực, thì nó phải bao gồm một giao thức để đảm bảo người nói chấp thuận việc sử dụng giọng nói của họ và một mô hình phát hiện giọng nói tổng hợp”.

Điều đó nói lên rằng, kết quả của VALL-E 2 rất chính xác so với các công cụ khác. Trong một loạt thử nghiệm do team nghiên cứu thực hiện, VALL-E 2 vượt trội hơn các tiêu chuẩn của con người về độ mạnh mẽ, tự nhiên và độ giống nhau của giọng nói được tạo ra.

Microsoft

Nguồn: Microsoft

VALL-E-2 có thể đạt được những kết quả này chỉ với 3 giây âm thanh. Tuy nhiên, team nghiên cứu lưu ý rằng “sử dụng mẫu giọng nói dài 10 giây thậm chí còn mang lại chất lượng tốt hơn”.

Microsoft không phải là công ty AI duy nhất trình diễn các mô hình AI tiên tiến mà không tung ra thị trường. Voicebox của Meta và Voice Engine của OpenAI là hai công cụ sao chép giọng nói ấn tượng nhưng cũng gặp phải những hạn chế tương tự.

Người phát ngôn của Meta AI nói vào năm ngoái:

“Có nhiều trường hợp sử dụng thú vị đối với các mô hình giọng nói tổng quát, nhưng vì nguy cơ sử dụng sai mục đích, chúng tôi không cung cấp công khai mô hình hoặc code Voicebox vào thời điểm này”.

Ngoài ra, OpenAI giải thích rằng trước tiên họ đang cố gắng giải quyết vấn đề bảo mật trước khi tung ra mô hình giọng nói tổng hợp.

OpenAI giải thích trong một bài đăng trên blog chính thức:

“Theo cách tiếp cận của chúng tôi đối với an toàn AI và các cam kết tự nguyện của chúng tôi, chúng tôi đang chọn xem trước nhưng không phát hành rộng rãi công nghệ trên vào thời điểm này”.

Lời kêu gọi hướng dẫn đạo đức đang lan rộng khắp cộng đồng AI, đặc biệt là khi các cơ quan quản lý bắt đầu nêu lên mối lo ngại về tác động của AI tạo sinh trong cuộc sống hàng ngày của chúng ta.

Tham gia Telegram của Tạp Chí Bitcoin: https://t.me/tapchibitcoinvn

Theo dõi Twitter (X): https://twitter.com/tapchibtc_io

Theo dõi Tiktok: https://www.tiktok.com/@tapchibitcoin  

Đình Đình

Theo Decrypt

MỚI CẬP NHẬT

Tòa án Hoa Kỳ ra phán quyết SEC vượt quá thẩm quyền, hủy bỏ...

Một tòa án liên bang đã hủy bỏ quy định gây tranh cãi liên quan đến 'dealer - đại lý' của Ủy ban Chứng...
TruthFi

Trump Media tiết lộ tham vọng về giao dịch và thanh toán tiền điện...

Công ty truyền thông xã hội Trump Media and Technology Group (TMTG) của Tổng thống đắc cử Donald Trump đã tiết lộ tham vọng...

Ngành công nghiệp crypto tranh giành vị trí trong hội đồng cố vấn của...

Nhiều công ty crypto hàng đầu, bao gồm Ripple, Kraken và Circle, đang tích cực tìm kiếm vị trí trong hội đồng cố vấn...

BiT Global tuyên bố Coinbase delist wBTC để đạt được ‘lợi thế cạnh tranh’...

BiT Global cáo buộc Coinbase delist Wrapped Bitcoin (wBTC) nhằm củng cố “lợi thế cạnh tranh” cho sản phẩm Bitcoin wrapped độc quyền của...
MicroStrategy-bong-bong-bitcoin

MicroStrategy có tạo nên bong bóng Bitcoin không?

Chiến lược mua Bitcoin (BTC) của MicroStrategy đã thu hút sự chú ý từ các nhà đầu tư, nhưng liệu nó có khả thi...

Quai Network ra mắt testnet cuối cùng với phần thưởng 10 triệu token QUAI

Quai Network đã chính thức ra mắt testnet cuối cùng, đánh dấu bước tiến quan trọng trong quá trình phát triển của nền tảng....

Solana vượt $260 để đạt mức giá cao nhất mọi thời đại mới sau...

Sau ba năm dài, Solana đã chính thức vượt qua mức giá cao nhất mọi thời đại, thiết lập cột mốc mới trên 260 USD...

CEO Galaxy Digital cho rằng việc Bitcoin đạt $100.000 chỉ là “mới bắt đầu”

Mike Novogratz, CEO của Galaxy Digital, tin rằng mức giá $100.000 của Bitcoin chỉ mới là "bắt đầu" đối với vua tiền điện tử...
rektcoin-aidrop-chay-hang

Rekt Coin ra mắt cùng airdrop sau khi Rekt Drink cháy hàng

Rekt Brands vừa thông báo rằng token của họ, REKT, sẽ chính thức ra mắt vào lúc 17 giờ chiều thứ Sáu (giờ Việt...

Dự đoán giá Cardano (ADA) cho tháng 11 năm 2024

Bên cạnh mức tăng ấn tượng gần 50% trong tuần qua để quay lại Top 10 đồng coin lớn nhất thị trường, Cardano (ADA) đang...

Hội đồng cố vấn tiền điện tử do Trump đề xuất có thể thành...

Hội đồng Cố vấn Tiền điện tử do Tổng thống đắc cử Donald Trump đề xuất có thể thành lập một quỹ dự trữ...

Giá Coin hôm nay 22/11: Bitcoin lập đỉnh mới trên $99.000, altcoin và phố...

Bitcoin tiếp tục lập đỉnh mới tại $99.014 sau khi tăng vọt hơn 4% trong ngày hôm qua. Chứng khoán Mỹ Hợp đồng futures trên thị...

FTX kỳ vọng kế hoạch tái cấu trúc sẽ có hiệu lực vào tháng...

Sàn giao dịch FTX, sau khi nộp đơn xin phá sản vào năm 2022, hôm nay thông báo rằng kế hoạch tái cấu trúc...

SEC đang tham gia với các đơn vị đăng ký ETF Solana

Triển vọng cho các quỹ ETF Solana giao ngay đang có những bước tiến đáng kể, khi Ủy ban Chứng khoán và Giao dịch...
MicroStrategy hoàn tất việc huy động 3 tỷ đô la để mua thêm Bitcoin khi MSTR giảm 25%

MicroStrategy hoàn tất việc huy động 3 tỷ đô la để mua thêm Bitcoin

MicroStrategy (MSTR) hoàn tất đợt phát hành trái phiếu chuyển đổi 3 tỷ USD với lãi suất 0%, đáo hạn vào tháng 12/2029, dự...

Tài sản ròng của các quỹ Bitcoin ETF tại Hoa Kỳ chính thức vượt...

Các quỹ Bitcoin ETF của Hoa Kỳ đã phá vỡ 100 tỷ đô la tài sản ròng lần đầu tiên vào ngày 21 tháng...