Trang chủ Trí tuệ nhân tạo (AI) Công nghệ nhân bản giọng nói AI của Microsoft quá tốt nhưng...

Công nghệ nhân bản giọng nói AI của Microsoft quá tốt nhưng có một nhược điểm

Team nghiên cứu của Microsoft đã tiết lộ VALL-E 2, một hệ thống AI mới để tổng hợp giọng nói có khả năng tạo ra giọng nói “hiệu suất ở cấp độ con người” chỉ với vài giây âm thanh không thể phân biệt được với nguồn.

“VALL-E 2 là tiến bộ mới nhất trong mô hình ngôn ngữ codec thần kinh đánh dấu một cột mốc quan trọng trong quá trình tổng hợp chuyển văn bản thành giọng nói (TTS) không cần mẫu đào tạo, lần đầu tiên đạt được sự ngang bằng với con người”, bài nghiên cứu cho biết.

Hệ thống được xây dựng dựa trên phiên bản tiền nhiệm VALL-E giới thiệu vào đầu năm 2023. Các mô hình ngôn ngữ codec thần kinh biểu diễn giọng nói dưới dạng các chuỗi code.

Team cho biết điều khiến VALL-E 2 khác biệt so với các kỹ thuật nhân bản giọng nói khác là phương pháp “Lấy mẫu nhận biết lặp lại” và chuyển đổi thích ứng giữa các kỹ thuật lấy mẫu. Các chiến lược này cải thiện tính nhất quán và giải quyết vấn đề phổ biến nhất theo cách nói sáng tạo truyền thống.

Các nhà nghiên cứu viết:

“VALL-E 2 tổng hợp giọng nói chất lượng cao một cách nhất quán, ngay cả đối với những câu khó hiểu do độ phức tạp hoặc cụm từ lặp đi lặp lại”, đồng thời chỉ ra rằng công nghệ này có thể giúp tạo ra giọng nói cho những người mất khả năng nói.

Tuy nhiên, công cụ này quá ấn tượng đến mức sẽ không thể cung cấp cho công chúng.

“Hiện tại, chúng tôi không có kế hoạch kết hợp VALL-E 2 vào sản phẩm hoặc mở rộng khả năng tiếp cận công chúng”, Microsoft cho biết trong tuyên bố đầy đạo đức của mình, đồng thời lưu ý rằng các công cụ như vậy mang lại rủi ro như bắt chước giọng nói mà không có sự đồng ý và sử dụng giọng nói AI thuyết phục trong lừa đảo và các hoạt động tội phạm khác.

Team nghiên cứu nhấn mạnh cần có một phương pháp tiêu chuẩn để đánh dấu kỹ thuật số các thế hệ AI, nhận thấy rằng việc phát hiện nội dung do AI tạo ra với độ chính xác cao vẫn là một thách thức.

“Nếu mô hình được khái quát hóa cho những người không nhìn thấy trong thế giới thực, thì nó phải bao gồm một giao thức để đảm bảo người nói chấp thuận việc sử dụng giọng nói của họ và một mô hình phát hiện giọng nói tổng hợp”.

Điều đó nói lên rằng, kết quả của VALL-E 2 rất chính xác so với các công cụ khác. Trong một loạt thử nghiệm do team nghiên cứu thực hiện, VALL-E 2 vượt trội hơn các tiêu chuẩn của con người về độ mạnh mẽ, tự nhiên và độ giống nhau của giọng nói được tạo ra.

Microsoft

Nguồn: Microsoft

VALL-E-2 có thể đạt được những kết quả này chỉ với 3 giây âm thanh. Tuy nhiên, team nghiên cứu lưu ý rằng “sử dụng mẫu giọng nói dài 10 giây thậm chí còn mang lại chất lượng tốt hơn”.

Microsoft không phải là công ty AI duy nhất trình diễn các mô hình AI tiên tiến mà không tung ra thị trường. Voicebox của Meta và Voice Engine của OpenAI là hai công cụ sao chép giọng nói ấn tượng nhưng cũng gặp phải những hạn chế tương tự.

Người phát ngôn của Meta AI nói vào năm ngoái:

“Có nhiều trường hợp sử dụng thú vị đối với các mô hình giọng nói tổng quát, nhưng vì nguy cơ sử dụng sai mục đích, chúng tôi không cung cấp công khai mô hình hoặc code Voicebox vào thời điểm này”.

Ngoài ra, OpenAI giải thích rằng trước tiên họ đang cố gắng giải quyết vấn đề bảo mật trước khi tung ra mô hình giọng nói tổng hợp.

OpenAI giải thích trong một bài đăng trên blog chính thức:

“Theo cách tiếp cận của chúng tôi đối với an toàn AI và các cam kết tự nguyện của chúng tôi, chúng tôi đang chọn xem trước nhưng không phát hành rộng rãi công nghệ trên vào thời điểm này”.

Lời kêu gọi hướng dẫn đạo đức đang lan rộng khắp cộng đồng AI, đặc biệt là khi các cơ quan quản lý bắt đầu nêu lên mối lo ngại về tác động của AI tạo sinh trong cuộc sống hàng ngày của chúng ta.

Tham gia Telegram của Tạp Chí Bitcoin: https://t.me/tapchibitcoinvn

Theo dõi Twitter (X): https://twitter.com/tapchibtc_io

Theo dõi Tiktok: https://www.tiktok.com/@tapchibitcoin  

Đình Đình

Theo Decrypt

MỚI CẬP NHẬT

Trader có thể chuẩn bị quay trở lại khi hoạt động USDT đạt mức cao nhất trong 6 tháng

Trader có thể chuẩn bị quay trở lại khi hoạt động USDT đạt mức...

Hoạt động on-chain của Tether (USDT) đã đạt mức cao nhất trong sáu tháng qua, cho thấy tín hiệu rằng các trader đang chuẩn...

Bitcoin (BTC) đã đạt đỉnh chu kỳ hay chưa?

Bitcoin (BTC) đang ở thời điểm quan trọng trong chu kỳ hiện tại, với những dấu hiệu cho thấy nó có thể đang phân...
Web3

Các startup Web3 Ấn Độ huy động 564 triệu đô la, cộng đồng nhà...

Các starup Web3 của Ấn Độ cho thấy sự tăng trưởng đáng kể trong hoạt động đầu tư vào năm 2024, huy động được...

Thị trường crypto không giữ được đà tăng giá sau dữ liệu lạm phát...

Thị trường crypto hầu như đi ngang trong ngày, khi đợt tăng giá ngắn ngủi sau khi Hoa Kỳ công bố dữ liệu lạm...

Một trader bị tấn công Sandwich trong giao dịch swap stablecoin, mất 215.000 đô...

Vào ngày 12 tháng 3, một trader đã trở thành nạn nhân của một cuộc tấn công "sandwich", khiến giao dịch stablecoin trị giá...
Cá voi và thợ đào Bitcoin đang có ý kiến trái chiều về thị trường

Cá voi và thợ đào Bitcoin đang bất đồng quan điểm về thị trường...

Cá voi Bitcoin (BTC) trên sàn Binance dường như đang giảm bớt áp lực bán, nhưng sự gia tăng khả năng bán ra từ...

PEPE bứt phá mạnh mẽ, vượt mặt DOGE và SHIB khi thị trường có...

Giá PEPE đã lần đầu tiên vượt mốc $0,00007 trong tuần này, phản ánh sự lạc quan của thị trường trước các tín hiệu...

Luật sư Argentina kêu gọi bắt giữ Hayden Davis liên quan đến bê bối...

Vụ bê bối tiền điện tử LIBRA, vốn đã gây chấn động chính trường Argentina, bước sang giai đoạn mới trong tuần này khi...
Việt Nam hợp tác với Singapore xây dựng khung pháp lý quản lý tài sản số

Việt Nam hợp tác với Singapore xây dựng khung pháp lý quản lý tài...

Trong khuôn khổ chuyến thăm chính thức Singapore từ ngày 11 đến 13/3 của Tổng Bí thư Tô Lâm, dưới sự chứng kiến của...
hype-giam

Hyperliquid (HYPE) chạm đáy 3 tháng dù doanh thu vẫn đạt hàng triệu đô

Hyperliquid hiện là một trong những nền tảng có lợi nhuận cao nhất trong lĩnh vực tiền điện tử, nhưng giá của nó vẫn...

SEC Hoa Kỳ hoãn phán quyết về quyền chọn Fidelity Ethereum ETF

Ủy ban Chứng khoán và Giao dịch Hoa Kỳ (SEC) đã hoãn quyết định về việc có cho phép Cboe BZX Exchange niêm yết...
Top 3 đồng coin AI mà các ví Smart Money đang tích lũy

Top 3 đồng coin AI đang được ví Smart Money tích lũy

Trong những tuần gần đây, thị trường coin AI đã trải qua nhiều biến động mạnh mẽ. Tuy nhiên, bất chấp sự sụt giảm...
ngay-13-3-phan-tich

Phân tích kỹ thuật ngày 13 tháng 3: BTC, ETH, XRP, BNB, SOL, ADA,...

Bitcoin đã bật tăng từ mức $76.606 vào ngày 11 tháng 3, nhưng phe bò không thể duy trì giá trên $84.500 vào ngày...

Blockaid bắt tay với Sui Foundation nhằm nâng cao bảo mật

Blockaid vừa công bố hợp tác chiến lược với Sui Foundation nhằm củng cố mức độ an toàn cho hệ sinh thái Sui. Theo thông...

Sự thống trị của Bitcoin đạt mức cao mới, các altcoin mờ nhạt

Sự thống trị của Bitcoin (BTC) đã đạt đến đỉnh cao mới khi đợt tăng giá ngắn ngủi của altcoin tan biến, theo dữ...

SEC có thể sắp kết thúc vụ kiện kéo dài hơn 4 năm với...

Ủy ban Chứng khoán và Giao dịch Hoa Kỳ (SEC) có thể đang chuẩn bị khép lại vụ kiện kéo dài hơn bốn năm...