Trang chủ Trí tuệ nhân tạo (AI) Bộ dữ liệu AI hàng đầu lấy dữ liệu từ BitcoinTalk, Steemit...

Bộ dữ liệu AI hàng đầu lấy dữ liệu từ BitcoinTalk, Steemit và SEC Hoa Kỳ

Colossal Clean Crawled Corpus (C4) là bộ dữ liệu AI được các công ty công nghệ lớn sử dụng, chứa dữ liệu từ nhiều trang web liên quan đến tiền điện tử.

AI

Bộ dữ liệu C4 lấy thông tin từ các trang web tiền điện tử

Washington Post và Allen Institute gần đây đã phân tích bộ dữ liệu C4 chuyên xếp hạng các trang web theo số lượng “token” hoặc đoạn văn bản được lấy từ mỗi nguồn.

Ủy ban Chứng khoán và Giao dịch Hoa Kỳ (SEC) có nội dung về quy định tiền điện tử là một trong những nguồn lớn nhất của bộ dữ liệu. Trang web (sec.gov) xếp hạng 39 và chiếm 36 triệu (tương đương 0,02%) token của C4.

Bitcointalk.org – một diễn đàn thảo luận về blockchain do Satoshi Nakamoto tạo ra xếp hạng 780. Nó chiếm 6,1 triệu (tương đương 0,004%) token của C4.

Các trang web tổng hợp và tin tức về tiền điện tử như Cointelegraph và Coinmarketcap.com cũng được nhắc đến. 8 trang web như vậy chiếm tổng cộng ít nhất 0,008% token của C4, mặc dù các trang web khác có thể tăng tổng số thực.

Các trang web liên quan đến các loại tiền điện tử và sàn giao dịch cụ thể cũng được trình bày trong tập dữ liệu nhưng chiếm một lượng token không đáng kể.

Hai trang web gần với tiền điện tử cũng được xếp hạng cao. IPFS (ipfs.io) xếp hạng 16 trong khi Steemit (steemit.com) xếp hạng 594. Trang web đầu tiên là mạng phân tán từ công ty blockchain Protocol Labs, trong khi trang thứ 2 sử dụng trực tiếp blockchain. Tuy nhiên, các trang web này không nhất thiết chứa nội dung liên quan đến tiền điện tử.

Các trang web chính thống đứng đầu danh sách

Theo Washington Post, bộ dữ liệu C4 được sử dụng trong các mô hình ngôn ngữ AI của các công ty công nghệ lớn như T5 của Google và LLaMA của Facebook.

Mặc dù các trang web trên nằm trong số các trang web liên quan đến tiền điện tử quan trọng nhất của C4, nhưng chúng được xếp hạng cao hơn so với các trang web và nguồn tin tức chính thống, thường bao gồm các chủ đề về tiền điện tử và có khả năng là nguồn chính cho tất cả dữ liệu liên quan đến tiền điện tử.

C4 cũng bị chỉ trích vì chứa ngôn từ kích động thù địch và dữ liệu vi phạm bản quyền. Mặc dù tên của tập dữ liệu gợi ý nó đã được “làm sạch”, nhưng trình biên dịch chỉ sử dụng danh sách 400 từ để kiểm duyệt nội dung cụ thể, nghĩa là nội dung gây tranh cãi vẫn còn nguyên.

Sự hiện diện của các trang web tiền điện tử cũng như sự hiện diện của dữ liệu gây tranh cãi có thể ảnh hưởng đến mức độ sai lệch được thấy trong nội dung do chatbot AI tạo ra.

Reddit, Stack Overflow tính phí thu thập dữ liệu cho các nhà phát triển AI

Reddit và Stack Overflow sẽ tính phí các nhà phát triển AI khi truy cập vào nội dung trang web của họ, Wired cho biết vào ngày 20/4.

Trong một cuộc phỏng vấn, CEO Prashanth Chandrasekar của Stack Overflow cho biết trang web của anh sẽ bắt đầu tính phí các nhà phát triển AI lớn để truy cập vào nội dung của họ.

Stack Overflow nổi tiếng với các diễn đàn cộng đồng hỏi đáp tập trung vào công nghệ. Không rõ trang web có thể tính phí bao nhiêu cho các nhà phát triển để truy cập 50 triệu trang của họ.

Trong một tuyên bố với Wired, Chandrasekar nói rằng:

“Nền tảng cộng đồng thúc đẩy các mô hình ngôn ngữ lớn hoàn toàn nên được trả tiền cho đóng góp của họ để những công ty như chúng tôi có thể tái đầu tư trở lại vào cộng đồng của mình…”

Anh cũng ám chỉ đến các kế hoạch tương tự từ trang mạng xã hội Reddit có ý định tính phí nhà phát triển AI để truy cập vào bài đăng của người dùng. Nhà sáng lập và CEO Steve Huffman của Reddit cũng đã đề cập đến ý định đó với New York Times vào ngày 18/4.

Một số bộ dữ liệu AI nhất định được tạo thành từ dữ liệu thu thập từ khắp nơi trên web. Gần đây, Washington Post đã phân tích các bộ dữ liệu đó và tiết lộ các trang web được trích nguồn thường xuyên nhất — nhiều trang trong số đó có thể sẽ sớm quan tâm đến việc kiếm tiền từ dữ liệu của họ.

Mặc dù không rõ số tiền mà các công ty này nhắm đến hoặc cách họ dự định kiếm tiền từ dữ liệu của mình, nhưng có nhiều nền tảng blockchain tồn tại vì mục đích này.

Fetch.ai là một nền tảng nhằm kiếm tiền từ dữ liệu AI, mặc dù dữ liệu do các ứng dụng AI tạo ra chứ không phải dữ liệu được sử dụng trong các ứng dụng đó. Fetch.ai gần đây đã huy động được 40 triệu đô la và là một trong những dự án lâu đời nhất trong danh mục này do ra mắt vào năm 2019.

SingularityNET xuất hiện cùng thời điểm, cũng nhằm kiếm tiền từ các dịch vụ liên quan đến AI. Họ đã đạt được những thành tựu đáng kể khi ra mắt GPT4 vào giữa tháng 3.

Cũng kiếm tiền từ dữ liệu AI, CryptoGPT là một dự án gần đây gây được tiếng vang tuy đáng ngờ do những tuyên bố đầy tham vọng và thời đại mới hơn.

Tuy nhiên, kiếm tiền dựa trên tiền điện tử là không thực sự cần thiết và có vẻ như nhiều trang web sẽ dựa vào cách kiếm tiền truyền thống.

Tham gia Telegram của Tạp Chí Bitcoin: https://t.me/tapchibitcoinvn

Theo dõi Twitter: https://twitter.com/tapchibtc_io

Theo dõi Tiktok: https://www.tiktok.com/@tapchibitcoin

Minh Anh

Theo AZCoin News

MỚI CẬP NHẬT

AI

Nhà sáng lập Near Protocol: Trí tuệ nhân tạo (AI) sẽ không tiêu diệt...

Các hệ thống Trí tuệ nhân tạo (AI) không có khả năng tiêu diệt loài người trừ khi được lập trình rõ ràng để...

GateToken (GT) là gì? Giới thiệu chi tiết về token gốc của sàn Gate.io

GateToken (GT) là gì? GT (GateToken) là tài sản gốc của GateChain và là token tiện ích của Gate.io. Giá trị của GT chặt chẽ...
Flare Network (FLR) là gì?

Flare Network (FLR) là gì? Layer -1 cho dữ liệu phi tập trung

Flare Network (FLR) là gì?  Flare là một mạng layer 1 ưu tiên khả năng tương tác giữa các blockchain, tức là khả năng hai...

Standard Chartered dự báo Bitcoin có thể đạt mức ATH vào tháng 8

Theo Standard Chartered, giá Bitcoin có thể đạt mức cao nhất mọi thời đại mới vào tháng 8, sau đó tăng lên $100.000 vào...
Nvidia

Nvidia tăng vọt 2.782% sau 5 năm, vượt trội Bitcoin và ETH

Vốn hóa thị trường của Nvidia tăng đáng kinh ngạc 2.782% trong 5 năm qua, vượt qua mức tăng trưởng của cả Bitcoin và...

Mark Cuban kêu gọi SEC Hoa Kỳ điều chỉnh Mẫu S-1 cho các công...

Nhà đầu tư tỷ phú Mark Cuban đã kêu gọi Ủy ban Chứng khoán và Giao dịch Hoa Kỳ (SEC) sửa đổi Mẫu S-1...

Solana memecoin, Billy, tăng vọt lên mức vốn hóa thị trường 117 triệu USD

Memecoin trên Solana, Billy (BILLY), đã vượt qua mức vốn hóa thị trường 100 triệu USD khi chú chó dễ thương này trở thành...
tiền điện tử

Thị trường tiền điện tử có thể chứng kiến “tăng giá giải cứu” sau...

Thị trường tiền điện tử chuẩn bị cho đợt tăng giá giải cứu của Bitcoin và các altcoin theo số liệu on-chain từ công...
ChatGPT

ChatGPT có thể đưa người dùng đến các trang web độc hại

Bởi vì AI tạo sinh đôi khi có thể gây ảo giác, gợi lên thông tin không chính xác hoặc sai lệch nên người...

Tháng 7 có thể đưa Solana lên vị trí tiền điện tử lớn thứ...

Solana (SOL) đã tăng 35% vào năm 2024 và hiện là loại tiền điện tử lớn thứ năm theo vốn hóa thị trường. Tuần...

Đây là 3 token “hot” đã đánh bại mức tăng của Bitcoin trong quý...

Quý thứ hai chứng kiến ​​3 token – Brett (BRETT), TON của Ton Network và KAS của Kaspa – nổi lên như những ngôi...

4 cựu lãnh đạo Apple, Google, Meta, Tesla, X đầu quân cho Worldcoin của...

Tools for Humanity, một đơn vị đóng góp cốt lõi cho dự án tiền điện tử quét nhãn cầu Worldcoin, được đồng sáng lập...
Lif3.com hợp tác với evmOS để triển khai giải pháp “Lif3 Chain”

[QC]Lif3.com hợp tác với evmOS để triển khai giải pháp “Lif3 Chain”, Layer-1 đầu...

Roadtown, Quần đảo Virgin thuộc Anh, ngày 2 tháng 7 năm 2024, Chainwire Lif3.com (LIF3/USD)(LIF3/USDt), hệ sinh thái DeFi Layer-1 tiên tiến hoạt động...

VanEck thừa nhận Solana ETF là một ván cược Donald Trump đắc cử

Trưởng phòng nghiên cứu tài sản kỹ thuật số của VanEck, Matthew Sigel, đã xác nhận suy đoán rằng đề xuất Solana ETF giao ngay của...

Founders Fund đồng dẫn đầu vòng hạt giống 85 triệu đô la cho đối...

Sentient là một nền tảng phát triển trí tuệ nhân tạo (AI) mã nguồn mở với trọng tâm đáng chú ý vào việc phi...

[QC] Dự đoán giá Pepe Unchained (PEPU) năm 2024 – 2030: Liệu nó có...

Pepe Unchained (PEPU) là một token mới được ra mắt nhưng đã gây được tiếng vang lớn với hơn 1,7 triệu USD huy...