Chơi poker liên quan đến việc xử lý thông tin không hoàn hảo, điều này làm cho trò chơi trở nên rất phức tạp và giống như nhiều tình huống trong thế giới thực hơn.
Như Kenny Rogers đã từng nói rằng người ta nên “biết khi nào nắm giữ họ, biết khi nào cần đánh ra trong bản “hit” The Gambler” năm 1978 tại Casino Rivers ở Pittsburgh tuần này, một chương trình máy tính được gọi là Libratus cuối cùng có thể chứng minh rằng máy tính có thể làm điều này tốt hơn so với bất kỳ người chơi bài nào.
Libratus đang chơi hàng ngàn trò chơi khác nhau ở Texas với một số người chơi poker chuyên nghiệp. Sau khoảng hơn một nửa cuộc hành trình trong 20 ngày, Libratus đã lãi 800.000 đô la so với các đối thủ của con người. Chiến thắng dành cho Libratus cũng chưa chắc đã được đảm bảo.
Một chiến thắng cho Libratus sẽ là một thành tựu to lớn trong công nghệ trí tuệ nhân tạo. Poker yêu cầu lý luận và trí thông minh, rất khó cho các máy móc bắt chước. Về cơ bản, nó khác với cờ đam, cờ vua hoặc Go, bởi vì đối thủ vẫn là một ẩn số trong khi chơi. Trong các trò chơi “thông tin không hoàn hảo”, sẽ vô cùng phức tạp để tìm ra chiến lược lý tưởng cho mọi cách tiếp cận mà đối thủ của bạn có thể đang dùng. Và với thể lệ không giới hạn ở Texas thì trò chơi càng trở nên đặc biệt khó khăn bởi vì một đối thủ về cơ bản có thể đặt cược bao nhiêu cũng được.
Andrew Ng, nhà khoa học tại Baidu nói:
“Poker là một trong những trò chơi khó khăn nhất cho AI để chiến thắng. Không có con đường tối ưu duy nhất, mà thay vào đó AI phải ngẫu nhiên các hành động của mình để làm cho các đối thủ không chắc chắn liệu nó có đang đánh lừa hay không”.
Libratus được tạo ra bởi Tuomas Sandholm, một giáo sư trong ngành khoa khoa học máy tính tại CMU và là sinh viên tốt nghiệp Noam Brown. Sandholm, một chuyên gia về lý thuyết trò chơi và AI nói rằng thật đáng kinh ngạc khi con người đã có thể chiến thắng máy tính quá lâu. Trong tất cả các trò chơi mà AI đã giải quyết, poker là trò duy nhất mà AI đã không đạt được hiệu suất siêu nhân”.
Các nhà nghiên cứu AI sử dụng lý thuyết trò chơi hoặc toán học để tìm ra chiến lược tốt nhất với những bất ổn khác nhau, được gọi là trạng thái cân bằng. Bởi vì các khả năng rất rộng lớn nên kết quả thường cho ra một số dạng xấp xỉ.
Vincent Conitzer, giáo sư tại Đại học Duke nói:
“Một nước đi là tốt hay không phụ thuộc vào những điều mà bạn không thể quan sát. Điều này khiến cho các diễn biến không thể đoán trước được. Nếu bạn không bao giờ lừa, bạn không phải là người chơi giỏi. Nếu bạn luôn luôn lừa, bạn cũng không phải là người chơi giỏi. Lý thuyết trò chơi cho bạn biết cách ngẫu nhiên hóa cách chơi của bạn theo cách tối ưu”.
Năm ngoái, Sandholm đã phát triển một chương trình chơi bài poker được gọi là Claudico. Chương trình này đã bị đánh bại trong các trận đấu với một số người chơi poker chuyên nghiệp. Ông giải thích rằng Libratus sử dụng một số tiến bộ mới để đạt được mức độ chơi cao như vậy. Điều này bao gồm một kỹ thuật tính toán xấp xỉ điểm cân bằng mới cũng như một số phương pháp mới để phân tích các kết quả có thể xảy ra khi các lá bài được tiết lộ ở các giai đoạn sau của trò chơi. Phân tích kết thúc trò chơi rất khó khăn và được thực hiện trong mỗi trận đấu tại Trung tâm Supercomputing Pittsburgh, một cơ sở được điều hành bởi CMU và Đại học Pittsburgh.
Những tiến bộ trong machine learning và AI đã cho ra một số chương trình chơi game siêu phàm xuất hiện gần đây. Năm ngoái, các nhà nghiên cứu tại DeepMind, một công ty con của Alphabet, đã phát triển một chương trình có khả năng đánh bại một trong những người chơi Go tốt nhất thế giới. Thành tích này rất ngoạn mục bởi vì Go cực kỳ phức tạp và bởi vì thật khó để đánh giá diễn biến trong trò chơi.
Một vài nhóm nghiên cứu khác nhau tập trung vào giải quyết bài poker. Một nhóm nghiên cứu khác, từ Đại học Alberta ở Canada, Đại học Charles và Đại học Kỹ thuật tại Cộng hòa Séc, gần đây đã phát triển một chương trình, gọi là DeepStack. Chương trình này đã đánh bại một số người chơi chuyên nghiệp trong thể lệ không giới hạn của Texas. Tuy nhiên, Sandholm cho biết, những người chơi tham gia vào trận đấu với Libratus mạnh hơn rất nhiều, điều này sẽ mang lại ý nghĩa thống kê lớn hơn cho kết quả.
Sam Ganzfried, người đã tham gia phát triển Claudico và hiện là trợ lý giáo sư tại Đại học Quốc tế Florida ở Miami cho biết:
“Các kỹ thuật được sử dụng để xây dựng một cỗ máy chơi poker thông minh hơn có thể có nhiều ứng dụng trong thế giới thực. Lý thuyết trò chơi đã được áp dụng cho nghiên cứu về các cuộc tấn công gây nhiễu và an ninh mạng, hướng dẫn tự động cho dịch vụ taxi và robot lập kế hoạch”.
Tuy nhiên, ngay cả khi Libratus chiến thắng trong tuần này, điều đó không có nghĩa là con người không còn xứng đáng có chỗ tại bàn chơi bài nữa. Libratus sẽ chưa thể trở thành “siêu nhân” trong phiên bản nhiều người chơi và số tiền cược không giới hạn ở Texas bằng cách sử dụng các kỹ thuật hiện tại.
Theo TapChiBitcoin.vn/technologyreview
Xem thêm:
- Năm lý do để đầu tư vào tiền mã hóa trong năm 2019
- Đồng sáng lập Ethereum Joseph Lubin: Hy vọng cuối cùng của Tiền mã hóa
- Tone Vays: Bitcoin khả năng cao sẽ tiếp tục giảm giá