Membina Agen Catur menggunakan DQN
Saya baru-baru ini cuba melaksanakan Agen Catur berasaskan DQN.
Sekarang, sesiapa yang mengetahui cara DQN dan Catur berfungsi akan memberitahu anda bahawa idea yang bodoh.
Dan...itu, tetapi sebagai seorang pemula saya menikmatinya. Dalam artikel ini saya akan berkongsi pandangan yang saya pelajari semasa mengerjakan perkara ini.
Memahami Alam Sekitar.
Sebelum saya mula melaksanakan Ejen itu sendiri, saya perlu membiasakan diri dengan persekitaran yang akan saya gunakan dan membuat pembungkus tersuai di atasnya supaya ia boleh berinteraksi dengan Ejen semasa latihan.
-
Saya menggunakan persekitaran catur daripada perpustakaan kaggle_environments.
from kaggle_environments import make env = make("chess", debug=True)
Salin selepas log masukSalin selepas log masuk
-
Saya juga menggunakan Chessnut, iaitu perpustakaan ular sawa ringan yang membantu menghurai dan mengesahkan permainan catur.
from Chessnut import Game initial_fen = env.state[0]['observation']['board'] game=Game(env.state[0]['observation']['board'])
Salin selepas log masukSalin selepas log masuk
Dalam persekitaran ini, keadaan papan disimpan dalam format FEN.
Ia menyediakan cara yang padat untuk mewakili semua bahagian pada papan dan pemain yang sedang aktif. Walau bagaimanapun, memandangkan saya merancang untuk menyalurkan input kepada rangkaian saraf, saya terpaksa mengubah suai perwakilan keadaan.
Menukar format FEN kepada Matriks
Memandangkan terdapat 12 jenis kepingan yang berbeza pada papan, saya mencipta 12 saluran grid 8x8 untuk mewakili keadaan setiap jenis tersebut pada papan.
Mencipta Pembungkus untuk Alam Sekitar
class EnvCust: def __init__(self): self.env = make("chess", debug=True) self.game=Game(env.state[0]['observation']['board']) print(self.env.state[0]['observation']['board']) self.action_space=game.get_moves(); self.obs_space=(self.env.state[0]['observation']['board']) def get_action(self): return Game(self.env.state[0]['observation']['board']).get_moves(); def get_obs_space(self): return fen_to_board(self.env.state[0]['observation']['board']) def step(self,action): reward=0 g=Game(self.env.state[0]['observation']['board']); if(g.board.get_piece(Game.xy2i(action[2:4]))=='q'): reward=7 elif g.board.get_piece(Game.xy2i(action[2:4]))=='n' or g.board.get_piece(Game.xy2i(action[2:4]))=='b' or g.board.get_piece(Game.xy2i(action[2:4]))=='r': reward=4 elif g.board.get_piece(Game.xy2i(action[2:4]))=='P': reward=2 g=Game(self.env.state[0]['observation']['board']); g.apply_move(action) done=False if(g.status==2): done=True reward=10 elif g.status == 1: done = True reward = -5 self.env.step([action,'None']) self.action_space=list(self.get_action()) if(self.action_space==[]): done=True else: self.env.step(['None',random.choice(self.action_space)]) g=Game(self.env.state[0]['observation']['board']); if g.status==2: reward=-10 done=True self.action_space=list(self.get_action()) return self.env.state[0]['observation']['board'],reward,done
Tujuan pembungkus ini adalah untuk menyediakan polisi ganjaran untuk ejen dan fungsi langkah yang digunakan untuk berinteraksi dengan persekitaran semasa latihan.
Chessnut berguna dalam mendapatkan maklumat seperti langkah undang-undang yang mungkin berlaku pada keadaan semasa lembaga dan juga untuk mengenali Checkmate semasa permainan.
Saya cuba mencipta dasar ganjaran untuk memberikan mata positif kepada rakan semakan dan mengeluarkan kepingan musuh manakala mata negatif kerana kalah dalam permainan.
Mencipta Penampan Replay
Penimbal Replay digunakan semasa tempoh latihan untuk menyimpan output (keadaan, tindakan, ganjaran, keadaan seterusnya) oleh Rangkaian Q dan kemudiannya digunakan secara rawak untuk penyebaran balik Rangkaian Sasaran
Fungsi Bantu
Chessnut mengembalikan tindakan undang-undang dalam format UCI yang kelihatan seperti 'a2a3', namun untuk berinteraksi dengan Rangkaian Neural saya menukar setiap tindakan kepada indeks yang berbeza menggunakan corak asas. Terdapat sejumlah 64 Petak, jadi saya memutuskan untuk mempunyai 64*64 indeks unik untuk setiap pergerakan.
Saya tahu bahawa tidak semua langkah 64*64 adalah sah, tetapi saya boleh mengendalikan kesahihan menggunakan Chessnut dan coraknya cukup mudah.
Struktur Rangkaian Neural
from kaggle_environments import make env = make("chess", debug=True)
Rangkaian Neural ini menggunakan Lapisan Konvolusi untuk mengambil masukan 12 saluran dan juga menggunakan indeks tindakan yang sah untuk menapis ramalan output ganjaran.
Melaksanakan Ejen
from Chessnut import Game initial_fen = env.state[0]['observation']['board'] game=Game(env.state[0]['observation']['board'])
Ini jelas merupakan model yang sangat asas yang tidak mempunyai peluang untuk benar-benar berprestasi baik (Dan ia tidak), tetapi ia membantu saya memahami cara DQN berfungsi dengan lebih baik sedikit.
Atas ialah kandungan terperinci Membina Agen Catur menggunakan DQN. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas











Python lebih mudah dipelajari dan digunakan, manakala C lebih kuat tetapi kompleks. 1. Sintaks Python adalah ringkas dan sesuai untuk pemula. Penaipan dinamik dan pengurusan memori automatik menjadikannya mudah digunakan, tetapi boleh menyebabkan kesilapan runtime. 2.C menyediakan kawalan peringkat rendah dan ciri-ciri canggih, sesuai untuk aplikasi berprestasi tinggi, tetapi mempunyai ambang pembelajaran yang tinggi dan memerlukan memori manual dan pengurusan keselamatan jenis.

Adakah cukup untuk belajar Python selama dua jam sehari? Ia bergantung pada matlamat dan kaedah pembelajaran anda. 1) Membangunkan pelan pembelajaran yang jelas, 2) Pilih sumber dan kaedah pembelajaran yang sesuai, 3) mengamalkan dan mengkaji semula dan menyatukan amalan tangan dan mengkaji semula dan menyatukan, dan anda secara beransur-ansur boleh menguasai pengetahuan asas dan fungsi lanjutan Python dalam tempoh ini.

Python lebih baik daripada C dalam kecekapan pembangunan, tetapi C lebih tinggi dalam prestasi pelaksanaan. 1. Sintaks ringkas Python dan perpustakaan yang kaya meningkatkan kecekapan pembangunan. 2. Ciri-ciri jenis kompilasi dan kawalan perkakasan meningkatkan prestasi pelaksanaan. Apabila membuat pilihan, anda perlu menimbang kelajuan pembangunan dan kecekapan pelaksanaan berdasarkan keperluan projek.

Python dan C masing -masing mempunyai kelebihan sendiri, dan pilihannya harus berdasarkan keperluan projek. 1) Python sesuai untuk pembangunan pesat dan pemprosesan data kerana sintaks ringkas dan menaip dinamik. 2) C sesuai untuk prestasi tinggi dan pengaturcaraan sistem kerana menaip statik dan pengurusan memori manual.

Pythonlistsarepartofthestandardlibrary, sementara

Python cemerlang dalam automasi, skrip, dan pengurusan tugas. 1) Automasi: Sandaran fail direalisasikan melalui perpustakaan standard seperti OS dan Shutil. 2) Penulisan Skrip: Gunakan Perpustakaan Psutil untuk memantau sumber sistem. 3) Pengurusan Tugas: Gunakan perpustakaan jadual untuk menjadualkan tugas. Kemudahan penggunaan Python dan sokongan perpustakaan yang kaya menjadikannya alat pilihan di kawasan ini.

Aplikasi Python dalam pengkomputeran saintifik termasuk analisis data, pembelajaran mesin, simulasi berangka dan visualisasi. 1.Numpy menyediakan susunan pelbagai dimensi yang cekap dan fungsi matematik. 2. Scipy memanjangkan fungsi numpy dan menyediakan pengoptimuman dan alat algebra linear. 3. Pandas digunakan untuk pemprosesan dan analisis data. 4.Matplotlib digunakan untuk menghasilkan pelbagai graf dan hasil visual.

Aplikasi utama Python dalam pembangunan web termasuk penggunaan kerangka Django dan Flask, pembangunan API, analisis data dan visualisasi, pembelajaran mesin dan AI, dan pengoptimuman prestasi. 1. Rangka Kerja Django dan Flask: Django sesuai untuk perkembangan pesat aplikasi kompleks, dan Flask sesuai untuk projek kecil atau sangat disesuaikan. 2. Pembangunan API: Gunakan Flask atau DjangorestFramework untuk membina Restfulapi. 3. Analisis Data dan Visualisasi: Gunakan Python untuk memproses data dan memaparkannya melalui antara muka web. 4. Pembelajaran Mesin dan AI: Python digunakan untuk membina aplikasi web pintar. 5. Pengoptimuman Prestasi: Dioptimumkan melalui pengaturcaraan, caching dan kod tak segerak
