Bagi manusia, catur mungkin membutuhkan waktu seumur hidup untuk dikuasai. Tetapi program kecerdasan buatan baru Google DeepMind, AlphaZero, dapat mengajar dirinya sendiri untuk menaklukkan dewan dalam hitungan jam.
Membangun kesuksesan masa lalunya dengan suite AlphaGo — serangkaian program komputer yang dirancang untuk memainkan game papan China Go — Google menawarkan bahwa AlphaZero barunya mencapai tingkat "kinerja manusia super" di tidak hanya satu permainan papan, tetapi tiga: Pergi, catur, dan shogi (dasarnya, catur Jepang). Tim ilmuwan dan insinyur komputer, yang dipimpin oleh David Silver dari Google, melaporkan temuannya baru-baru ini di jurnal Science .
"Sebelum ini, dengan pembelajaran mesin, Anda bisa mendapatkan mesin untuk melakukan apa yang Anda inginkan — tetapi hanya itu, " kata Ayanna Howard, seorang ahli dalam komputasi interaktif dan kecerdasan buatan di Institut Teknologi Georgia yang tidak berpartisipasi dalam penelitian. "Tapi AlphaZero menunjukkan bahwa Anda dapat memiliki algoritma yang tidak begitu spesifik, dan dapat belajar dalam parameter tertentu."
Pemrograman cerdas AlphaZero tentu meningkatkan permainan untuk manusia dan mesin, tetapi Google telah lama memiliki pandangan yang ditetapkan pada sesuatu yang lebih besar: kecerdasan rekayasa.
Para peneliti berhati-hati untuk tidak mengklaim bahwa AlphaZero berada di ambang dominasi dunia (yang lain sedikit lebih cepat untuk melompati senjata). Namun, Silver dan anggota skuad DeepMind lainnya sudah berharap bahwa suatu hari mereka akan melihat sistem serupa yang diterapkan pada desain obat atau ilmu material.
Jadi apa yang membuat AlphaZero begitu mengesankan?
Gameplay telah lama dihormati sebagai standar emas dalam penelitian kecerdasan buatan. Permainan interaktif terstruktur adalah penyederhanaan skenario dunia nyata: Keputusan sulit harus dibuat; menang dan kalah menaikkan taruhan; dan prediksi, pemikiran kritis, dan strategi adalah kuncinya.
Pengkodean keterampilan semacam ini rumit. AI bermain-permainan yang lebih lama — termasuk prototipe pertama dari AlphaGo asli — secara tradisional dipompa penuh dengan kode dan data untuk meniru pengalaman yang biasanya diperoleh melalui permainan manusia yang alami selama bertahun-tahun (pada dasarnya, tempat pembuangan pengetahuan yang diturunkan oleh programmer). Dengan AlphaGo Zero (versi terbaru dari AlphaGo), dan sekarang AlphaZero, para peneliti memberikan program hanya satu input: aturan permainan yang dipertanyakan. Kemudian, sistem berjongkok dan secara aktif mempelajari trik-trik perdagangan itu sendiri.
AlphaZero didasarkan pada AlphaGo Zero, bagian dari suite AlphaGo yang dirancang untuk memainkan game papan China Go, seperti gambar di atas. Iterasi awal dari program asli diumpankan data dari game manusia-versus-manusia; versi selanjutnya terlibat dalam pengajaran mandiri, di mana perangkat lunak memainkan permainan melawan dirinya sendiri untuk mempelajari strateginya sendiri. (Chad Miller / Flickr / CC BY-SA 2.0)Strategi ini, yang disebut belajar penguatan permainan mandiri, persis seperti apa kedengarannya: Untuk melatih liga-liga besar, AlphaZero bermain sendiri dalam iterasi setelah iterasi, mengasah keterampilannya dengan coba-coba. Dan pendekatan brute-force terbayar. Tidak seperti AlphaGo Zero, AlphaZero tidak hanya memainkan Go: Ini dapat mengalahkan AI terbaik dalam bisnis di catur dan shogi juga. Proses pembelajaran juga sangat efisien, hanya membutuhkan dua, empat, atau 30 jam pengawasan diri untuk mengungguli program-program yang secara khusus dirancang untuk masing-masing menguasai shogi, catur, dan Go. Khususnya, penulis studi tidak melaporkan contoh AlphaZero akan head-to-head dengan manusia yang sebenarnya, kata Howard. (Para peneliti mungkin berasumsi bahwa, mengingat bahwa program-program ini secara konsisten mengalahkan rekan manusia mereka, pertarungan semacam itu tidak ada gunanya.)
AlphaZero juga mampu mengalahkan Stockfish (master catur AI yang sekarang tidak duduk) dan Elmo (mantan ahli shogi AI) meskipun mengevaluasi lebih sedikit kemungkinan langkah selanjutnya pada setiap belokan selama bermain game. Tetapi karena algoritma yang dimaksud secara inheren berbeda, dan dapat mengkonsumsi jumlah daya yang berbeda, sulit untuk secara langsung membandingkan AlphaZero dengan program lain yang lebih lama, kata Joanna Bryson, yang mempelajari kecerdasan buatan di University of Bath di Inggris dan melakukan tidak berkontribusi pada AlphaZero.
Google menyimpan banyak informasi penting tentang peranti lunaknya, dan tidak terkecuali AlphaZero. Meskipun kita tidak tahu segalanya tentang konsumsi daya program, yang jelas adalah ini: AlphaZero harus mengemas beberapa amunisi komputasi yang serius. Dalam jam-jam pelatihan yang terbatas, program ini membuat dirinya sangat sibuk, terlibat dalam puluhan atau ratusan ribu putaran latihan untuk meningkatkan strategi permainan papannya — jauh lebih banyak daripada yang dibutuhkan oleh pemain manusia (atau, dalam banyak kasus, bisa bahkan berhasil) dalam mengejar kecakapan.
Rejimen intensif ini juga menggunakan 5.000 unit prosesor pembelajaran mesin milik Google, atau TPU, yang menurut beberapa orang mengonsumsi sekitar 200 watt per keping. Tidak masalah bagaimana Anda mengirisnya, AlphaZero membutuhkan energi yang jauh lebih besar daripada otak manusia, yang beroperasi pada sekitar 20 watt.
Konsumsi energi absolut dari AlphaZero harus dipertimbangkan, tambah Bin Yu, yang bekerja di antarmuka statistik, pembelajaran mesin, dan kecerdasan buatan di University of California, Berkeley. AlphaZero sangat kuat, tetapi mungkin bukan hal yang baik — terutama ketika menambahkan orang-jam yang masuk ke penciptaan dan pelaksanaannya.
Energetik mahal atau tidak, AlphaZero membuat percikan: Kebanyakan AI hiper-khusus pada satu tugas, membuat program baru ini - dengan tiga ancaman permainan, sangat fleksibel. “Sangat mengesankan bahwa AlphaZero dapat menggunakan arsitektur yang sama untuk tiga game yang berbeda, ” kata Yu.
Jadi iya. Google AI baru memang menetapkan tanda baru dalam beberapa cara. Itu cepat. Sangat kuat. Tapi apakah itu membuatnya pintar?
Di sinilah definisi mulai menjadi keruh. "AlphaZero dapat belajar, mulai dari awal tanpa pengetahuan manusia, untuk memainkan masing-masing game ke tingkat manusia super, " kata DeepMind's Silver dalam sebuah pernyataan kepada pers.
Bahkan jika keahlian board game membutuhkan ketajaman mental, semua proxy untuk dunia nyata memiliki keterbatasan. Dalam iterasi saat ini, AlphaZero memaksimalkan dengan memenangkan game yang dirancang manusia - yang mungkin tidak menjamin label "manusia super" yang berpotensi mengkhawatirkan. Plus, jika terkejut dengan seperangkat aturan baru di tengah permainan, AlphaZero mungkin akan bingung. Otak manusia yang sebenarnya, di sisi lain, dapat menyimpan lebih dari tiga permainan papan dalam repertoarnya.
Terlebih lagi, membandingkan garis dasar AlphaZero dengan tabula rasa (batu tulis kosong) - seperti yang dilakukan para peneliti - adalah sebuah peregangan, kata Bryson. Programmer masih memberi makan salah satu bagian penting dari pengetahuan manusia: aturan permainan yang akan dimainkan. “Ini memang memiliki jauh lebih sedikit untuk berjalan daripada apa pun sebelumnya, ” Bryson menambahkan, “tetapi yang paling mendasar adalah, itu masih diberikan aturan. Itu eksplisit. "
Dan aturan sial itu bisa menjadi penopang yang signifikan. "Meskipun program-program ini belajar bagaimana caranya, mereka membutuhkan aturan jalan, " kata Howard. "Dunia ini penuh dengan tugas yang tidak memiliki aturan ini."
Ketika dorongan datang untuk mendorong, AlphaZero adalah peningkatan dari program yang sudah kuat — AlphaGo Zero, menjelaskan JoAnn Paul, yang mempelajari kecerdasan buatan dan mimpi komputasi di Institut Politeknik Virginia dan Universitas Negeri dan tidak terlibat dalam penelitian baru. AlphaZero menggunakan banyak blok bangunan dan algoritma yang sama dengan AlphaGo Zero, dan masih merupakan subset dari kecerdasan yang sebenarnya. "Saya pikir perkembangan baru ini lebih evolusioner daripada revolusioner, " tambahnya. “Tidak satu pun dari algoritma ini dapat dibuat . Kecerdasan juga tentang bercerita. Membayangkan hal-hal yang belum ada. Kami tidak memikirkan istilah-istilah itu di komputer. ”
Sebagian dari masalahnya adalah, masih belum ada konsensus tentang definisi sebenarnya dari "kecerdasan, " kata Yu — dan tidak hanya dalam domain teknologi. "Masih belum jelas bagaimana kita melatih makhluk berpikir kritis, atau bagaimana kita menggunakan otak bawah sadar, " tambahnya.
Untuk titik ini, banyak peneliti percaya ada beberapa jenis kecerdasan. Dan memanfaatkan satu jauh dari jaminan bahan untuk yang lain. Misalnya, beberapa orang terpintar di luar sana sangat buruk dalam catur.
Dengan batasan-batasan ini, visi Yu tentang masa depan kecerdasan buatan bermitra dengan manusia dan mesin dalam semacam koevolusi. Mesin tentu akan terus unggul dalam tugas-tugas tertentu, ia menjelaskan, tetapi input dan pengawasan manusia mungkin selalu diperlukan untuk mengimbangi yang tidak diautomasi.
Tentu saja, tidak ada yang tahu bagaimana hal akan berguncang di arena AI. Sementara itu, kami memiliki banyak hal untuk direnungkan. "Komputer ini sangat kuat, dan dapat melakukan hal-hal tertentu lebih baik daripada manusia, " kata Paul. "Tapi itu masih jauh dari misteri kecerdasan."
Artikel ini awalnya diterbitkan di NOVA.