![Gambar ini menunjukkan permainan video, boneka, dan mainan Pokémon. 13JUL16 SCMP/May Tse [18JULY2016 FEATURES DIGITAL]](https://storage.googleapis.com/bucket_tekanasia/xlrss_media/4/2026/01/14/xlrss_696743c22b69d.jpg)
(SeaPRwire) – Saat ini, secara langsung di Twitch, Anda dapat melihat tiga sistem AI tercerdas di dunia—, , dan —berusaha sekuat tenaga untuk mengalahkan permainan klasik Pokémon. Setidaknya menurut standar manusia, mereka tidak terlalu baik.
Sistem-sistem tersebut lambat, terlalu percaya diri, dan sering bingung. Namun jika Anda ingin memahami apa yang dapat dilakukan sistem-sistem ini saat ini di dunia yang lebih luas, melacak upaya mereka untuk menjadi juara Pokémon akan memberi Anda informasi lebih banyak daripada angka-angka benchmark yang sering kali sulit dimengerti yang disertai setiap rilis model baru.
Upaya untuk membuat model bahasa besar (LLM) menjadi master Pokémon dimulai Februari lalu, ketika seorang peneliti Anthropic meluncurkan dari Claude bermain permainan Game Boy 1996 Pokémon Red untuk menemani rilis Claude Sonnet 3.7, yang saat itu merupakan salah satu model terbaik di dunia. Seperti yang dicatat perusahaan, ini adalah model Claude pertama yang secara signifikan dapat bermain game tersebut (model sebelumnya “berjalan tanpa arah atau terjebak dalam loop,” dan tidak dapat melewati bagian pembuka game). Dalam beberapa minggu pertama, siaran tersebut menarik sekitar 2.000 penonton, yang memberi semangat kepada Claude melalui obrolan publik.
Kebanyakan anak-anak menyelesaikan game ini dalam waktu sekitar 20 hingga 40 jam. Sonnet 3.7 tidak berhasil mengalahkannya, sering terjebak selama puluhan jam. Model terbaru Anthropic, Claude Opus 4.5, berkinerja jauh lebih baik, tetapi juga sering terjebak. Dalam satu kasus, ia menghabiskan empat hari berputar-putar di sekitar gym tanpa bisa masuk, karena tidak menyadari (atau tidak bisa melihat) bahwa ia seharusnya menebang pohon. Model Gemini dari Google berhasil menyelesaikan game serupa Mei lalu, mendorong CEO Google Sundar Pichai untuk berkata-kata lelucon bahwa perusahaan semakin dekat menciptakan “Kecerdasan Buatan Pokémon.”
Tetapi ini tidak berarti Gemini adalah master Pokémon yang lebih baik. Hal ini karena kedua sistem AI menggunakan “perangkat penunjang” yang berbeda. Seperti yang dijelaskan , seorang pengembang independen yang menjalankan siaran Gemini Plays Pokémon, perangkat penunjang dapat dipahami sebagai “setelan waja” tempat sistem AI ditempatkan, memungkinkannya menggunakan alat dan mengambil tindakan yang tidak dapat dilakukan sendiri. Perangkat penunjang Gemini menawarkan lebih banyak bantuan—misalnya, dengan menerjemahkan visual game ke dalam teks, sehingga menghindari kelemahannya dalam penalaran visual, dan dengan menawarkan alat khusus yang dapat digunakan untuk menyelesaikan teka-teki. Sementara itu, Claude dilengkapi perangkat penunjang yang lebih sederhana, yang berarti upayanya memberi informasi lebih banyak tentang model itu sendiri.
Meskipun perbedaan antara model dan perangkat penunjangnya tidak jelas bagi pengguna biasa, perangkat penunjang telah mengubah cara kita menggunakan AI. Misalnya, ketika Anda meminta ChatGPT untuk mencari informasi di web, ia menggunakan alat pencarian web. Itu bagian dari perangkat penunjangnya. Dalam konteks Pokémon, setiap model beroperasi dengan perangkat penunjang khusus yang berbeda, yang mengatur tindakan apa yang dapat mereka ambil.
Pokémon cocok untuk menguji kemampuan AI—bukan hanya karena keakraban budayanya. Tidak seperti game seperti Mario, yang membutuhkan reaksi waktu nyata, Pokémon berbasis giliran dan tidak memiliki tekanan waktu. Untuk bermain, model AI menerima tangkapan layar game dan petunjuk yang menjelaskan tujuan mereka dan tindakan apa yang dapat mereka ambil. Kemudian mereka berpikir sendiri, dan mengeluarkan tindakan (seperti “tekan A”). Itu satu langkah. Opus 4.5, yang telah bermain selama lebih dari 500 jam dalam waktu manusia, berada di langkah ke-170.000 pada saat penulisan. Pada setiap langkah, model diinisialisasi kembali, menggunakan informasi yang ditinggalkan oleh instans sebelumnya, seperti amnesti yang mengandalkan catatan-catatan kecil.
Mungkin mengejutkan bahwa sistem AI, yang unggul dalam catur dan Go, mengalami kesulitan dengan game yang mudah bagi anak enam tahun. Namun sistem yang menguasai catur dan Go dibuat khusus untuk game tersebut, tidak seperti sistem tujuan umum seperti Gemini, Claude, dan ChatGPT. Namun, karena LLM ini terus berhasil dalam ujian dan mendominasi manusia dalam kompetisi pengkodean, kurangnya kinerja mereka di sini tampak membingungkan.
Tantangan bagi AI berasal dari “seberapa baik ia dapat tetap melakukan tugas dalam jangka waktu panjang,” kata Zhang. Yang penting, kapasitas untuk perencanaan dan eksekusi jangka panjang ini juga diperlukan jika AI ingin mengotomatisasi pekerjaan kognitif. “Jika Anda ingin agen melakukan pekerjaan Anda, ia tidak boleh lupa apa yang telah ia lakukan lima menit lalu,” katanya.
Peter Whidden, peneliti independen yang algoritma pemainkan Pokémon berdasarkan jenis AI yang lebih lama, menyebutnya: “AI mengetahui segalanya tentang Pokémon. Ia dilatih dengan data manusia yang sangat banyak. Ia tahu apa yang seharusnya dilakukan, tetapi gagal dalam eksekusi.” Meskipun kata “agen” telah dipenuhi oleh hype pemasaran, setiap sistem AI yang layak disebut agen perlu menutup kesenjangan antara pengetahuan dan eksekusi, serta merencanakan dalam jangka waktu panjang.
Ada tanda-tanda bahwa kesenjangan tersebut mulai menutup. Opus 4.5 jauh lebih baik dalam meninggalkan catatan untuk dirinya sendiri daripada model sebelumnya, yang, bersama dengan peningkatan kemampuannya memahami apa yang dilihatnya, memungkinkannya maju lebih jauh dalam game. Dan setelah mengalahkan Pokémon Blue, sistem Gemini terbaru (Gemini 3 Pro) telah menyelesaikan Pokémon Crystal yang lebih menantang, tanpa kalah satu pertarungan pun—prestasi yang tidak dapat dicapai pendahulunya, Gemini 2.5 Pro.
Sementara itu, Claude Code—yang secara efektif merupakan perangkat penunjang yang memungkinkan Claude menulis dan menjalankan kode sendiri, serta membangun perangkat lunak sendiri—telah ditempatkan dalam game retro lainnya, , di mana ia dilaporkan berhasil mengelola taman tema. Semua ini mengarah pada masa depan yang aneh, di mana sistem AI dalam perangkat penunjang mungkin dapat melakukan sebagian besar pekerjaan pengetahuan—termasuk pengembangan perangkat lunak, akuntansi, analisis hukum, dan desain grafis—sambil tetap mengalami kesulitan dengan apa pun yang membutuhkan reaksi waktu nyata, seperti bermain Call of Duty.
Hal lain yang terungkap dari permainan Pokémon ini adalah bagaimana model-model tersebut, yang dilatih dengan data manusia, menunjukkan keunikan mirip manusia. Dalam permainan Gemini 2.5 Pro, misalnya, Google mencatat bahwa dalam situasi di mana model mensimulasikan panik—seperti ketika Pokémonnya hampir pingsan—kemampuan penalarannya menurun.
Dan model-model tersebut terus bertindak secara tak terduga. Ketika Gemini 3 Pro menyelesaikan Pokémon Blue, ia menulis untuk dirinya sendiri, “Saya telah berhasil menyelesaikan game, menjadi Juara Liga Pokémon dan menangkap Mewtwo.” Kemudian ia memutuskan untuk melakukan sesuatu yang tak terduga dan tak diminta, yang Zhang anggap menyentuh. “Untuk menyelesaikan dengan gaya puisi,” tulisnya, “saya akan kembali ke rumah saya di mana semuanya dimulai, secara efektif ‘mengundurkan’ karakter saya untuk saat ini. Saya ingin berbicara dengan Ibu satu kali terakhir untuk menyelesaikan permainan.”
Artikel ini disediakan oleh penyedia konten pihak ketiga. SeaPRwire (https://www.seaprwire.com/) tidak memberikan jaminan atau pernyataan sehubungan dengan hal tersebut.
Sektor: Top Story, Daily News
SeaPRwire menyediakan distribusi siaran pers real-time untuk perusahaan dan lembaga, menjangkau lebih dari 6.500 toko media, 86.000 editor dan jurnalis, dan 3,5 juta desktop profesional di 90 negara. SeaPRwire mendukung distribusi siaran pers dalam bahasa Inggris, Korea, Jepang, Arab, Cina Sederhana, Cina Tradisional, Vietnam, Thailand, Indonesia, Melayu, Jerman, Rusia, Prancis, Spanyol, Portugis dan bahasa lainnya.