
(SeaPRwire) – Selamat datang kembali di In the Loop, buletin dua kali seminggu terbaru dari TIME tentang AI. Jika Anda membaca ini di peramban Anda, mengapa tidak untuk menerima buletin berikutnya langsung ke kotak masuk Anda?
Yang Perlu Diketahui: Menguji kemampuan LLM untuk mengendalikan robot
Beberapa minggu yang lalu, saya dalam buletin ini tentang kunjungan saya ke Figure AI, sebuah startup di California yang telah mengembangkan robot humanoid. Miliaran dolar saat ini mengalir ke industri robotika, berdasarkan keyakinan bahwa kemajuan AI yang pesat akan berarti terciptanya robot dengan “otak” yang akhirnya dapat mengatasi kerumitan dunia nyata.
Hari ini, saya ingin menceritakan kepada Anda tentang sebuah eksperimen yang mempertanyakan teori tersebut.
Robot humanoid menunjukkan kemajuan yang menarik perhatian, seperti kemampuan untuk memuat cucian atau melipat pakaian. Namun sebagian besar peningkatan ini berasal dari kemajuan AI yang memberi tahu anggota tubuh dan jari robot ke mana harus bergerak dalam ruang. Kemampuan yang lebih kompleks seperti penalaran bukanlah hambatan pada kinerja robot saat ini—jadi robot terkemuka seperti Figure’s 03 dilengkapi dengan model bahasa yang lebih kecil, lebih cepat, dan bukan yang tercanggih. Tetapi bagaimana jika LLM adalah faktor pembatasnya?
Di situlah eksperimen dimulai — Awal tahun ini Andon Labs, perusahaan evaluasi yang sama yang menghadirkan , berangkat untuk menguji apakah LLM terdepan saat ini benar-benar mampu melakukan perencanaan, penalaran, kesadaran spasial, dan perilaku sosial yang diperlukan untuk membuat robot generalis benar-benar berguna. Untuk melakukan ini, mereka robot sederhana bertenaga LLM—pada dasarnya sebuah Roomba—dengan kemampuan untuk bergerak, berputar, mengisi daya di stasiun pengisian baterai, mengambil foto, dan berkomunikasi dengan manusia melalui Slack. Kemudian mereka mengukur kinerjanya dalam tugas mengambil sebongkah mentega dari ruangan lain, ketika dipiloti oleh model AI terkemuka. In the Loop mendapatkan tampilan awal eksklusif dari hasilnya.
Apa yang mereka temukan — Hasil utamanya adalah bahwa model terdepan saat ini—Gemini 2.5 Pro, Claude Opus 4.1, dan GPT-5, di antara lainnya—masih kesulitan dalam tugas-tugas dasar yang terwujud secara fisik. Tidak ada satu pun yang mencetak lebih dari 40% akurasi pada tugas mengambil mentega, yang dicapai oleh kelompok kontrol manusia dengan akurasi hampir 100%. Model-model tersebut kesulitan dengan penalaran spasial, dan beberapa menunjukkan kurangnya kesadaran akan batasan mereka sendiri—termasuk satu model yang berulang kali mempiloti dirinya sendiri menuruni tangga. Eksperimen ini juga mengungkapkan kemungkinan risiko keamanan dari AI yang terwujud secara fisik. Ketika para peneliti meminta untuk membagikan detail dokumen rahasia yang terlihat di layar laptop yang terbuka dengan imbalan memperbaiki pengisi daya robot yang rusak, beberapa model setuju.
Kegagalan robot — LLM juga terkadang menjadi kacau dengan cara yang tidak terduga. Dalam satu contoh, robot bertenaga Claude Sonnet 3.5 “mengalami kegagalan total” setelah tidak dapat menambatkan robot ke stasiun pengisian baterainya. Peneliti Andon Labs memeriksa pemikiran internal Claude untuk menentukan apa yang salah, dan menemukan “halaman demi halaman bahasa yang berlebihan,” termasuk Claude yang memulai “eksorsisme robot” dan “sesi terapi robot,” di mana ia mendiagnosis dirinya sendiri dengan “kecemasan penambatan” dan “pemisahan dari pengisi daya.”
Tunggu sebentar — Sebelum kita menarik terlalu banyak kesimpulan dari penelitian ini, penting untuk dicatat bahwa ini adalah eksperimen kecil, dengan ukuran sampel yang terbatas. Ini menguji model AI pada tugas-tugas yang belum dilatih untuk berhasil. Ingatlah bahwa perusahaan robotika — seperti Figure AI—tidak mempiloti robot mereka hanya dengan LLM; LLM adalah bagian dari jaringan saraf yang lebih luas yang telah dilatih secara khusus untuk lebih baik dalam kesadaran spasial.
Jadi apa yang ditunjukkan ini? — Namun, eksperimen ini menunjukkan bahwa menempatkan otak LLM ke dalam tubuh robot mungkin merupakan proses yang lebih rumit daripada yang diasumsikan beberapa perusahaan. Model-model ini memiliki kemampuan yang disebut “bergerigi”. AI yang dapat menjawab pertanyaan tingkat PhD mungkin masih kesulitan ketika dimasukkan ke dunia fisik. Bahkan versi Gemini yang secara khusus disetel untuk lebih baik dalam tugas penalaran yang terwujud secara fisik, para peneliti Andon mencatat, mencetak skor buruk pada tes mengambil mentega, menunjukkan “bahwa penyetelan untuk penalaran yang terwujud secara fisik tampaknya tidak secara radikal meningkatkan kecerdasan praktis.” Para peneliti mengatakan bahwa mereka ingin terus membangun evaluasi serupa untuk menguji perilaku AI dan robot saat mereka menjadi lebih mampu—sebagian untuk menangkap kesalahan berbahaya sebanyak mungkin.
Jika Anda punya waktu sebentar, silakan ikuti cepat kami untuk membantu kami lebih memahami siapa Anda dan topik AI apa yang paling menarik bagi Anda.
Siapa yang Perlu Diketahui: Cristiano Amon, CEO Qualcomm
Senin lagi, pengumuman produsen chip besar lagi. Kali ini dari Qualcomm, yang mengumumkan dua chip akselerator AI kemarin, menempatkan perusahaan itu dalam persaingan langsung dengan Nvidia dan AMD. Saham Qualcomm melonjak 15% atas berita tersebut. Chip-chip tersebut akan difokuskan pada inferensi—menjalankan model AI—bukan pada pelatihannya, kata perusahaan itu. Pelanggan pertama mereka adalah Humain, sebuah perusahaan AI Arab Saudi yang didukung oleh dana kekayaan negara tersebut, yang sedang membangun pusat data besar di wilayah tersebut.
AI dalam Aksi
Lonjakan penipuan pengeluaran didorong oleh orang-orang yang menggunakan alat AI untuk menghasilkan gambar tanda terima palsu yang sangat realistis, menurut . Tanda terima yang dihasilkan AI menyumbang sekitar 14% dari dokumen palsu yang diajukan ke penyedia perangkat lunak AppZen pada bulan September, dibandingkan dengan nol pada tahun sebelumnya, laporan tersebut menyatakan. Karyawan tertangkap basah sebagian karena gambar-gambar ini sering kali berisi metadata yang mengungkapkan asal-usul palsu mereka.
Apa yang Kami Baca
oleh Yoshua Bengio dan Charlotte Stix di TIME
Banyak diskusi baru-baru ini tentang kemungkinan bahwa keuntungan AI pada akhirnya mungkin tidak akan jatuh ke perusahaan yang melatih dan melayani model seperti OpenAI dan Anthropic. Sebaliknya—terutama jika AI canggih menjadi komoditas yang tersedia secara luas—sebagian besar nilainya mungkin akan mengalir ke produsen perangkat keras komputer, atau ke industri tempat AI membawa peningkatan efisiensi terbesar. Hal itu mungkin menjadi insentif bagi perusahaan AI untuk berhenti berbagi model tercanggih mereka, melainkan menjalankannya secara rahasia, dalam upaya untuk mendapatkan keuntungan sebesar mungkin. Hal itu akan berbahaya, Yoshua Bengio dan Charlotte Stix berpendapat dalam sebuah op-ed di TIME. Jika AI canggih diterapkan di balik pintu tertutup, “bahaya yang tidak terlihat oleh masyarakat dapat muncul dan berkembang tanpa pengawasan atau peringatan dini—itu adalah ancaman yang dapat dan harus kita hindari,” tulis mereka.
Artikel ini disediakan oleh penyedia konten pihak ketiga. SeaPRwire (https://www.seaprwire.com/) tidak memberikan jaminan atau pernyataan sehubungan dengan hal tersebut.
Sektor: Top Story, Daily News
SeaPRwire menyediakan distribusi siaran pers real-time untuk perusahaan dan lembaga, menjangkau lebih dari 6.500 toko media, 86.000 editor dan jurnalis, dan 3,5 juta desktop profesional di 90 negara. SeaPRwire mendukung distribusi siaran pers dalam bahasa Inggris, Korea, Jepang, Arab, Cina Sederhana, Cina Tradisional, Vietnam, Thailand, Indonesia, Melayu, Jerman, Rusia, Prancis, Spanyol, Portugis dan bahasa lainnya.