AI Belajar Melakukan Pekerjaan Dokter, Pengacara, dan Konsultan

BRAZIL-HEALTH-VIRUS-DIAGNOSIS-ARTIFICIAL INTELLIGENCE

(SeaPRwire) –   Tugas-tugas tersebut menyerupai apa yang diselesaikan oleh pengacara, dokter, analis keuangan, dan konsultan manajemen untuk mencari nafkah. Salah satunya meminta diagnosis pasien berusia enam tahun berdasarkan sembilan bukti multimedia; yang lain meminta nasihat hukum mengenai warisan seorang musisi; yang ketiga meminta penilaian sebagian dari perusahaan teknologi kesehatan.

Mercor, yang mengklaim memasok “data ahli” ke setiap perusahaan AI terkemuka, mengatakan telah menghabiskan lebih dari $500.000 untuk mengembangkan 200 tugas yang menguji apakah AI “dapat melakukan pekerjaan pengetahuan dengan nilai ekonomi tinggi” di bidang hukum, kedokteran, keuangan, dan konsultan manajemen. Hasilnya (APEX), yang diterbitkan pada hari Rabu, mencantumkan di antara penulisnya seorang mantan direktur pelaksana global McKinsey, seorang mantan dekan Harvard Business School, dan seorang profesor Harvard Law School, yang memberikan saran mengenai desain dan lingkup tugas di bidang masing-masing, menurut Mercor. APEX “berfokus pada pendalaman yang sangat mendalam,” kata Brendan Foody, CEO perusahaan berusia 22 tahun itu. “Bagaimana kita bisa menjadi sangat komprehensif tentang apa artinya menjadi seorang konsultan atau bankir atau dokter atau pengacara?”

Untuk membuat tugas-tugas tersebut, Mercor mengontrak para profesional kerah putih yang mantan pemberi kerjanya termasuk bank-bank terkemuka (Goldman Sachs, JPMorgan), firma konsultan (McKinsey, Boston Consulting Group), firma hukum (Latham & Watkins) dan rumah sakit (Mount Sinai). Mereka rata-rata memiliki 7,25 tahun pengalaman profesional, dan gaji mereka di Mercor kompetitif dengan mantan pemberi kerja mereka yang sangat prestisius. Situs web Mercor mengiklankan tarif rata-rata $81 per jam, mencapai lebih dari $200 per jam—setara dengan gaji tahunan sekitar $400.000—untuk “Pakar Domain Senior,” yang memerlukan setidaknya empat tahun pengalaman profesional untuk melamar.

“Sulit membayangkan pekerjaan per jam yang lebih baik dari perspektif gaji,” kata Matt Seck, mantan analis perbankan investasi di Bank of America, yang dikontrak oleh Mercor untuk menulis tugas-tugas keuangan serupa dengan yang disertakan dalam makalah.

Tolok ukur telah lama digunakan untuk menilai kemampuan AI, tetapi mengukur secara langsung kemampuan model AI untuk melakukan pekerjaan yang bernilai ekonomis mewakili “pergeseran paradigma,” kata Osvald Nitski, salah satu penulis makalah tersebut. Pada tolok ukur Mercor, “mendapatkan 100% berarti Anda pada dasarnya memiliki analis atau rekanan dalam sebuah kotak yang dapat Anda kirimi tugas, dan kemudian mereka menyerahkannya sesuai persyaratan seorang mitra, atau MD, atau siapa pun yang akan menilai pekerjaan orang tersebut,” kata Nitski.

Model-model tersebut belum mencapai tahap itu, tetapi mereka berkembang pesat. GPT-4o milik OpenAI, yang dirilis pada Mei 2024, mencetak 35,9% pada tolok ukur tersebut. GPT-5, yang dirilis lebih dari setahun kemudian, mencapai 64.2%—skor tertinggi pada tolok ukur tersebut. Mendapatkan 64.2% pada tolok ukur tidak berarti bahwa GPT-5 memberikan 64.2% dari nilai pekerja manusia—pekerjaan yang tidak mencapai 100% “mungkin secara efektif tidak berguna,” tulis para penulis makalah. GPT-5 hanya mendapatkan nilai penuh pada dua dari 200 tugas—satu di bidang hukum dan satu di perbankan investasi—yang “terutama melibatkan penalaran dasar, perhitungan sederhana, dan banyak pencarian informasi dasar,” menurut Mercor.

Bahkan jika sebuah model mencapai 100% pada tolok ukur Mercor, kemungkinan besar itu akan menjadi pengganti yang buruk bagi para profesional manusia. Tugas-tugas dalam tolok ukur Mercor berfokus pada “hasil yang terdefinisi dengan baik,” seperti membuat diagnosis atau membangun model keuangan, daripada tugas-tugas yang lebih terbuka yang mungkin menerima beberapa jawaban yang benar. Ini mengharuskan deskripsi tugas menyertakan banyak asumsi yang diperlukan untuk memastikan bahwa keluaran yang diinginkan terdefinisi dengan baik. Keluaran AI sepenuhnya berbasis teks, artinya tolok ukur tidak menguji kemampuan AI untuk menggunakan komputer, seperti yang akan dilakukan pekerja manusia. (Mercor mengatakan bahwa versi masa depan APEX akan mengatasi keterbatasan ini.) Dan menyusun perintah panjang yang dibutuhkan model untuk menyelesaikan tugas “akan lebih membosankan daripada melakukannya sendiri,” kata Seck.

Meskipun demikian, ada tanda-tanda bahwa model AI menjadi kompetitif dengan manusia. Tolok ukur lain, Kamis, 25 September, oleh OpenAI, menunjukkan bahwa evaluator manusia ahli lebih memilih pekerjaan AI daripada pekerjaan manusia 47.6% dari waktu pada 220 tugas termasuk merancang brosur penjualan untuk properti dan menilai gambar lesi kulit. OpenAI juga menemukan bahwa kinerja modelnya telah meningkat secara substansial dalam waktu singkat, lebih dari dua kali lipat dalam “tingkat kemenangan” mereka terhadap manusia antara Juni 2024 dan September 2025.

Seiring dengan pertumbuhan kemampuan model, kompleksitas tugas yang diujikan dan keterampilan manusia yang dibutuhkan untuk menciptakan tugas yang cukup menantang juga meningkat. Tes-tes sebelumnya mengukur kemampuan yang relatif abstrak pada pertanyaan dan pertanyaan. Sebelum rilis ChatGPT pada tahun 2022, sering kali data bersumber dari layanan crowdworker, yang membayar pekerja per jam. Pada tahun 2023, mahasiswa doktoral diminta untuk membuat pertanyaan pilihan ganda yang menantang dalam biologi, fisika, dan kimia. Pada bulan September, xAI memberhentikan 500 pekerja data “generalis” mereka sebagai bagian dari “ekspansi dan prioritisasi” pekerja data “spesialis” perusahaan. Tentu saja, pekerja data bergaji rendah berkontribusi pada pengembangan model AI, tetapi batas atas keterampilan dan kompensasi yang dibutuhkan untuk mengembangkan tolok ukur AI meningkat dengan cepat.

Mengukur langsung kegunaan model AI pada tugas-tugas bernilai ekonomis “sangat sulit dilakukan,” kata Nitski. Kriteria keberhasilan dalam domain seperti keuangan dan konsultan lebih sulit didefinisikan dibandingkan, misalnya, dalam rekayasa perangkat lunak. Bahkan dengan kriteria sempurna di tangan, menilai keluaran AI dalam skala besar lebih sulit daripada dalam rekayasa perangkat lunak, di mana tes otomatis dapat memeriksa apakah sepotong kode berjalan dengan benar. Ini menjelaskan, sebagian, mengapa tes yang bertujuan mengukur kegunaan model AI di dunia nyata telah untuk rekayasa perangkat lunak setidaknya sejak tahun 2023, tetapi tertinggal di domain kerah putih lainnya. Namun, seiring dengan peningkatan AI, mereka telah membantu memecahkan masalah penilaian tugas-tugas kompleks. Kriteria keberhasilan untuk tugas-tugas Mercor ditulis oleh pakar manusia, tetapi penilaian dilakukan oleh AI, yang menurut Mercor setuju dengan penilai manusia 89% dari waktu, membantu menskalakan evaluasi.

Mengembangkan tolok ukur bukan hanya tentang mengetahui seberapa bagus model. Dalam AI, seperti dalam bisnis, “apa yang diukur akan selesai”—tes yang baik sering kali mempercepat kemajuan AI pada tes-tes tersebut. “Pada akhirnya, ini adalah tipe data yang sama untuk evaluasi dan pelatihan,” kata Foody. Mengevaluasi kinerja dalam permainan seperti Go adalah hal yang mudah; AI mengalahkan master pada tahun 2016. Pada tahun 2023, tolok ukur mengevaluasi AI pada tugas-tugas dunia nyata dalam rekayasa perangkat lunak. Dua tahun kemudian, statistik tenaga kerja untuk programmer junior menjadi meragukan.

“AI mendapatkan gelar Ph.D.-nya,” kata Foody. “Sekarang mulai memasuki pasar kerja.”

Artikel ini disediakan oleh penyedia konten pihak ketiga. SeaPRwire (https://www.seaprwire.com/) tidak memberikan jaminan atau pernyataan sehubungan dengan hal tersebut.

Sektor: Top Story, Daily News

SeaPRwire menyediakan distribusi siaran pers real-time untuk perusahaan dan lembaga, menjangkau lebih dari 6.500 toko media, 86.000 editor dan jurnalis, dan 3,5 juta desktop profesional di 90 negara. SeaPRwire mendukung distribusi siaran pers dalam bahasa Inggris, Korea, Jepang, Arab, Cina Sederhana, Cina Tradisional, Vietnam, Thailand, Indonesia, Melayu, Jerman, Rusia, Prancis, Spanyol, Portugis dan bahasa lainnya.