--> -->

Peneliti Google Temukan Cara Mengekstrak Data Pelatihan ChatGPT

dataset-chatgpt-bocor

Tim peneliti Google baru-baru ini mengungkapkan bahwa mereka telah menemukan cara untuk mengekstrak sebagian data pelatihan dari ChatGPT, model AI buatan OpenAI.

Menurut penelitian yang dipublikasikan minggu lalu,  kata kunci tertentu dapat memaksa ChatGPT untuk mengungkapkan bagian dari dataset pelatihannya.

Salah satu contoh yang mengejutkan, dipublikasikan dalam sebuah blog, menunjukkan bahwa model tersebut mengeluarkan apa yang tampak sebagai alamat email dan nomor telepon yang nyata setelah diminta untuk mengulangi kata "poem" (puisi) tanpa henti. Para peneliti menyatakan bahwa terungkapnya informasi pribadi sering terjadi saat mereka menjalankan percobaan ini.

Kebocoran data pelatihan serupa juga terjadi ketika model kecerdasan buatan tersebut diminta untuk mengulangi kata "company" (perusahaan) tanpa henti dalam contoh lain.

Mereka mengatakan dalam makalah penelitian bahwa hanya dengan $200 nilai query, mereka mampu "mengekstrak lebih dari 10.000 contoh pelatihan unik yang dihafal secara verbatim (kata per kata)." 

OpenAI saat ini menghadapi beberapa gugatan terkait data pelatihan rahasia ChatGPT. Model AI yang menggerakkan ChatGPT dilatih menggunakan database teks dari internet dan diperkirakan telah dilatih pada sekitar 300 miliar kata, atau 570 GB, data.

Salah satu gugatan class-action yang diajukan mengklaim bahwa OpenAI "secara diam-diam" mencuri "jumlah besar data pribadi," termasuk catatan medis dan informasi tentang anak-anak, untuk melatih ChatGPT. Sebuah kelompok penulis juga menuntut perusahaan AI tersebut, menuduh mereka menyerap buku-buku mereka untuk melatih chatbot.

Iklan Atas Artikel

Iklan Tengah Artikel 1

Iklan Tengah Artikel 2

Iklan Bawah Artikel