Leifeng.com AI Technology Review Press: Baru-baru ini, sebuah blog terbitan DeepMind menyebutkan sebuah badan kecerdasan buatan baru yang bisa menyimpulkan konstruksi angka, karakter, dan potret. Lebih penting lagi, mereka belajar melakukan ini sendiri, daripada mengandalkan kumpulan data yang diberi label secara manual.
Dunia nyata bukan hanya gambaran yang terpantul di mata kita. Misalnya, saat kita melihat sebuah bangunan dan menghargai kerumitan desainnya, kita juga menghargai keahlian yang dibutuhkannya. Cara berpikir seperti ini memungkinkan kita untuk memiliki pemahaman yang lebih kaya tentang dunia dan juga merupakan salah satu perwujudan penting dari kebijaksanaan manusia.
Para peneliti di DeepMind berharap sistem mereka dapat menciptakan ekspresi dunia kaya yang sama. Misalnya, saat mengamati gambar sebuah lukisan, diharapkan sistem dapat memahami sapuan kuas yang digunakan untuk membuat lukisan, bukan hanya piksel yang ditampilkan di layar.
Dalam pekerjaan ini, para peneliti melengkapi agen buatan (agen) dengan alat yang sama yang digunakan manusia untuk menghasilkan gambar, dan membuktikan bahwa mereka dapat menyimpulkan bagaimana angka, orang, dan potret dibangun. Lebih penting lagi, mereka belajar sendiri bagaimana melakukan ini, daripada melalui kumpulan data yang diberi label secara artifisial. Ini adalah kebalikan dari penelitian terbaru yang disebut "Representasi Saraf dari Gambar Sketsa" yang mengandalkan pembelajaran dari pengalaman manusia. Pembelajaran yang mengandalkan pengalaman manusia biasanya memakan waktu.
Peneliti merancang agen pembelajaran penguatan mendalam yang dapat berinteraksi dengan program melukis komputer. Sapuan kuas ditempatkan pada kanvas digital dan ukuran kuas, tekanan dan warna berubah. Kuas dari agen yang tidak terlatih bersifat acak dan tidak memiliki maksud atau struktur yang jelas. . Untuk mengatasinya, peneliti perlu membuat metode reward yang mendorong agen untuk menghasilkan gambar yang bermakna.
Untuk tujuan ini, para peneliti melatih jaringan saraf kedua, yang disebut diskriminator. Tujuan utamanya adalah untuk memprediksi apakah gambar tertentu diproduksi oleh agen atau diambil sampelnya dari kumpulan data foto asli. Agen dihargai dengan "menipu" diskriminator dengan berpikir bahwa lukisan mereka nyata. Dengan kata lain, sinyal reward dari agen adalah belajar. Meskipun ini mirip dengan metode yang digunakan di Generative Adversarial Networks (GAN), ini tidak sama. Karena generator dalam pengaturan jaringan GAN biasanya merupakan jaringan saraf yang langsung mengeluarkan piksel. Agen di sini menghasilkan gambar dengan menulis program grafik untuk berinteraksi dengan lingkungan gambar.
Pada set percobaan pertama, agen dilatih untuk menghasilkan gambar yang mirip dengan nomor MNIST: ini menunjukkan seperti apa nomor itu, tetapi tidak menunjukkan bagaimana gambar itu diambil. Dengan mencoba menghasilkan gambar yang menipu pembeda, agen belajar untuk mengontrol kuas dan memanipulasinya untuk beradaptasi dengan gaya bilangan yang berbeda Ini adalah teknik yang disebut sintesis prosedural visual.
Peneliti juga melatihnya untuk mereproduksi gambar tertentu. Di sini, tujuan dari diskriminator adalah untuk menentukan apakah citra yang direproduksi merupakan salinan dari citra sasaran atau apakah itu dihasilkan oleh agen. Semakin sulit membedakan diskriminator, semakin banyak penghargaan yang akan diterima agen.
Yang terpenting, kerangka kerja ini juga dapat ditafsirkan karena menghasilkan serangkaian tindakan yang mengontrol sikat analog. Ini berarti bahwa model dapat menerapkan pengetahuan yang telah dipelajari dalam program gambar simulasi ke rekonstruksi karakter di lingkungan serupa lainnya, seperti pada lengan robot palsu atau nyata.
Ini juga memungkinkan untuk memperluas kerangka kerja ini ke kumpulan data nyata. Agen dilatih untuk menggambar ekspresi wajah selebriti dan dapat menangkap fitur utama wajah, seperti bentuk, nada, dan gaya rambut, seperti seniman jalanan yang menggunakan kuas dalam jumlah terbatas untuk melukis potret:
Mengekstrak representasi terstruktur informasi dari perasaan primitif adalah kemampuan yang mudah dimiliki dan sering digunakan manusia. Dalam karya ini, para peneliti menunjukkan bahwa agen dapat dipandu untuk menghasilkan representasi yang serupa dengan memungkinkan agen mendapatkan alat yang sama seperti manusia untuk mereproduksi dunia. Dengan melakukan itu, mereka belajar membuat program visual untuk mengekspresikan kausalitas secara ringkas, yang meningkatkan daya pengamatan mereka. Meskipun pekerjaan ini saat ini hanya merupakan langkah kecil menuju sintesis program yang fleksibel, diharapkan teknologi serupa akan dibutuhkan untuk memungkinkan agen memiliki kognisi seperti manusia, termasuk kemampuan generalisasi dan komunikasi.
Makalah terkait : Menyintesis Program untuk Gambar menggunakan Reinforced Adversarial Learning
Kompilasi bersih Lei Feng
melalui DeepMind
Leifeng.com asli
- Tahap PFC pengisi daya kendaraan listrik membutuhkan efisiensi tertinggi-kaskode SiC dapat memenuhi persyaratan