Riset DeepMind Baru: Menggunakan Reinforced Adversarial Learning untuk Mensintesis Program Gambar

Leifeng.com AI Technology Review Press: Baru-baru ini, sebuah blog terbitan DeepMind menyebutkan sebuah badan kecerdasan buatan baru yang bisa menyimpulkan konstruksi angka, karakter, dan potret. Lebih penting lagi, mereka belajar melakukan ini sendiri, daripada mengandalkan kumpulan data yang diberi label secara manual.

Dunia nyata bukan hanya gambaran yang terpantul di mata kita. Misalnya, saat kita melihat sebuah bangunan dan menghargai kerumitan desainnya, kita juga menghargai keahlian yang dibutuhkannya. Cara berpikir seperti ini memungkinkan kita untuk memiliki pemahaman yang lebih kaya tentang dunia dan juga merupakan salah satu perwujudan penting dari kebijaksanaan manusia.

Para peneliti di DeepMind berharap sistem mereka dapat menciptakan ekspresi dunia kaya yang sama. Misalnya, saat mengamati gambar sebuah lukisan, diharapkan sistem dapat memahami sapuan kuas yang digunakan untuk membuat lukisan, bukan hanya piksel yang ditampilkan di layar.

Dalam pekerjaan ini, para peneliti melengkapi agen buatan (agen) dengan alat yang sama yang digunakan manusia untuk menghasilkan gambar, dan membuktikan bahwa mereka dapat menyimpulkan bagaimana angka, orang, dan potret dibangun. Lebih penting lagi, mereka belajar sendiri bagaimana melakukan ini, daripada melalui kumpulan data yang diberi label secara artifisial. Ini adalah kebalikan dari penelitian terbaru yang disebut "Representasi Saraf dari Gambar Sketsa" yang mengandalkan pembelajaran dari pengalaman manusia. Pembelajaran yang mengandalkan pengalaman manusia biasanya memakan waktu.

Peneliti merancang agen pembelajaran penguatan mendalam yang dapat berinteraksi dengan program melukis komputer. Sapuan kuas ditempatkan pada kanvas digital dan ukuran kuas, tekanan dan warna berubah. Kuas dari agen yang tidak terlatih bersifat acak dan tidak memiliki maksud atau struktur yang jelas. . Untuk mengatasinya, peneliti perlu membuat metode reward yang mendorong agen untuk menghasilkan gambar yang bermakna.

Untuk tujuan ini, para peneliti melatih jaringan saraf kedua, yang disebut diskriminator. Tujuan utamanya adalah untuk memprediksi apakah gambar tertentu diproduksi oleh agen atau diambil sampelnya dari kumpulan data foto asli. Agen dihargai dengan "menipu" diskriminator dengan berpikir bahwa lukisan mereka nyata. Dengan kata lain, sinyal reward dari agen adalah belajar. Meskipun ini mirip dengan metode yang digunakan di Generative Adversarial Networks (GAN), ini tidak sama. Karena generator dalam pengaturan jaringan GAN biasanya merupakan jaringan saraf yang langsung mengeluarkan piksel. Agen di sini menghasilkan gambar dengan menulis program grafik untuk berinteraksi dengan lingkungan gambar.

Pada set percobaan pertama, agen dilatih untuk menghasilkan gambar yang mirip dengan nomor MNIST: ini menunjukkan seperti apa nomor itu, tetapi tidak menunjukkan bagaimana gambar itu diambil. Dengan mencoba menghasilkan gambar yang menipu pembeda, agen belajar untuk mengontrol kuas dan memanipulasinya untuk beradaptasi dengan gaya bilangan yang berbeda Ini adalah teknik yang disebut sintesis prosedural visual.

Peneliti juga melatihnya untuk mereproduksi gambar tertentu. Di sini, tujuan dari diskriminator adalah untuk menentukan apakah citra yang direproduksi merupakan salinan dari citra sasaran atau apakah itu dihasilkan oleh agen. Semakin sulit membedakan diskriminator, semakin banyak penghargaan yang akan diterima agen.

Yang terpenting, kerangka kerja ini juga dapat ditafsirkan karena menghasilkan serangkaian tindakan yang mengontrol sikat analog. Ini berarti bahwa model dapat menerapkan pengetahuan yang telah dipelajari dalam program gambar simulasi ke rekonstruksi karakter di lingkungan serupa lainnya, seperti pada lengan robot palsu atau nyata.

Ini juga memungkinkan untuk memperluas kerangka kerja ini ke kumpulan data nyata. Agen dilatih untuk menggambar ekspresi wajah selebriti dan dapat menangkap fitur utama wajah, seperti bentuk, nada, dan gaya rambut, seperti seniman jalanan yang menggunakan kuas dalam jumlah terbatas untuk melukis potret:

Mengekstrak representasi terstruktur informasi dari perasaan primitif adalah kemampuan yang mudah dimiliki dan sering digunakan manusia. Dalam karya ini, para peneliti menunjukkan bahwa agen dapat dipandu untuk menghasilkan representasi yang serupa dengan memungkinkan agen mendapatkan alat yang sama seperti manusia untuk mereproduksi dunia. Dengan melakukan itu, mereka belajar membuat program visual untuk mengekspresikan kausalitas secara ringkas, yang meningkatkan daya pengamatan mereka. Meskipun pekerjaan ini saat ini hanya merupakan langkah kecil menuju sintesis program yang fleksibel, diharapkan teknologi serupa akan dibutuhkan untuk memungkinkan agen memiliki kognisi seperti manusia, termasuk kemampuan generalisasi dan komunikasi.

Makalah terkait : Menyintesis Program untuk Gambar menggunakan Reinforced Adversarial Learning

Kompilasi bersih Lei Feng

melalui DeepMind

Leifeng.com asli

Itu bisa diganti namanya minggu ini "Kontes Foto Buku dengan Martabat"

Sebelumnya

"Wandering Earth" memecahkan 4 miliar dialog mendalam dengan Liu Cixin: Seperti apa tindak lanjutnya?

Lanjut

: Predator dan alien "saling mencintai dan membunuh", dan berjalan seiring selama 14 tahun

: Rasakan keindahan warna film, Fuji X-A3 yang menakjubkan

: Tahap PFC pengisi daya kendaraan listrik membutuhkan efisiensi tertinggi-kaskode SiC dapat memenuhi persyaratan

: Investigasi stasiun pemaparan | Terkejut! Pencucian mobil melonjak dari 25 yuan menjadi 60 yuan Berapa banyak kenaikan harga kolektif yang Anda alami selama liburan?

: Jangan menunggu sampai 2045, sekarang Anda bisa membangun Oasis |

: Pengamatan Festival Musim Semi di Tahun Jihai

: Yao Chen, pahlawan kembar Ma Yili di panggung yang sama, "Find You" memasuki file Hari Nasional

: Rilis flagship baru Sony 8K CES2019 menghadirkan pilihan VIP terbaik untuk home theater

: Deskripsi singkat tentang karakteristik sumber pencahayaan UIV OLED, memahami cahaya yang berbeda

: Mengapa investasi alternatif bisa menang

: "Super-Large Beauty" diatur pada 8.28 "Fancy Boast" gratis untuk dipelajari! Baojiaobaohui!

: Strategi Layar Besar di Era 8K Wawancara dengan Eksekutif Sony di CES2019

Riset DeepMind Baru: Menggunakan Reinforced Adversarial Learning untuk Mensintesis Program Gambar

Informasi Terkait

Cerdas dan cepat, SanDisk iXpand Mini menikmati flash drive seluler untuk mendapatkan pendamping Apple terbaik tahun ini

Pembukaan era baru, ulasan lengkap "2018 China Artificial Intelligence Security Summit"

Sisa hidup saya akan ditemani oleh pajak, dan kepemilikan ekuitas akan menjadi lebih menyakitkan!

Era baru dan titik awal baru, platform pintar Lenovo yang mencakup semua kategori

Anda hanya tahu bahwa peragaan busana sangat modis, tetapi Anda tidak tahu betapa malunya pertunjukan di belakang panggung

Nasib buruk datang bersamaan. Bisakah Tesla selamat dari Mercury retrograde dengan aman?

Apakah Thailand benar-benar "negara Buddha" yang bergerak lambat?

Film bencana terindah "Hurricane Waves" mengekspos stills Tanabata dan memenangkan tiga nominasi untuk Youth Choice

Rasakan keindahan fotografi

Bekerja sama dengan Baidu Cloud, Shunzhou Intelligent berpartisipasi dalam Baidu Cloud Intelligence Summit 2018