Membuka visi mesin dan pemrosesan bahasa alami, Facebook mengizinkan mesin "melihat gambar dan berbicara"

(Versi Cina dan Inggris dari "MIT Technology Review" APP sekarang online, dan pelanggan tahunan menyiarkan langsung teknologi kuliah bahasa Inggris setiap minggu, dan ada juga komunitas belajar bahasa Inggris teknologi ~)

" Dialog visual "(Dialog Visual) adalah arah penelitian yang baru muncul. Ini mengintegrasikan tiga arah penelitian yang sangat populer: visi mesin, pemrosesan bahasa alami, dan sistem dialog. Tujuan utamanya adalah untuk mengajari mesin cara mengkomunikasikan data visual dengan manusia dalam bahasa alami.

Sistem dialog yang ada memiliki jangkauan kemampuan yang sangat luas: di satu ujung jangkauan ini adalah bot obrolan berbasis tugas yang dirancang untuk tujuan tertentu, seperti bot obrolan yang dapat membantu Anda memesan tiket pesawat, dan di ujung lainnya adalah chatbot yang dapat berbicara dengan Anda robot". Dalam rentang ini, dialog visual terletak di tengah-tengah dua ekstrem ini: dialog bebas, tetapi isi dialog dibatasi oleh gambaran tertentu.

Gambar | Kemungkinan penerapan di masa depan 1: Agen cerdas membantu (mengatur) seseorang untuk berhenti di depan hidran melalui kemampuan visual dan penalaran bahasa alami

Meskipun penelitian tentang dialog visual masih dalam tahap awal, teknologi ini sudah memiliki banyak skenario aplikasi. Misalnya, melalui serangkaian pertanyaan dan jawaban untuk membantu para penyandang low vision atau tunanetra memahami gambar online dan mengambil gambar di sekitar mereka, atau membantu staf medis lebih memahami pencitraan medis. Itu juga dapat digunakan dalam program virtual reality (VR) atau augmented reality (AR) untuk membantu pengguna berkomunikasi dengan mitra virtual dalam hal apa yang mereka lihat.

Gambar: Kemungkinan aplikasi di masa mendatang 2: Mitra virtual berkomunikasi dengan melihat gambar yang sama sebagai pengguna

Sebelum mencapai titik ini, kita perlu mengatasi banyak kesulitan mendasar. Baru-baru ini, Facebook telah melakukan penelitian pada dua poin: pertama adalah penalaran eksplisit konten visual, dan yang lainnya adalah dialog visual antropomorfik.

Buat alasan eksplisit tentang konten visual

Salah satu hubungan terpenting antara bahasa dan data visual adalah mengajukan pertanyaan dalam bahasa alami , Seperti: "Hewan apa yang ada dalam gambar?" Atau "Berapa banyak orang yang duduk di pantai?" Meskipun setiap masalah memerlukan solusi yang berbeda, sebagian besar sistem yang paling canggih saat ini menggunakan pendekatan holistik, seperti yang sama Grafik perhitungan atau jaringan untuk menghitung jawabannya. Namun, model ini memiliki interpretabilitas terbatas dan tidak efisien untuk tugas penalaran yang lebih kompleks, seperti "Berapa banyak objek yang memiliki volume yang sama dengan bola itu?" Yang ditunjukkan pada gambar di bawah.

Gambar | Modularisasi masalah dapat mencapai interpretabilitas dan penalaran komponen

Untuk mengatasi masalah ini, peneliti dari University of California, Berkeley mengusulkan "CVPR" (IEEE International Conference on Computer Vision and Pattern Recognition) pada tahun 2016. Jaringan Modul Saraf ", perhitungannya bisa dipecah menjadi modul-modul yang jelas.

Pada contoh di atas, satu modul akan "mencari" bola pada gambar, modul lain akan "mencari" objek dengan volume yang sama, dan modul terakhir akan menghitung "berapa" objek. Yang terpenting, modul ini dapat digunakan kembali untuk gambar dan pertanyaan yang berbeda Misalnya, modul "bola penemuan" juga dapat digunakan untuk menjawab pertanyaan "apakah ada lebih banyak bola daripada kubus pada gambar?" Dari gambar tersebut, kita juga dapat melihat bahwa langkah-langkah di tengah yang memberi tahu kita bagian mana yang dilihat oleh model melalui "Peta Perhatian" adalah keluaran yang dapat dimengerti.

Meskipun kesuksesan asli mengandalkan prosesor bahasa alami yang tidak dapat dibedakan, dua makalah di ICCV (International Computer Vision Conference) 2017 menunjukkan cara melatih sistem ini dari ujung ke ujung. Penulis kedua makalah ini telah menemukan bahwa pendekatan ini penting untuk menjawab pertanyaan komponen yang sulit dalam kumpulan data CLEVR. (Kumpulan data CLEVR adalah kumpulan data yang digunakan untuk menguji bahasa komponen dan penalaran visual dasar yang diterbitkan di CVPR 2016, yang kemudian diterbitkan bersama oleh Kantor Riset Kecerdasan Buatan Facebook (FAIR) dan Universitas Stanford).

Gambar | Pada artikel "Learning to Reason: End-to-End Module Networks for Visual Question Answer", penulis terlebih dahulu membuat kebijakan / prosedur jaringan saraf tiruan berulang (RNN) dengan encoder dan decoder pada soal tersebut . Program ini membangun jaringan modul dan menjalankan jaringan ini pada gambar untuk menjawab pertanyaan.

Namun, kedua makalah ini mengusulkan dua kerangka kerja yang berbeda. Pada makalah pertama (Inferring and Executing Programs for Visual Reasoning) yang diterbitkan bersama oleh Facebook Artificial Intelligence Research Institute dan Stanford University, para peneliti menggunakan parameter yang berbeda dalam modul yang berbeda, tetapi menggunakan jaringan yang sama. struktur. Dalam artikel kedua (Learning to Reason: End-to-End Module Networks for Visual Question Answer) yang diterbitkan bersama oleh Facebook Artificial Intelligence Research Institute, University of California, Berkeley, dan Boston University, penulis menggunakan modul yang berbeda. Metode penghitungan yang berbeda diadopsi, tetapi parameternya dibagikan melalui bahasa yang digunakan dalam pertanyaan yang disematkan.

Meskipun arsitektur kedua model tersebut berbeda, mereka telah mencapai kesimpulan yang sama: Kita perlu menggunakan program standar referensi (Ground Truth) yang benar untuk memastikan hasil ketika kita mengawasi prediksi program, tetapi kita hanya membutuhkan sedikit data pelatihan. Selain itu, makalah pertama (Inferring and Executing Programs) juga menunjukkan bahwa penggunaan pembelajaran yang diperkuat untuk membuat jaringan belajar yang terbaik ujung ke ujung jauh lebih baik daripada program standar referensi yang benar, dan dapat disesuaikan secara akurat untuk pertanyaan dan jawaban baru.

Baru-baru ini, dua arsitektur jaringan telah muncul: RelationNet dan FiLM . Tanpa menggunakan prosedur standar referensi yang benar selama pelatihan, keseluruhan jaringan yang menggunakan dua arsitektur ini tidak hanya mempertahankan kinerja, tetapi bahkan mencapai peningkatan. Tentu saja, ini juga berarti bahwa mereka telah kehilangan struktur penalaran aslinya yang jelas dan dapat dimengerti.

Selain itu, makalah pertama (Inferring and Executing Program) menggunakan pertanyaan yang dikumpulkan dari populasi alih-alih yang dihasilkan dalam kumpulan data CLEVR. Dalam hal ini, tidak ada model yang menunjukkan generalitas yang baik. Demikian pula, ketika menguji dengan gambar dan pertanyaan nyata dalam kumpulan data Visual Question Answer (VQA), makalah kedua (Learning to Reason) hanya mencapai peningkatan kinerja yang terbatas, kemungkinan besar karena kumpulan data VQA Masalahnya tidak membutuhkan penalaran yang sesulit dalam kumpulan data CLEVR. Secara umum, kami sangat senang dapat mengeksplorasi ide-ide baru di masa depan dan membangun model komponen dan penjelasan yang sesungguhnya untuk menjawab tantangan yang diciptakan oleh pengaturan dan prosedur baru di dunia nyata.

Dialog visual antropomorfik

Dhruv Batra, Devi Parikh, dan mahasiswanya di Institut Teknologi Georgia dan Universitas Carnegie Mellon melakukan penelitian tentang dialog bahasa alami yang disematkan dalam gambar, dan mengembangkan protokol pengumpulan data dialog dua orang baru untuk menghasilkan Kumpulan data dialog visual skala besar (VisDial). Dalam kumpulan data ini, terdapat 10 pasang pertanyaan dan jawaban untuk setiap dialog yang terdiri dari 120.000 gambar, dan total ada 1,2 juta pasang pertanyaan dan jawaban.

Gambar | Demonstrasi agen dialog visual. Pengguna akan mengupload gambar, dan agen akan memulai percakapan dengan judul, "Bangunan besar dengan menara lonceng di tengah", lalu menjawab serangkaian pertanyaan dari pengguna.

Karena dialog visual berada di persimpangan berbagai arah penelitian, dialog juga mendorong kerja sama antara berbagai bidang untuk memecahkan masalah bersama. Untuk membantu seluruh bidang ini, Batra dan Parikh merilis kumpulan data dialog visual dan kode sumber terkait kepada peneliti dialog sehingga mereka dapat mengembangkan kumpulan data mereka sendiri untuk masalah mereka sendiri.

Fitur penelitian dialog yang mungkin kontra-intuitif adalah ia memperlakukan dialog sebagai masalah pembelajaran yang diawasi statis daripada masalah pembelajaran agen interaktif. Intinya, di setiap putaran (t) supervised learning, model dialog secara artifisial "dimasukkan" ke dalam dialog antara dua manusia dan diminta untuk menjawab sebuah pertanyaan. Namun jawaban mesin akan langsung dibuang, karena pada babak selanjutnya (t + 1) mesin akan dibekali dengan standar acuan yang benar, yaitu dialog yang berisi jawaban manusia bukan jawaban mesin. Oleh karena itu, mesin tidak akan pernah dapat memandu percakapan, karena ini akan menyebabkan percakapan keluar dari kumpulan data dan tidak memungkinkan untuk mengevaluasi.

Untuk mengatasi masalah ini, peneliti dari Georgia Institute of Technology, Carnegie Mellon University, dan Facebook Artificial Intelligence Institute meluncurkan Didorong oleh tujuan pertama di dunia (pembelajaran penguatan mendalam) Untuk membantu melatih penjawab pertanyaan visual dan agen dialog visual: "Belajar Agen Dialog Visual Kooperatif dengan Pembelajaran Penguatan Mendalam".

Mereka mengembangkan permainan "menebak gambar" yang kooperatif, GuessWhich, yang membutuhkan Q-BOT "penanya" dan "penjawab" A-BOT untuk berdialog dalam bahasa alami. Sebelum permainan dimulai, A-BOT akan diberikan gambar yang tidak diketahui oleh Q-BOT, dan baik A-BOT dan Q-BOT akan diberikan deskripsi bahasa alami yang sama dari gambar tersebut. Di setiap babak berikutnya, Q-BOT akan menghasilkan pertanyaan, A-BOT akan menjawab pertanyaan ini, dan keduanya akan memperbarui status mereka. Setelah 10 putaran, Q-BOT harus menebak gambar ini, yaitu memilih gambar ini dari beberapa gambar.

Kami menemukan bahwa kinerja robot ini yang dilatih dengan peningkatan pembelajaran jauh melebihi robot yang diproduksi oleh pembelajaran tradisional yang diawasi. Hal yang paling menarik adalah meskipun Q-BOT pembelajaran yang diawasi akan mencoba meniru pertanyaan yang diajukan oleh manusia, Q-BOT dari pembelajaran yang disempurnakan akan mengubah strateginya dan mengajukan pertanyaan yang A-BOT lebih baik dalam menjawabnya, dan pada akhirnya menghasilkan informasi terbanyak yang paling bermanfaat bagi tim. Dialog.

Sebuah alternatif untuk pelatihan yang digerakkan oleh tujuan adalah dengan menggunakan kerugian konfrontatif atau kerugian perseptual yang dapat membedakan antara manusia dan menggantikan respons yang dihasilkan. Ide ini telah dipelajari oleh para peneliti dari Facebook Institute of Artificial Intelligence dan Georgia Institute of Technology, dan hasilnya akan diumumkan di NIPS 2017 (Neural Information Processing Systems Conference): "Best of Both Worlds: Mentransfer Pengetahuan dari Pembelajaran Diskriminatif ke Mode Dialog Visual Generatif ".

Selain itu, makalah yang diterbitkan oleh peneliti dari Max Planck Institute for Informatics di Jerman, University of California di Berkeley, dan Facebook Artificial Intelligence Institute: "Speaking the Same Language: Matching Machine to Human Captions by Adversarial Training" juga ditujukan untuk Pada topik ini. Makalah ini menyatakan bahwa menghasilkan banyak deskripsi untuk sebuah gambar pada saat yang sama memungkinkan model untuk mempelajari bagaimana menghasilkan deskripsi gambar yang lebih beragam dan antropomorfik daripada menghasilkan satu deskripsi pada satu waktu.

Kami membutuhkan kerja sama lintas bidang yang terbuka

Sebagai manusia, bagian terpenting dari fungsi otak kita adalah melalui pemrosesan visual, dan bahasa alami adalah cara kita berkomunikasi. Membuat agen kecerdasan buatan yang dapat menghubungkan penglihatan dan bahasa adalah tugas yang mengasyikkan dan sulit. Kami membahas dua arah penelitian dalam artikel ini: penalaran visual eksplisit dan dialog visual antropomorfik. Meskipun kami membuat kemajuan, masih banyak tantangan yang menanti kami. Untuk memastikan kemajuan yang berkelanjutan, penting untuk mematuhi kerja sama penelitian lintas-domain dasar terbuka jangka panjang antara Institut Penelitian Kecerdasan Buatan Facebook, komunitas akademik, dan seluruh ekosistem kecerdasan buatan.

Merek dalam negeri ini terjual 120 juta unit tahun lalu! Huawei, Xiaomi dan OV menatap

Sebelumnya

Jalan Cihuitang di Chengdu: organisasi amal terbesar di negara ini selama Republik Tiongkok

Lanjut

: Kecerdasan buatan "tiga pilar", mengapa Microsoft adalah raja?

: Mesin baru Redmi Snapdragon 636: meniru kamera vertikal Apple X, konfigurasi tinggi mendekati dua ribu yuan

: Tim profesor MIT Lu Guanda merancang "sirkuit gen" untuk menghilangkan sel kanker dengan lebih akurat

: "Atas Nama Tuan" sedang online, tetapi variety show idola Youku masih memiliki jalan panjang

: 800.000 industri teknologi tinggi sedang berkembang di sini, dan Optics Valley sedang terjadi

: Hong Kong, yang kurang dalam inovasi, dapat mengejar gelombang baru teknologi dengan "lift kompetisi kewirausahaan"?

: Siswa sekolah dasar menulis di tanah selama satu jam untuk membuat dan berpartisipasi dalam proses aktivitas "kaligrafi dan kaligrafi selebriti sejarah Sichuan" yang hanya dapat mereka alami

: Performa Kirin 970 sangat berani! Mengapa Huawei tidak menggunakannya untuk Xiaomi dan OV?

: Laporan terbaru dari "The Lancet": Stent jantung non-akut sebenarnya seefektif operasi kenyamanan?

: Bus Jinan memiliki 2 tempat istirahat yang penuh perhatian, para kandidat seni dapat beristirahat di siang hari

: Evergrande membantu pembangunan pangkalan pembibitan sapi potong pendukung di Desa Evergrande 50, Kabupaten Dafang. Upacara dividen 2018 sukses digelar

: OnePlus 6 meledak dengan layar penuh 2K + Snapdragon 845, Liu Zuohu: Hanya unggulan di masa depan!

Membuka visi mesin dan pemrosesan bahasa alami, Facebook mengizinkan mesin "melihat gambar dan berbicara"

Informasi Terkait

Meskipun Samsung S9 memiliki harga terendah di dunia, itu tidak dapat menyelamatkan kekalahan

Antutu: Snapdragon 845 berjalan melawan langit dirilis, kali ini Apple A11 disetujui!

Pernah menjadi anggota "China Cool Alliance"! Sekarang tidak ada intinya dalam menjiplak Apple

Tiga mesin andalan buatan dalam negeri dengan semburan promosi dari mulut ke mulut, Anda tidak akan rugi jika membelinya dengan mata tertutup!

Huashan adalah bahaya alam, inti dari kisah Lembah Optik: Mendorong petualangan dan mentolerir kegagalan

Yundui meluncurkan "Program Pelatihan Hijau" untuk meredakan kecemasan industri, dan memanfaatkan "media mandiri jangka menengah dan panjang" untuk menjadi tambang uang

Honor Play 7X "facelift kecil" mendarat di Amerika Utara! Dilengkapi dengan chip Kirin 2.3GHz

Pertandingan Piala-Vazquez 2 gol Real Madrid maju 5-2 Paris 2-0 Chelsea mengikat Arsenal

Presiden ponsel HTC tiba-tiba mengundurkan diri selama Tahun Baru! HTC bahkan lebih buruk

Perencana internasional mengunjungi Tan Hualin dan menyarankan agar orang dan kendaraan dipisahkan dan jalan menuju Menara Yellow Crane harus dibangun.