Teks lengkap pidato terbaru Li Feifei: Mesin dapat "memahami" gambar dan video, tetapi kami masih di titik awal penelitian kecerdasan buatan

Sumber: Lingkaran Penelitian

akhir pekan lalu, Salah satu ilmuwan paling terkemuka di bidang kecerdasan buatan: Li Feifei, profesor tetap Universitas Stanford dan kepala ilmuwan Google Cloud Pada pertemuan tahunan Future Forum, kami memberikan pidato luar biasa yang disebut "Visual Intelligence Beyond ImageNet". Dia memberi tahu kami, AI tidak hanya dapat mengidentifikasi objek secara akurat, tetapi juga memahami konten gambar, bahkan menulis artikel pendek berdasarkan gambar, dan "memahami" video ...

Pidato Li Feifei

Menyelesaikan dan menerjemahkan Wei Xiao

Yang saya bawakan untuk Anda hari ini adalah beberapa ide penelitian terbaru kami Hari ini, pidato saya tentang kecerdasan visual. Kita semua tahu bahwa ada banyak jenis hewan di bumi, kebanyakan dari mereka memiliki mata, yang memberi tahu kita bahwa penglihatan adalah cara merasakan dan kognisi yang paling penting. Sangat penting untuk kelangsungan hidup dan perkembangan hewan.

Jadi, apakah kita berbicara tentang kecerdasan hewan atau kecerdasan mesin, Visi adalah landasan yang sangat penting . Di antara sistem yang ada di dunia ini, yang paling kita pahami saat ini adalah sistem visual manusia. Sejak letusan Kambrium lebih dari 500 juta tahun yang lalu, sistem visual kita terus berevolusi dan berkembang, dan proses penting ini memungkinkan kita untuk memahami dunia. dan Sistem visual adalah sistem paling kompleks di otak kita. Korteks yang bertanggung jawab untuk pemrosesan visual di otak menyumbang 50% dari semua korteks. Ini memberi tahu kita bahwa sistem visual manusia sangat luar biasa.

Ledakan spesies Kambrium Sumber: genesispark.com

Seorang psikolog kognitif telah melakukan eksperimen yang sangat terkenal. Eksperimen ini dapat memberi tahu Anda betapa menakjubkannya sistem visual manusia. Tonton video ini: Tugas Anda adalah mengangkat tangan jika Anda melihat seseorang. Waktu penyajian tiap gambar sangat singkat, yaitu 1/10 detik. Tidak hanya itu, jika Anda meminta semua orang untuk mencari seseorang, Anda tidak tahu orang seperti apa orang tersebut, atau di mana orang tersebut berdiri, postur tubuh apa yang mereka gunakan, dan pakaian apa yang mereka kenakan. Namun, Anda tetap dapat mengidentifikasinya dengan cepat dan akurat. orang-orang.

Pada tahun 1996, makalah psikolog dan ahli saraf Prancis terkenal Simon J. Thorpe membuktikan bahwa kemampuan kognitif visual adalah kemampuan yang paling luar biasa di otak manusia, karena kecepatannya sangat cepat, sekitar 150 milidetik. Dalam 150 milidetik, otak kita dapat membedakan gambar yang sangat kompleks dengan dan tanpa hewan . Pada masa itu, komputer dan manusia sangat berbeda. Hal ini menginspirasi para ilmuwan komputer. Masalah paling mendasar yang ingin mereka selesaikan adalah masalah pengenalan gambar.

Di luar ImageNet, apa yang dapat kita lakukan selain pengenalan objek murni?

Dua puluh tahun kemudian, para ahli di bidang komputer juga telah menemukan beberapa generasi teknologi untuk pengenalan objek, yang dikenal dengan ImageNet. Kami telah membuat kemajuan besar di bidang pengenalan gambar: Dalam 8 tahun, di Tantangan ImageNet, tingkat kesalahan klasifikasi gambar komputer telah berkurang 10 kali lipat. Pada saat yang sama, revolusi besar dalam 8 tahun terakhir juga telah muncul: Pada tahun 2012, kemunculan jaringan saraf konvolusional dan teknologi GPU (Graphic Processing Unit) telah membawa perkembangan visi komputer dan penelitian kecerdasan buatan. Mengatakan itu adalah kemajuan yang sangat menarik. Sebagai seorang ilmuwan, saya juga berpikir, Di luar ImageNet, apa yang dapat kita lakukan selain pengenalan objek murni?

Dalam 8 tahun, di Tantangan ImageNet, tingkat kesalahan klasifikasi gambar komputer telah berkurang 10 kali lipat. Sumber gambar: dsiac.org

Izinkan saya memberi tahu Anda melalui sebuah contoh: kedua gambar tersebut berisi binatang dan seseorang Jika Anda hanya mengamati hal-hal yang muncul dalam dua gambar ini, kedua gambar tersebut sangat mirip, tetapi cerita yang ditampilkannya sama sekali berbeda. . Tentu saja, Anda tentu tidak ingin muncul dalam adegan pada gambar di sebelah kanan.

Ini mewujudkan masalah yang sangat penting, yaitu, fungsi pengenalan gambar paling penting dan dasar yang dapat dilakukan manusia Pahami hubungan antar objek pada gambar . Untuk mensimulasikan manusia, dalam tugas pengenalan gambar komputer, inputnya adalah gambar, dan informasi yang dikeluarkan oleh komputer mencakup objek dalam gambar, posisinya, dan hubungan antar objek. Saat ini kami memiliki beberapa pekerjaan pendahuluan, tetapi sebagian besar hubungan antar objek dinilai oleh komputer sangat terbatas.

Baru-baru ini kami memulai studi baru, Kami menggunakan algoritme pembelajaran mendalam dan model bahasa visual agar komputer memahami hubungan antara objek yang berbeda dalam gambar .

Komputer dapat memberi tahu kita hubungan spasial antara objek yang berbeda, membandingkannya, mengamati apakah objek tersebut simetris, dan kemudian memahami tindakan di antara objek tersebut dan hubungan posisi di antara objek tersebut. Jadi ini adalah cara yang lebih kaya untuk memahami dunia visual kita, tidak hanya sekadar mengidentifikasi nama dari sekumpulan objek.

Deteksi Hubungan Visual dengan Priors Bahasa. ECCV.2016

Lebih menarik lagi, Kita bahkan dapat membiarkan komputer mewujudkan pengenalan hubungan objek Zero short (zero sample learning) . Misalnya, gunakan gambar seseorang yang duduk di kursi dengan hidran kebakaran di samping algoritme pelatihan. Kemudian ambil gambar lainnya, duduk sendirian di hidran. Meskipun algoritme belum melihat gambar ini, algoritme dapat menyatakan bahwa ini adalah "seseorang yang duduk di hidran kebakaran". Demikian pula, algoritme dapat mengenali "kuda bertopi", meskipun hanya ada gambar "orang yang menunggang kuda" dan "orang bertopi" di set pelatihan.

Biarkan AI memahami gambar

Setelah masalah pengenalan objek diselesaikan secara luas, tujuan kita selanjutnya adalah keluar dari objek itu sendiri dan fokus pada hubungan yang lebih luas antara objek, bahasa, dan sebagainya.

ImageNet telah memberikan banyak manfaat kepada kami, tetapi informasi yang dapat dikenali dari gambar sangat terbatas. Software COCO dapat mengenali beberapa objek dalam sebuah adegan dan dapat menghasilkan kalimat pendek yang mendeskripsikan adegan tersebut. Tetapi data informasi visual lebih dari itu. Setelah tiga tahun penelitian, kami telah menemukan metode yang lebih kaya untuk mendeskripsikan konten ini, melalui tag yang berbeda, mendeskripsikan objek ini, termasuk properti, atribut, dan hubungannya, dan kemudian membangunnya melalui peta semacam itu. Hubungan antara, kami sebut Dataset Genom Visual . Kumpulan data ini berisi lebih dari 100.000 gambar, lebih dari 1 juta atribut dan tag hubungan, serta jutaan deskripsi dan pesan Tanya Jawab. Dalam kumpulan data seperti milik kita, ini dapat dengan sangat akurat memungkinkan kita melampaui pengenalan objek untuk melakukan penelitian yang lebih akurat tentang pengenalan hubungan antar objek.

Sumber gambar: Visualgenome.org

Jadi bagaimana kita menggunakan alat ini? Pengenalan pemandangan adalah contohnya : Ini adalah tugas sederhana untuk melihatnya sendiri, seperti mencari "pria berjas" atau "anak anjing lucu" di Google, dan Anda bisa mendapatkan hasil yang ideal secara langsung. Tapi ketika Anda mencari "pria berjas memegang anak anjing lucu", performanya menjadi lebih buruk Hubungan antar objek merupakan hal yang sulit untuk ditangani .

Saat mencari gambar, sebagian besar algoritma mesin pencari hanya dapat menggunakan informasi dari objek itu sendiri. Algoritme hanya memahami objek apa saja yang ada dalam gambar, tetapi ini tidak cukup . Misalnya, jika kita mencari gambar seorang pria yang duduk di kursi, jika kita dapat memasukkan semua hubungan di luar objek dan di dalam adegan, lalu menemukan cara untuk mengekstrak hubungan yang tepat, hasilnya akan lebih baik.

Di 2015, kami mulai mengeksplorasi metode presentasi baru ini, Kita bisa memasukkan paragraf deskriptif yang sangat panjang, memasukkannya ke dalam dataset ImageNet, dan kemudian membandingkannya dengan grafik adegan kita , Kami dapat membantu kami melakukan penelusuran yang baik melalui algoritme ini, yang jauh melebihi hasil yang telah kami lihat pada teknologi penelusuran gambar sebelumnya.

Saya mencobanya hari ini (1 November 2017), dan keakuratan Gambar Google telah meningkat secara signifikan

Ini terlihat bagus, tetapi semua orang akan memiliki pertanyaan, Di mana saya dapat menemukan gambar pemandangan ini? Membuat grafik pemandangan adalah hal yang sangat rumit dan sulit. Grafik adegan saat ini dalam kumpulan data Genom Visual adalah Didefinisikan secara manual , Entitas, struktur, hubungan antara entitas, dan pencocokan gambar semuanya dilakukan secara manual oleh kami. Prosesnya cukup menyakitkan, dan kami tidak ingin melakukan pekerjaan ini untuk setiap adegan di masa mendatang.

Jadi langkah kita selanjutnya adalah berharap itu Sebuah teknik untuk menghasilkan grafik pemandangan secara otomatis . Jadi kami membuat skema untuk menghasilkan grafik adegan secara otomatis dalam artikel CVPR yang diterbitkan musim panas ini: Untuk gambar input, pertama-tama kami mendapatkan hasil kandidat dari pengenalan objek, dan kemudian menggunakan algoritma penalaran grafik untuk mendapatkan entitas dan entitas Hubungan dan sebagainya; proses ini dilakukan secara otomatis.

Pembuatan Grafik Adegan oleh Iterative Message Passing. CVPR.2017

Bisakah kecerdasan buatan membaca video seperti manusia?

Kumpulan data Visual Genome memungkinkan komputer untuk lebih memahami informasi adegan, tetapi itu tidak cukup. Faktanya, hingga saat ini, kami hanya mengeksplorasi konsep yang dibahas oleh psikolog kognitif - persepsi inti adegan: hanya sekilas yang dapat menangkap objek di seluruh adegan dan di antara mereka. Hubungan. Bagaimana dengan ini?

Saya ingin kembali dan melihat eksperimen psikologi yang saya lakukan ketika saya menjadi mahasiswa doktoral di Institut Teknologi California sepuluh tahun yang lalu. Saya merekrut subjek manusia dengan biaya $ 10 / jam dan dengan cepat menunjukkan kepada mereka serangkaian foto melalui monitor. Setelah setiap foto berkedip, itu ditutupi dengan gambar yang mirip dengan wallpaper, dengan tujuan membersihkan informasi yang tertinggal di retina mereka. Kemudian minta mereka untuk menulis sebanyak yang mereka bisa lihat. Beberapa foto hanya menampilkan 1/40 detik (27 milidetik), dan beberapa foto menunjukkan 0,5 detik, subjek kami dapat memahami informasi pemandangan dalam waktu yang singkat. Jika biaya percobaan yang saya berikan lebih tinggi, Anda bahkan dapat melakukannya dengan lebih baik. Evolusi telah memberi kita kemampuan untuk menceritakan sebuah cerita panjang hanya dengan melihat gambar .

Sejak 2015, kami telah menggunakan jaringan saraf konvolusional dan algoritma jaringan saraf berulang seperti LSTM untuk membangun hubungan antara gambar dan bahasa. Dari dulu Kita bisa membuat komputer mencocokkan hampir semua hal dengan kalimat . Ambil dua contoh ini, "seorang pekerja dengan rompi oranye sedang membuka jalan" dan "seorang pria berkemeja hitam sedang memainkan gitar".

Namun informasi yang terkandung dalam gambar sangat kaya, kalimat pendek saja tidak cukup untuk mencakup semuanya, jadi langkah kita selanjutnya adalah menangkap padat (dense capture). Biarkan komputer membagi gambar menjadi beberapa bagian, lalu gambarkan setiap bagian secara terpisah, alih-alih hanya mendeskripsikan keseluruhan adegan dalam satu kalimat .

Penyelarasan Visual-Semantik Dalam untuk Menghasilkan Deskripsi Gambar. CVPR. 2015

Selain itu, pekerjaan yang kami lakukan tahun ini telah mencapai level baru, Komputer menghadapi gambar tidak hanya menjelaskan kalimat, tetapi juga menghasilkan paragraf teks, menghubungkannya dengan cara yang bermakna secara spasial . Ini sangat mirip dengan hasil yang dijelaskan oleh manusia dalam eksperimen yang dilakukan oleh psikolog kognitif.

Software COCO dapat menulis beberapa kalimat (bagian merah muda) berdasarkan gambar, dan algoritma baru dapat menghasilkan paragraf (bagian biru). Pendekatan Hirarkis untuk Menghasilkan Paragraf Gambar Deskriptif. CVPR. 2017

Namun kami tidak berhenti di sini, kami mulai membiarkan komputer mengenali video tersebut. Ini adalah bidang baru dan kaya dalam penelitian visi komputer. Ada banyak video di Internet dan bentuk data yang bermacam-macam, sangat penting untuk memahami video-video ini. Kita dapat menggunakan model tangkapan padat yang serupa dengan yang di atas untuk menggambarkan segmen cerita yang lebih panjang. Dengan menambahkan elemen waktu, komputer dapat mengenali sebuah video dan mendeskripsikannya .

Kombinasi kognisi visual dan penalaran logis

Terakhir, saya ingin berbicara tentang bagaimana kita dapat membuat kecerdasan buatan mencapai tingkat yang digerakkan oleh tugas di luar kognisi sederhana. Sejak awal, manusia berharap menggunakan bahasa untuk memberi robot sebutan, dan kemudian robot menggunakan metode visual untuk mengamati dunia, memahami dan menyelesaikan tugas. .

Pada 1970-an dan 1980-an, para pelopor kecerdasan buatan telah mempelajari cara membuat komputer menyelesaikan tugas sesuai dengan instruksi mereka. Misalnya, dalam contoh berikut, manusia berkata: "Piramida biru itu bagus. Saya suka kubus yang tidak merah, tapi saya tidak suka apapun yang piramida. Apakah saya suka kotak abu-abu?" Kemudian mesin atau kecerdasan buatan akan menjawab: "Tidak, karena ini dilapisi dengan piramida." Ia dapat memahami dan bernalar tentang dunia yang kompleks ini.

Baru-baru ini, kami bekerja sama dengan Facebook untuk meneliti ulang masalah semacam ini dan membuat pemandangan dengan berbagai benda geometris, yang kami beri nama kumpulan data Clever. Yang ini Kumpulan data berisi pertanyaan dan jawaban berpasangan, yang melibatkan identifikasi, penghitungan, perbandingan, hubungan spasial, dll. Dari atribut . Kami akan mengajukan pertanyaan kecerdasan buatan untuk melihat bagaimana ia akan memahami, menalar, dan memecahkan masalah ini.

Kami membandingkan kecerdasan buatan dan jawaban manusia untuk jenis pertanyaan penalaran ini: Manusia dapat mencapai akurasi lebih dari 90%, meskipun mesin dapat mencapai hampir 70% , Namun masih ada celah yang sangat besar . Kesenjangan ini karena manusia dapat menggabungkan penalaran, tetapi mesin tidak bisa.

Jadi kami mulai mencari kecerdasan buatan Cara untuk tampil lebih baik : Kami menguraikan pertanyaan menjadi segmen program dengan fungsi, lalu melatih mesin eksekusi yang dapat menjawab pertanyaan tersebut berdasarkan segmen program. Skema ini memiliki kemampuan kombinatorial yang jauh lebih tinggi ketika mencoba bernalar tentang masalah dunia nyata. Kami baru saja menerbitkan karya ini di ICCV.

Misalnya, jika kita bertanya "Apa bentuk benda ungu itu?", Jawaban itu akan "adalah kubus" dan dapat menemukan posisi kubus ungu dengan akurat. Ini menunjukkan bahwa alasannya benar. Itu juga bisa menghitung jumlah hal. Semua ini menunjukkan bahwa algoritme dapat bernalar tentang adegan tersebut.

Secara umum, yang saya bagikan dengan Anda adalah serangkaian Bekerja di luar ImageNet :

Pertama-tama, visi komputer dapat melakukan lebih dari sekedar pengenalan objek Pengenalan relasi, representasi semantik kompleks, dan konstruksi gambar pemandangan

Setelah itu, kami menggunakan pemrosesan vision + bahasa Penandaan kalimat tunggal, pembuatan paragraf, pemahaman video, penalaran bersama

Terakhir, ada visi berbasis tugas, yang masih merupakan bidang yang baru saja dimulai. Saya percaya bahwa kombinasi visi dan logika akan benar-benar bergandengan tangan di bidang ini .

Visi manusia telah berkembang sejak lama, Meskipun pengenalan visual komputer telah membuat kemajuan besar dalam 60 tahun setelah kemunculannya, ini masih merupakan disiplin yang baru muncul. .

Ini adalah foto putri saya ketika dia berumur 20 bulan. Kemampuan visual adalah bagian penting dari kehidupannya sehari-hari. Dia membaca, menggambar, mengamati emosi, dan menjalin berbagai hubungan dengan dunia, dll, tetapi tidak satupun dari ini Pertanyaan sangat penting untuk pertumbuhannya. Kognisi visual, atau kecerdasan visual, sangat, sangat penting untuk pemahaman manusia, komunikasi, kolaborasi, interaksi, dll., Dan kami baru saja mulai menjelajahi dunia baru ini. .