Penulis: François Charton, Guillaume Lample
Terjemahan: Feng Yu
Proofreading: Wu Jindi
Artikel ini adalah tentang 2650 kata , Dianjurkan untuk membaca 10 menit
Artikel ini memperkenalkan metode dan sistem untuk memecahkan masalah persamaan menggunakan teknologi terjemahan mesin saraf (NMT) dalam pembelajaran mendalam, yang menunjukkan potensi pembelajaran mendalam dalam berbagai aplikasi yang lebih luas.
Label: Jaringan Neural
AI Facebook mendirikan sistem AI pertama yang dapat menyelesaikan persamaan matematika tingkat lanjut menggunakan penalaran simbolik. Dengan mengembangkan metode baru untuk mengekspresikan ekspresi matematika kompleks sebagai bahasa, dan kemudian memperlakukan solusi tersebut sebagai masalah terjemahan jaringan saraf urutan-ke-urutan, kami membangun solusi untuk masalah integrasi dan persamaan diferensial orde pertama dan kedua Semua aspek lebih baik daripada sistem komputasi tradisional.
Sebelumnya, masalah seperti itu dianggap tidak dapat dicapai oleh model pembelajaran yang dalam, karena menyelesaikan persamaan kompleks membutuhkan ketelitian daripada perkiraan. Jaringan neural bagus dalam mencapai keberhasilan melalui pendekatan, seperti mengenali bahwa pola piksel tertentu kemungkinan besar adalah gambar anjing, atau fitur kalimat dalam satu bahasa cocok dengan fitur kalimat dalam bahasa lain. Memecahkan persamaan kompleks juga membutuhkan kemampuan untuk menangani data simbolik, seperti huruf pada persamaan b-4ac = 7. Variabel semacam itu tidak dapat langsung ditambahkan, dikalikan, atau dibagi. Hanya menggunakan pencocokan pola tradisional atau analisis statistik, jaringan saraf dibatasi pada masalah matematika yang sangat sederhana.
Solusi kami adalah metode baru yang memperlakukan persamaan kompleks sebagai kalimat dalam bahasa. Hal ini memungkinkan kami untuk memanfaatkan sepenuhnya teknologi yang telah terbukti efektif dalam Neural Machine Translation (NMT) untuk mengubah masalah menjadi solusi pada dasarnya melalui model pelatihan. Untuk mengimplementasikan metode ini, perlu dikembangkan metode untuk menguraikan ekspresi matematika yang ada menjadi tata bahasa yang mirip dan menghasilkan kumpulan data pelatihan berskala besar yang terdiri lebih dari 100 juta persamaan dan solusi berpasangan.
Ketika ribuan ekspresi yang tidak diketahui muncul (persamaan ini bukan bagian dari data pelatihan), model kami menunjukkan kecepatan yang lebih cepat dan akurasi yang lebih tinggi daripada perangkat lunak pemecahan persamaan berbasis aljabar tradisional, seperti Maple, Mathematica, dan Matlab . Karya ini tidak hanya menunjukkan bahwa pembelajaran yang dalam dapat digunakan untuk penalaran simbolik, tetapi juga menunjukkan bahwa jaringan saraf memiliki potensi untuk menyelesaikan berbagai tugas, termasuk yang tidak terkait dengan pengenalan pola. Kami akan membagikan metode kami dan detail metode untuk menghasilkan set pelatihan serupa.
Metode baru penerapan NMT
Orang yang pandai matematika simbolik sering kali mengandalkan intuisi. Mereka memiliki pemahaman tentang apa solusi untuk masalah yang diberikan, seperti mengamati apakah ada kosinus dalam fungsi terintegrasi, yang berarti bahwa integralnya mungkin memiliki sinus, dan kemudian melakukan pekerjaan yang diperlukan untuk membuktikan intuisi ini. Ini berbeda dengan perhitungan langsung yang diperlukan untuk aljabar. Dengan melatih model untuk mendeteksi pola dalam persamaan simbolik, kami percaya bahwa jaringan saraf dapat mengumpulkan petunjuk yang mengarah ke solusi mereka, yang secara kasar mirip dengan metode berbasis intuisi manusia untuk masalah kompleks. Oleh karena itu, kami mulai mengeksplorasi penalaran simbolik sebagai masalah NMT, di mana model dapat memprediksi solusi yang mungkin berdasarkan contoh masalah dan solusi pencocokannya.
Sebagai contoh, metode kami akan menunjukkan cara memperluas persamaan yang ada di sebelah kiri menjadi pohon ekspresi yang dapat digunakan sebagai input untuk model terjemahan. Untuk persamaan ini, masukan urutan awal ke model adalah: (tambah, kalikan, 3, daya, x, 2, kurangi, cosinus, kalikan, 2, x, 1)
Untuk mengimplementasikan aplikasi ini menggunakan jaringan syaraf tiruan, kita membutuhkan cara baru untuk merepresentasikan ekspresi matematika. Sistem NMT biasanya merupakan model urutan-ke-urutan (seq2seq) yang menggunakan urutan kata sebagai masukan dan keluaran urutan baru, memungkinkan mereka untuk menerjemahkan kalimat lengkap daripada kata-kata individual. Kami menggunakan metode dua langkah untuk menerapkan metode ini ke persamaan simbolik. Pertama, kami mengembangkan proses penguraian persamaan yang efektif, menyusun persamaan yang terdekomposisi di cabang-cabang struktur pohon, dan struktur pohon ini kemudian diperluas menjadi urutan yang sesuai dengan model seq2seq. Konstanta dan variabel bertindak sebagai daun, sedangkan operator (seperti plus dan minus) dan fungsi adalah simpul internal yang menghubungkan cabang-cabang pohon.
Meskipun tidak terlihat seperti bahasa tradisional, mengatur ekspresi dengan cara ini memberikan tata bahasa mirip bahasa untuk persamaan, di mana angka dan variabel adalah kata benda, dan operator bertindak sebagai kata kerja. Metode kami memungkinkan model NMT untuk belajar menyelaraskan solusi dari masalah struktur pohon tertentu dengan persamaan yang cocok (juga dilambangkan sebagai pohon), mirip dengan mencocokkan kalimat bahasa dengan terjemahan yang dikonfirmasi. Metode ini memungkinkan kita untuk menggunakan model NMT seq2seq off-the-shelf yang kuat untuk mengganti urutan kata dengan urutan simbol.
Buat kumpulan data pelatihan baru
Meskipun tata bahasa pohon ekspresi kami memungkinkan secara teoritis model NMT untuk secara efektif mengubah masalah matematika yang kompleks menjadi solusi persamaan, melatih model seperti itu akan membutuhkan banyak contoh. Selain itu, karena dua jenis masalah yang kami khawatirkan (persamaan integral dan diferensial), masalah yang dihasilkan secara acak tidak selalu memiliki solusi, sehingga kami tidak bisa begitu saja mengumpulkan persamaan dan memasukkannya ke dalam sistem. Kita perlu menghasilkan set pelatihan baru yang mencakup contoh persamaan terpecahkan yang direkonstruksi menjadi pohon ekspresi yang dapat dibaca model. Ini menghasilkan dua tupel persamaan dan solusi, mirip dengan korpus kalimat yang diterjemahkan antara berbagai bahasa. Koleksi kami juga harus jauh lebih besar daripada data pelatihan yang digunakan dalam studi sebelumnya di bidang ini, yang telah mencoba melatih sistem pada ribuan contoh. Karena jaringan neural hanya bekerja lebih baik jika memiliki lebih banyak data pelatihan, kami membuat kumpulan jutaan contoh.
Pembentukan kumpulan data ini mengharuskan kami untuk mengintegrasikan serangkaian teknologi pembersihan dan pembangkitan data. Misalnya, untuk persamaan integral simbolik kita, kita membalik metode penerjemahan: alih-alih menghasilkan masalah dan menemukan solusinya, menghasilkan solusi dan menemukan masalah mereka (turunannya) adalah tugas yang jauh lebih mudah. Metode menghasilkan masalah dari solusi ini (kadang-kadang disebut masalah pintu jebakan oleh para insinyur) membuatnya layak untuk membuat jutaan contoh integral. Kumpulan data yang terinspirasi dari terjemahan kami mencakup sekitar 100 juta contoh berpasangan, yang berisi subset dari masalah integrasi dan persamaan diferensial orde pertama dan kedua.
Kami menggunakan kumpulan data ini untuk melatih model transformator seq2seq dengan 8 kepala perhatian dan 6 lapisan. Transformer biasanya digunakan untuk tugas terjemahan, dan jaringan kami bertujuan untuk memprediksi solusi dari berbagai persamaan, seperti menentukan integral tak tentu dari fungsi tertentu. Untuk mengevaluasi kinerja model, kami menyediakan 5.000 ekspresi yang tidak diketahui ke model untuk memungkinkan sistem mengenali pola persamaan yang tidak muncul dalam pelatihan. Model kami menunjukkan akurasi 99,7% saat menyelesaikan masalah integral. Untuk persamaan diferensial orde satu dan kedua, akurasinya masing-masing adalah 94% dan 81,2%. Hasil ini melebihi hasil dari ketiga pemecah persamaan tradisional yang kami uji. Mathematica mencapai hasil sub-optimal, dengan akurasi 84% pada masalah integrasi yang sama, dan akurasi 77,2% dan 61,6% untuk hasil persamaan diferensial. Model kami juga dapat menampilkan sebagian besar prediksi dalam waktu kurang dari 0,5 detik, sementara sistem lain membutuhkan beberapa menit untuk menemukan solusi, dan terkadang bahkan waktu habis sama sekali.
Model kami mengambil persamaan di sebelah kiri (persamaan yang baik Mathematica maupun Matlab tidak dapat menyelesaikannya) sebagai input, dan dapat menemukan solusi yang benar dalam waktu kurang dari satu detik (seperti yang ditunjukkan pada gambar di atas).
Membandingkan solusi yang dihasilkan dengan solusi referensi memungkinkan kami memverifikasi hasil dengan mudah dan akurat. Tetapi model kami juga menghasilkan banyak solusi untuk persamaan tertentu. Ini mirip dengan yang terjadi pada terjemahan mesin. Dalam terjemahan mesin, ada banyak cara untuk menerjemahkan kalimat masukan.
Apa selanjutnya untuk pemecah persamaan AI
Saat ini, model kami cocok untuk masalah univariat, dan kami berencana untuk memperluasnya ke persamaan multivariat. Metode ini juga dapat diterapkan pada bidang lain yang berbasis matematika dan logika, seperti bidang fisika, sehingga dimungkinkan untuk mengembangkan perangkat lunak yang dapat membantu ilmuwan melakukan berbagai tugas.
Tetapi sistem kami memiliki signifikansi yang lebih luas untuk penelitian dan penggunaan jaringan saraf. Dengan menemukan cara untuk menggunakan pembelajaran mendalam yang sebelumnya dianggap tidak layak, pekerjaan ini menunjukkan bahwa tugas-tugas lain dapat memperoleh manfaat dari kecerdasan buatan. Apakah itu melalui penerapan lebih lanjut teknologi NLP ke area yang secara tradisional tidak terkait dengan bahasa, atau melalui eksplorasi pengenalan pola yang lebih terbuka dalam tugas baru atau yang tampaknya tidak terkait, batasan jaringan saraf mungkin berasal dari batasan imajinasi. , Bukan teknologi.
Penulis
François Sardon, pengusaha tamu Facebook AI
Guillaume Lampel, Ilmuwan Riset AI Facebook
Judul asli:
Menggunakan jaringan saraf untuk memecahkan persamaan matematika tingkat lanjut
Tautan asli:
https://ai.facebook.com/blog/using-neural-networks-to-solve-advanced-mathematics-equations/
Editor: Yu Tengkai
Proofreading: Lin Yilin
Profil Penerjemah
Feng Yu , insinyur algoritma. Bertanggung jawab untuk merancang algoritme penilaian risiko kredit pribadi atau perusahaan, algoritme penilaian risiko pasar, algoritme pengoptimalan simulasi, dll. Mengirim data relawan.
-Selesai-
Ikuti platform publik WeChat resmi dari Institut Ilmu Data Tsinghua-Qingdao " Pai Data AI "Dan nomor saudara perempuan" Data Pie THU "Dapatkan lebih banyak manfaat kuliah dan konten berkualitas.
- University of Science and Technology of China × MSRA | Catatan Kuliah Dr. Zhou Ming: Pemrosesan Bahasa Alami Membuat Hidup Lebih Baik
- Tonggak sejarah yang "menyeramkan": AI ilmuwan China menerjemahkan gelombang otak dengan akurasi 97%
- Di mana menemukan data penelitian mahkota baru? Tempat yang harus dilihat untuk pekerja penelitian ilmiah (dengan tautan)
- Menggunakan gerbang logika protein untuk mengubah sel menjadi komputer, cendekiawan muda Tiongkok belajar tentang Sains
- Mesin terjemahan pertama di dunia telah kembali dari evolusi, dan "detail gila" menangani dialek China klasik