Artikel ini dikontribusikan oleh Shao Chenze dari Institute of Computing Technology ke Leifeng.com's AI Technology Review. Dilarang mencetak ulang tanpa izin.
Artikel ini adalah interpretasi dari makalah "Meminimalkan Perbedaan Bag-of-Ngrams untuk Terjemahan Mesin Saraf Non-Autoregressive", yang diselesaikan bersama oleh kelompok Feng Yang dari Institut Teknologi Komputasi dan tim WeChat AI dari Tencent dan diterima oleh AAAI2020. Pekerjaan terkait telah bersumber terbuka.
Makalah: https://arxiv.org/pdf/1911.09320.pdf Kode: https://github.com/ictnlp/BoN-NAT
Latar belakang penelitian: model non-autoregressive
Model terjemahan mesin saraf arus utama saat ini adalah model autoregresif. Pembangkitan kata yang diterjemahkan pada setiap langkah bergantung pada hasil terjemahan sebelumnya. Oleh karena itu, model hanya dapat menghasilkan terjemahan kata demi kata, dan kecepatan terjemahannya lambat. Model terjemahan mesin saraf non-autoregressive (NAT) yang diusulkan oleh Gu dkk. Secara independen memodelkan pembuatan kata-kata target, sehingga seluruh terjemahan kalimat dapat diterjemahkan secara paralel, yang secara signifikan meningkatkan kecepatan terjemahan model.
Namun, ada kesenjangan besar antara model non-autoregresif dan model autoregresif dalam hal kualitas terjemahan. Manifestasi utamanya adalah bahwa model tersebut memiliki efek terjemahan yang buruk pada kalimat yang panjang, dan terjemahan tersebut mengandung lebih banyak kata yang berulang dan kesalahan terjemahan yang terlewat, seperti yang ditunjukkan pada Gambar 1. Tampil:
Gambar 1: Kata-kata yang berulang dan kesalahan terjemahan yang terlewat dalam terjemahan NAT. NAT: model non-autoregressive, AR: model autoregressive
Salah satu alasan utama untuk efek terjemahan yang buruk dari model non-autoregressive adalah ketidakakuratan fungsi kerugian cross-entropy yang digunakan dalam pelatihan. Di satu sisi, kehilangan lintas-entropi tingkat kata secara independen mengevaluasi hasil prediksi dari setiap posisi, dan sulit untuk memodelkan ketergantungan urutan; di sisi lain, kehilangan lintas-entropi memerlukan hasil prediksi model untuk diselaraskan secara ketat dengan terjemahan referensi, jika tidak maka akan sulit untuk mengevaluasi model Kualitas terjemahan. Seperti yang ditunjukkan pada Gambar 2,
Gambar 2: Jika tidak sejajar, kehilangan entropi silang tidak dapat memberikan panduan yang akurat
Jika hasil prediksi tidak selaras dengan terjemahan referensi, meskipun semantik keduanya sangat mirip, kerugian cross-entropy akan menjadi sangat besar, sehingga memberikan panduan yang salah pada model.
Pekerjaan yang berhubungan
Menanggapi ketidakakuratan yang disebutkan di atas dari fungsi kerugian cross-entropy, Gu dkk. Mengaitkannya dengan "multimodalitas" dari terjemahan, yaitu, kalimat mungkin memiliki beberapa terjemahan yang benar, dan diusulkan untuk memperkenalkan variabel tersembunyi untuk mengurangi ketidakpastian terjemahan Seks. Selanjutnya, variabel laten diskrit, autoencoder variasional, dan variabel laten berdasarkan informasi posisi diperkenalkan ke dalam model non-autoregressive, yang semuanya mencapai peningkatan yang signifikan.
Metode variabel laten juga memiliki kekurangan tertentu, yaitu pemodelan variabel laten akan mengurangi kecepatan translasi model non-autoregresif, dan variabel laten tidak dapat sepenuhnya menghilangkan ketidakpastian translasi, dan masalah kehilangan cross entropy yang tidak akurat masih ada.
Ide lain adalah untuk meningkatkan tujuan pelatihan model non-autoregressive, dan artikel ini juga didasarkan pada ide ini. Wang et al. Secara langsung menambahkan item regularisasi ke target pelatihan untuk menekan terjemahan berulang dan kesalahan terjemahan yang terlewat dari model. Shao dkk. Memasukkan informasi urutan ke dalam model, meningkatkan algoritma pembelajaran penguatan untuk pelatihan tingkat urutan, dan menggunakan indikator tingkat urutan yang lebih akurat untuk melatih model.
Keuntungan dari metode di atas adalah dapat meningkatkan kualitas terjemahan model tanpa mempengaruhi kecepatan terjemahan. Namun, hanya mengoptimalkan masalah yang diamati dalam terjemahan tidak secara fundamental menyelesaikan masalah. Karena sifat diskrit indikator tingkat urutan, gradien fungsi kerugian tidak dapat diperoleh secara akurat, dan algoritma pembelajaran penguatan diperlukan untuk memperkirakan gradien. Selain itu, algoritma pembelajaran reinforcement yang digunakan lambat dan hanya dapat digunakan pada tahap fine-tuning model.
metode
Bertujuan pada masalah kerugian cross-entropy yang tidak akurat, makalah ini mengusulkan target pelatihan bag-of-Ngrams (BoN) untuk model non-autoregressive, dengan harapan dapat meminimalkan kantong n-tuple antara model dan terjemahan referensi Perbedaan. Target pelatihan mengevaluasi hasil prediksi pada level n-tuple, sehingga dapat memodelkan dependensi urutan; secara langsung mengoptimalkan kantong n-tuple, tidak sensitif terhadap posisi absolut, dan tidak dibatasi oleh batasan penyelarasan. Seperti yang ditunjukkan pada Gambar 3, ketika hasil prediksi tidak sesuai dengan terjemahan referensi, target pelatihan juga dapat mengevaluasi kualitas terjemahan secara akurat.
Gambar 3: Target latihan berdasarkan n-tuple bag
Tujuan pelatihan BoN yang diusulkan dalam artikel ini secara kuantitatif mengevaluasi perbedaan tas n-tuple antara model dan terjemahan referensi, sehingga mendorong model untuk menghasilkan hasil terjemahan yang lebih mendekati terjemahan referensi. Berikut adalah penjelasan rinci tentangnya, terutama dibagi menjadi tiga langkah: BoN Pengertian dan penghitungan jarak BoN, Pengertian dan penghitungan jarak BoN, serta cara latihan.
Definisi dan kalkulasi BoN mengasumsikan bahwa ukuran kosa kata adalah V.Untuk kalimat dengan panjang T Y = (y1, ..., yn), n-tuple bag umumnya didefinisikan sebagai vektor dengan panjang V ^ n, Dilambangkan sebagai BoNY, setiap dimensinya mewakili jumlah kemunculan n-tuple g = (g1, ..., gn) tertentu, seperti yang ditunjukkan di bawah ini:
Diantaranya, 1 {} adalah fungsi indikator, jika kondisinya benar, nilainya adalah 1, jika tidak maka 0. Untuk model terjemahan mesin saraf, karena memodelkan distribusi probabilitas terjemahan di seluruh ruang terjemahan, definisi di atas tidak dapat diterapkan secara langsung. Oleh karena itu, kami mempertimbangkan semua kemungkinan terjemahan, memberi bobot BoN dari setiap terjemahan sesuai dengan probabilitas, dan menggunakan nilai BoN yang diharapkan untuk menentukan BoN model. Dengan asumsi bahwa parameter model adalah , dan probabilitas terjemahan dari X asli ke target Y adalah P (Y | X, ), BoN dari model didefinisikan sebagai berikut:
(2) Metode definisi model BoN dalam rumus ini sangat alami, tetapi juga memiliki masalah besar: ruang pencarian eksponensial dan sulit untuk menghitungnya. Kami menggunakan model non-autoregressive untuk secara independen memprediksi karakteristik probabilitas terjemahan setiap posisi, dan membuat transformasi berikut menjadi (2):
Perhatikan bahwa transformasi garis 2 ke 3 pada persamaan (3) memanfaatkan probabilitas pemodelan independen model non-autoregresif, sehingga penurunan persamaan (3) hanya berlaku untuk model non-autoregresif. Melalui transformasi (3), kita tidak perlu lagi melintasi semua kemungkinan terjemahan, dan menjumlahkan probabilitas n-tuple g di semua posisi untuk mendapatkan jumlah kemunculan yang diharapkan dari g BoN (g). Gambar berikut mengambil dua tuple g = (get, up) sebagai contoh untuk menunjukkan metode penghitungan model BoN.
Gambar 4: Perhitungan jumlah yang diharapkan dari kemunculan 2-tupel ('get', 'up')
Definisi dan Perhitungan Jarak BoN Setelah menyelesaikan definisi BoN dari terjemahan referensi dan model, kita dapat memilih indeks jarak untuk mengukur selisih antara BoN. Indeks jarak yang umum digunakan meliputi jarak L1, jarak L2, dan jarak cosinus. Perhatikan bahwa panjang n-tuple bag adalah V ^ n. Meskipun kita telah menyederhanakan perhitungan BoN (g) pada setiap dimensi di atas, jika kita perlu melakukan perhitungan V ^ n untuk mendapatkan seluruh vektor BoN , Jumlah kalkulasi dan ruang penyimpanan yang dibutuhkan juga sangat besar. Oleh karena itu, kami berharap dapat memilih indeks jarak yang sesuai sehingga kami tidak perlu menghitung seluruh vektor BoN, yang selanjutnya menyederhanakan penghitungan. Dari definisi (1) dan (2) di atas, vektor BoN model padat, dan setiap posisinya bukan nol; vektor kalimat BoNY jarang, dan hanya beberapa posisi yang bukan nol. Dengan menggunakan properti ini, kita dapat menyederhanakan penghitungan jarak L1 antara dua vektor. Pertama, dengan asumsi panjang translasi adalah T, panjang modulus L1 dari dua vektor BoN keduanya adalah T-n + 1:
Berdasarkan hal tersebut, jarak L1 antara kedua vektor BoN adalah sebagai berikut:
Secara intuitif, bagian min dari rumus (6) merepresentasikan jumlah kecocokan antara model dan terjemahan referensi pada level n-tupel. Semakin besar jumlah kecocokan, semakin kecil jarak L1 antara dua vektor BoN. Menggunakan ketersebaran vektor BoNY, sebagian besar nilai fungsi min adalah 0. Kita hanya perlu mempertimbangkan posisi bukan nol BoNY dan menghitung jumlah total n-tupel yang cocok dalam model dan terjemahan referensi, untuk menghitung dua elemen-n Jarak pengantongan adalah BoN-L1. Metode pelatihan Di atas, kami telah memberikan definisi BoN dan metode untuk menghitung jarak L1 dengan cepat antara BoN. Pada bagian ini, kami secara khusus akan memperkenalkan metode pelatihan model non-autoregressive dengan jarak BoN. Pertama-tama, untuk memastikan stabilitas proses pelatihan, kami menormalkan jarak BoN sebagai fungsi kerugian:
Mirip dengan metode pelatihan tingkat urutan berdasarkan pembelajaran penguatan, pertama-tama kita dapat menggunakan kerugian lintas entropi untuk melatih model non-autoregresif terlebih dahulu, dan kemudian menggunakan kerugian BoN untuk menyempurnakan model. Kami menamakan metode ini BoN-FT.
Selain itu, karena kerugian BoN yang diusulkan dalam makalah ini secara komputasi sangat cepat dan dapat diturunkan secara langsung, maka kerugian BoN dan kerugian cross-entropy juga dapat dilakukan untuk melatih model non-autoregressive secara bersama-sama, metode ini diberi nama BoN-Joint.
Menggabungkan dua metode di atas, pertama-tama kita dapat melatih model secara bersama-sama, lalu menggunakan kerugian BoN untuk menyempurnakan model saja. Metode ini dinamai BoN-Joint + FT.
Percobaan
Artikel ini telah melakukan percobaan pada tiga kumpulan data WMT14 En-de, WMT16 En-Ro dan IWSLT16 En-de dan lima arah terjemahan.Hasilnya ditunjukkan pada Gambar 5.
Gambar 5: Eksperimen pada tiga set data, metode yang diusulkan meningkat secara signifikan dibandingkan dengan model baseline dan metode pembelajaran penguatan
Dengan membandingkan BoN-FT dan Reinforce-NAT, terlihat bahwa kerugian BoN yang diusulkan dalam artikel ini lebih efektif dan cepat dalam pelatihan tingkat berurutan. Metode BoN-Joint juga meningkat secara signifikan dibandingkan dengan BoN-FT, yang menunjukkan perlunya mengizinkan kerugian BoN untuk berpartisipasi dalam proses pelatihan. Ini juga merupakan keuntungan dari kerugian BoN dibandingkan metode pembelajaran penguatan: kecepatan pelatihan metode pembelajaran penguatan terlalu lambat, dan umumnya hanya dapat digunakan untuk menyempurnakan model. Efek terbaik adalah BoN-Joint + FT. Metode ini mengalami sedikit peningkatan dibandingkan dengan BoN-Joint melalui fine-tuning pada tahap akhir, metode ini mencapai peningkatan sekitar 5 nilai BLEU pada set data WMT14 En-de.
Makalah ini juga secara eksperimental memverifikasi korelasi antara kerugian BoN dan kerugian cross-entropy dan kualitas terjemahan. Kami berada di WMT14 En- > Eksperimen dilakukan pada perangkat pengembangan De, dan 3000 kalimat dalam perangkat pengembangan dibagi secara acak menjadi 100 kelompok, masing-masing dengan 30 kalimat. Kami kira nilai BLEU dapat mewakili kualitas terjemahan model, menghitung kerugian BoN, kerugian cross-entropy dan nilai BLEU dari hasil terjemahan model pada masing-masing kelompok, dan menemukan koefisien korelasi masing-masing kerugian BoN, kerugian cross-entropy dan nilai BLEU. Seperti yang ditunjukkan pada Tabel 1.
Tabel 1: Koefisien korelasi antara kerugian cross entropy dan kerugian BoN dan kualitas terjemahan
Tabel 1 menunjukkan bahwa ketika n = 2, korelasi antara kerugian BoN dan kualitas terjemahan adalah yang terbaik, dan secara signifikan lebih kuat daripada kerugian cross-entropy. Oleh karena itu, kerugian BoN dapat mengevaluasi hasil keluaran model dengan lebih akurat, dan cocok untuk pelatihan model non-autoregresif. Kami juga menganalisis korelasi dalam panjang kalimat yang berbeda, membagi set pengembangan menjadi dua kelompok sesuai dengan panjang kalimat, masing-masing kelompok berisi 1500 kalimat, dan menghitung kerugian BoN dan kerugian cross entropy dalam kelompok kalimat panjang dan kelompok kalimat pendek sesuai dengan metode di atas. Relevansi kelompok kalimat ditunjukkan pada Tabel 2.
Tabel 2: Koefisien korelasi antara kerugian cross-entropy dan kerugian BoN dan kualitas terjemahan dalam panjang kalimat yang berbeda
Tabel 2 menunjukkan bahwa ketika panjang kalimat bertambah, korelasi antara kerugian cross-entropy dan kualitas terjemahan menurun dengan cepat, sedangkan kerugian BoN masih dapat mempertahankan korelasi yang tinggi dalam kalimat panjang. Fenomena ini sangat sesuai dengan ekspektasi kami, pada kasus kalimat yang panjang, fenomena misalignment yang mirip dengan Gambar 2 lebih mungkin terjadi, sehingga akurasi dari cross entropy loss akan semakin berkurang. Kerugian BoN didasarkan pada kantong n-tuple untuk mengevaluasi keluaran model, sehingga tidak terpengaruh oleh misalignment.
Kesimpulannya
Bertujuan pada ketidakakuratan kerugian cross-entropy dalam model non-autoregressive, makalah ini mengusulkan kerugian BoN berdasarkan sekantong n-tuple. Eksperimen menunjukkan bahwa kerugian BoN memiliki korelasi yang lebih kuat dengan kualitas terjemahan. Menggunakannya untuk melatih model non-autoregressive dapat meningkatkan efek terjemahan model secara signifikan. Di pekerjaan masa depan, di satu sisi, kami berharap untuk mengeksplorasi lebih jauh metode pelatihan model non-autoregresif; di sisi lain, kami berharap tidak terbatas pada model non-autoregresif, dan menerapkan kerugian BoN yang disebutkan dalam artikel ini untuk Lebih banyak tugas dalam pemrosesan bahasa alami.
Lei Feng.com melaporkan.
Untuk lebih banyak makalah interpretasi AAAI 2020, silakan merujuk ke artikel lain di Leifeng.com: https://www.leiphone.com/special/custom/meetingVideo.html?from=SY
- Jaringan saraf tiruan terlalu sederhana. Karya baru "Sains" mengungkapkan bahwa dendrit neuron juga menyiratkan daya komputasi
- Apakah jaringan saraf Bayesian tidak berarti? Perdebatan medan perang ganda Twitter dan Reddit, penuh dengan bubuk mesiu
- Hasil dari "Kompetisi Kecerdasan Buatan Nasional" sudah keluar! Hadiah tertinggi mencapai 1 juta yuan
- Abu dari 18 petugas pemadam kebakaran yang dikorbankan dikirim kembali ke Ningnan, dan puluhan ribu orang "membawa pulang pahlawan itu"
- Letakkan bunga untuk batu nisan 2728 martir satu per satu, Biro Urusan Veteran Yantai Laiyang memberi penghormatan kepada para pahlawan