Artikel ini merupakan karya yang diterbitkan oleh University of Washington dan Allen Institute of Artificial Intelligence di ACL 2018. Artikel ini mengusulkan model menjawab pertanyaan berbasis paragraf berdasarkan deep learning dengan syarat mengambil seluruh dokumen sebagai masukan. Eksperimen dilakukan pada TriviaQA dan SQuAD untuk memverifikasi peningkatan teknologi yang dibawa oleh metode baru. Ada tiga kontribusi untuk teks lengkap: Pertama, metode pipeline yang ditingkatkan diusulkan, yang mengekstrak beberapa paragraf dari dokumen, dan menggunakan fungsi objektif yang dapat menampilkan benar atau salah secara global, dan memerlukan model untuk menghasilkan keluaran global yang benar. Yang kedua adalah memperkenalkan metode baru model pelatihan untuk menghasilkan skor keyakinan yang akurat untuk setiap paragraf. Ketiga adalah mengidentifikasi dan meningkatkan banyak keputusan desain lainnya yang terjadi saat memproses data tingkat dokumen.
pengantar
Dalam pemrosesan bahasa alami, mesin pengajar untuk menjawab pertanyaan apa pun yang diajukan oleh pengguna adalah tujuan jangka panjang NLP. Saat ini, untuk pertanyaan umum, teknologi temu kembali informasi yang ada sudah dapat menemukan dokumen yang mungkin berisi jawaban. Namun, masih menjadi tantangan besar untuk mendapatkan jawaban secara otomatis dari dokumen-dokumen ini.
Saat ini, model tanya jawab yang ada tidak dapat diperluas ke seluruh dokumen atau input multi-dokumen, tetapi hanya menerapkan model tersebut ke setiap paragraf artikel, dan akhirnya melakukan jawaban statistik. Dengan cara ini, mudah untuk mengabaikan paragraf yang tidak terlalu relevan dengan pertanyaan, tetapi sebenarnya merupakan rentang jawaban yang sebenarnya. Model saraf sudah dapat mencapai keberhasilan dalam menjawab pertanyaan paragraf terkait, tetapi sebagian besar model saraf tidak dapat diperpanjang melampaui paragraf pendek, sehingga model tingkat paragraf biasanya perlu disesuaikan untuk memproses input tingkat dokumen. Di sini, artikel mengadopsi metode pipeline dan menetapkan target normalisasi bersama dalam model keyakinan untuk menyadari bahwa output masih optimal secara global meskipun paragraf diproses secara terpisah.
modelMetode teori teknis utama yang digunakan dalam artikel ini adalah metode pipeline. Dalam sistem QA pipeline, sebuah paragraf perlu dipilih dan diteruskan ke model tanya jawab tingkat paragraf.
Pemilihan paragraf
Jika hanya ada satu dokumen sumber, pilih paragraf dengan "jarak kosinus TF-IDF" terkecil dari pertanyaan.
Jika ada beberapa dokumen masukan, pengklasifikasi linier dengan skor TF-IDF yang sama digunakan, dan pengklasifikasi dilatih pada target yang diawasi dari jarak jauh, yang memilih paragraf yang berisi setidaknya satu rentang jawaban.
Pemrosesan label yang bising
Dalam pengaturan pengawasan jarak jauh, tandai semua rentang teks yang cocok dengan teks jawaban sebagai benar. Dan gunakan fungsi tujuan yang dijumlahkan untuk mengoptimalkan kemungkinan log negatif dalam memilih rentang jawaban yang benar, mengurangi kemungkinan memilih rentang jawaban yang tidak penting sekaligus. Selain itu, melalui model, untuk setiap kemungkinan rentang jawaban, buat tag awal dan akhir rentang rentang tersebut.
Gambar 1 Model pertanyaan dan jawaban tingkat paragrafBagian inti dari model ini dibagi menjadi 5 level: Embedding, Pre-Process, Attention, Self-Attention dan Prediction.
A. Menyematkan: Menyematkan kata menggunakan vektor kata yang telah dilatih sebelumnya, dan menyematkan karakter dengan menggunakan matriks penyematan yang dipelajari, lalu menerapkan jaringan saraf konvolusional dan penggabungan maks untuk menggabungkannya dengan penyematan kata yang diturunkan dari karakter.
B. Pra-Proses: GRU (Bi-GRU) dua arah bersama digunakan di sini untuk menangani masalah dan penyematan artikel.
C. Perhatian: Dengan menggunakan mekanisme Attention dari Bi-Directional Attention Flow (BiDAF) untuk membangun representasi kontekstual bahasa.
i, j: kata-kata dalam rentang jawaban dan kata-kata dalam pertanyaan
hai, qj: vektor kata kata paragraf i dan vektor kata kata tanya j
nq, nc: panjang pertanyaan dan konteks panjang rentang jawaban
w1, w2 dan w3: vektor pembelajaran, yang merupakan perkalian berdasarkan elemen
ci: vektor partisipasi dihitung untuk setiap label konteks (awal / akhir)
qc: vektor kueri konteks
Vektor terakhir dari setiap label dihubungkan dengan
Diperoleh, dan berikan hasilnya melalui lapisan linier dengan aktivasi ULT.
D.Perhatian Diri: Masukan diteruskan melalui GRU dua arah lainnya (Bi-GRU), menerapkan mekanisme Perhatian yang sama, tetapi tidak ada qc di sini, tetapi pengaturan
.
E. Prediksi: Pada lapisan terakhir model, GRU dua arah diterapkan, dan kemudian skor jawaban dari setiap penanda awal dihitung melalui lapisan linier. Gabungkan keadaan tersembunyi dengan masukan, lalu hitung skor jawaban untuk setiap penanda ujung melalui GRU dua arah dan lapisan linier. Fungsi softmax diterapkan di sini untuk menghitung probabilitas awal atau akhir.
Model kepercayaan
Tolok ukur keyakinan model adalah skor tidak standar dan skor tidak terindeks dari setiap kemungkinan interval jawaban (sebelum menerapkan fungsi softmax). Model berbasis batas digunakan di sini, dengan label awal dan label akhir, untuk setiap jawaban Skor interval adalah jumlah skor awal dan skor akhir.
Untuk menghindari model terlalu percaya diri dalam mode heuristik (misalnya, model mungkin terlalu mengandalkan pemilihan jawaban yang cocok dengan jenis semantik yang diperlukan oleh pertanyaan), berikut adalah 4 metode pelatihan model, dan semua paragraf yang tidak berisi jawaban Pengambilan sampel sebagai titik pelatihan tambahan.
(1) Normalisasi Bersama
Fungsi objektif yang dimodifikasi digunakan di mana skor awal dan akhir semua paragraf yang diambil sampelnya dari konteks yang sama distandarisasi, untuk memaksa model menghasilkan skor yang sebanding antar paragraf.
(2) Penggabungan
Selama pelatihan, semua paragraf yang diambil sampelnya dari konteks yang sama dihubungkan bersama, dan tag pemisah paragraf dengan pembelajaran embedding ditambahkan sebelum setiap paragraf.
(3) Opsi Tanpa Jawaban
Izinkan model memilih opsi tanpa respons khusus untuk setiap paragraf.
Fungsi tujuan ditulis ulang di sini.
sj, gj: skor batas awal dan akhir yang dihasilkan oleh model untuk label j
a, b: tag awal dan akhir yang benar
Terakhir, skor z lain dihitung dengan menambahkan lapisan ekstra di akhir model. Pertama, vektor masukan dibangun dengan memperoleh keadaan tersembunyi total dari RNN yang digunakan untuk memprediksi skor tanda awal / akhir yang dibobotkan oleh probabilitas awal / akhir, dan menggunakan vektor perhatian yang dipelajari pada keluaran dari lapisan perhatian-diri. Akhirnya, vektor ini dikirim ke jaringan dua lapis dengan lapisan tersembunyi 80 dimensi dan aktivasi ULT, dan hasil z adalah satu-satunya keluarannya.
(4) Sigmoid
Pertimbangkan model pelatihan dengan fungsi tujuan kerugian sigmoid. Probabilitas awal / akhir setiap penanda dihitung dengan menerapkan fungsi sigmoid ke skor awal / akhir setiap penanda. Kehilangan entropi silang digunakan untuk setiap probabilitas individu.
analisis eksperimenArtikel ini memilih 4 kumpulan data:
· Unfiltered TriviaQA, kumpulan data pertanyaan dari database trivia, mencocokkan dokumen yang ditemukan dengan menyelesaikan penelusuran web pertanyaan;
· TriviaQA wiki, kumpulan data yang sama, tetapi hanya mencakup artikel Wikipedia;
· Web TriviaQA, kumpulan data tanpa filter yang diturunkan dari TriviaQA, diproses dengan memperlakukan setiap pasangan dokumen pertanyaan yang berisi jawaban pertanyaan sebagai poin pelatihan terpisah.
· SQuAD, kumpulan artikel Wikipedia dan pertanyaan crowdsourced.
Perawatan awal
Untuk web TriviaQA, dokumennya biasanya berisi banyak paragraf kecil, sehingga penulis merekonstruksi dokumen dengan menggabungkan paragraf yang berurutan ke ukuran target, dan menyimpannya dengan menambahkan pemisah paragraf dengan pembelajaran embedding di antara paragraf yang digabungkan Informasi format. Ukuran paragraf terbesar diatur ke 400.
Contoh paragraf yang dipilih
· Untuk kumpulan data web SQUAD dan TriviaQA, dua paragraf berbeda diambil sampelnya dari empat periode setiap periode pelatihan, dan paragraf peringkat tertinggi yang berisi jawaban diambil sampelnya dengan frekuensi paragraf dua kali lipat dari paragraf lainnya.
· Untuk set data wiki TriviaQA, ulangi proses ini, tetapi gunakan 8 paragraf pertama.
· Untuk kumpulan data TriviaQA tanpa filter, gunakan 16 paragraf pertama.
Diantaranya, saat menggunakan metode 1 (Shared-Normalization) dan metode 2 (gabungan) untuk pelatihan model kepercayaan, juga disyaratkan bahwa setidaknya satu paragraf berisi rentang jawaban, dan kedua paragraf dimasukkan dalam kelompok yang sama.
Pelatihan dan pengujian model
Gunakan pengoptimal Adadelta untuk pelatihan model.
· Untuk SQUAD, setel ukuran tumpukan selama pelatihan ke 45, rentang interval jawaban ke 17, dimensi GRU ke 100 dimensi, dan ukuran lapisan linier dari setiap mekanisme Perhatian ke 200 dimensi.
· Untuk TriviaQA, atur ukuran tumpukan selama pelatihan menjadi 60, rentang interval jawaban kurang dari atau sama dengan 8, dimensi GRU adalah 140 dimensi, dan ukuran lapisan linier dari setiap mekanisme Perhatian adalah 280 dimensi. (Ini karena volume data dari dataset TriviaQA lebih besar)
Selain itu, selama pelatihan, rata-rata bergerak eksponensial bobot, tingkat peluruhan tetap di 0,999. Gunakan nilai rata-rata tertimbang saat menguji. Dan kata vektor tidak akan diperbarui selama pelatihan. Terakhir, kami menggabungkan model kami dengan backend penelusuran web untuk membangun demonstrasi sistem QA ujung ke ujung, dan sistem menunjukkan bahwa model tersebut bekerja dengan baik pada pertanyaan dalam tugas Tanya Jawab TREC.
KesimpulannyaSaat menggunakan model QA level paragraf di beberapa paragraf, Shared-Normalization selalu lebih baik daripada metode lain. Dan metode pelatihan pengambilan sampel paragraf non-jawaban bekerja lebih menonjol. Menggabungkan saran pemilihan paragraf (paragraf yang tidak berisi jawaban juga harus dijadikan sampel sebagai poin pelatihan tambahan), penggunaan tujuan pelatihan yang dijumlahkan dan desain model dapat mempromosikan perkembangan teknologi terbaru dari TriviaQA. Seperti yang ditunjukkan dalam sistem demo (URL: https://documentqa.allenai.org), karya ini bahkan dapat langsung diterapkan untuk membangun sistem penjawab pertanyaan terbuka untuk pembelajaran yang mendalam. Kode sumber dapat ditemukan di https://github.com/allenai/document -qa.
Tautan unduhan kertas:
- Direktur kafetaria larut malam berteriak! Mengatakan bahwa karena tekanan, dia tidak berhak menghapus hard dan wide di film!
- Suara Inti Hari Ini | Amplop merah Gala Festival Musim Semi seperti tangan yang mendorong pintu, di luar pintu tidak diketahui, di dalam pintu terdapat inovasi.
- Metode pembelajaran mandiri yang andal untuk penyematan kata pemetaan lintas bahasa tanpa pengawasan