ACL2017 | Stanford: Memasukkan variabilitas dialek ke dalam pengenalan bahasa yang adil secara sosial

Hanya ada satu makalah antara Anda dan "Memahami AI"

Banyak pembaca meninggalkan pesan ke belakang panggung Xinjun, mengatakan bahwa mereka telah membaca banyak ilmu pengetahuan AI yang relatif sederhana dan metodologi AI, dan ingin melihat beberapa makalah profesional dengan kedalaman, ketebalan, visi ... dan rasa yang berat.

Untuk tujuan ini, dengan bantuan banyak ahli dan cendekiawan di bidang AI, kami menafsirkan dan menerjemahkan satu set makalah konferensi terbaik. Setelah penerjemahan dan proofreading setiap makalah selesai, Xinjun dan para guru di bagian editorial akan tertawa dan roboh bersama.Tentu kita harus menangis untuk beberapa makalah.

Tidak masalah jika Anda tidak bisa membaca dan mengerti sekarang, tetapi Xinjun dapat menjamin bahwa suatu saat Anda akan jatuh cinta dengan dunia baru AI.

Untuk grup pertukaran kertas pembaca inti, silakan tambahkan akun WeChat kami: zhizhizhuji . Menunggumu.

Ini adalah interpretasi pertama dari pembacaan inti 2 Dokumen

Makalah Pendek ACL 2017

Gabungkan variabilitas dialek ke dalam pengenalan bahasa yang adil secara sosial

Memasukkan Variabilitas Dialektal untuk Identifikasi Bahasa yang Setara Secara Sosial

Universitas Stanford

Abstrak Pengenalan Bahasa (LID) adalah langkah penting pertama dalam tugas pemrosesan teks multibahasa. Namun, sebagian besar sistem LID tidak dirancang untuk menangani keragaman linguistik platform global (seperti Twitter). Dialek lokal dan penyebaran alih kode menyebabkan pengklasifikasi bahasa secara sistematis kehilangan penutur dialek etnis minoritas dan penutur multibahasa. Kami mengusulkan satu set data baru dan model seq2seq berbasis karakter untuk mendukung pengenalan dialek dan multibahasa. Model kami mencapai kinerja paling canggih pada beberapa tolok ukur LID. Selain itu, dalam studi kasus penggunaan Twitter untuk pelacakan kesehatan, metode kami sangat meningkatkan kegunaan teks yang ditulis oleh kelompok yang kurang beruntung, dengan demikian mewujudkan pengembangan alat NLP "inklusi sosial".

1. Perkenalan

Pengenalan bahasa (LID) adalah langkah pertama yang penting dalam tugas NLP teks multibahasa. Dalam pengaturan global Twitter, teks ditulis oleh penulis dari latar belakang bahasa yang berbeda, yang mungkin berkomunikasi dengan penutur dialek daerah, dan bahkan menyertakan terjemahan paralel dari pesan yang sama untuk berbicara kepada audiens yang berbeda. Perubahan dialek semacam ini sering terjadi di semua bahasa, bahkan dialek makro seperti bahasa Inggris Amerika dan Inggris, yang tersusun dari dialek lokal dengan tingkat perkembangan perkotaan dan sosial ekonomi yang berbeda. Saat ini, sistem LID arus utama untuk melatih lusinan bahasa terutama menggunakan korpus pusat Eropa tanpa mempertimbangkan perubahan demografi dan dialek. Oleh karena itu, sistem ini akan memiliki jutaan pengguna yang dialeknya berbeda dari kebanyakan dialek.

Gambar 1 Tantangan keadilan sosial LID di Twitter termasuk teks dialek seperti Nigeria (# 1) dan Irlandia (# 2) dan teks multibahasa (Indonesia dan Inggris) di # 3.

Saat ini, ada banyak sistem LID arus utama di seluruh dunia. Namun, hanya sedikit teknologi yang dapat memecahkan tantangan variabilitas linguistik data global, seperti varian dialek dan teks multibahasa seperti yang ditunjukkan pada Gambar 1. Teknik-teknik ini biasanya berfokus hanya pada variabilitas terbatas, misalnya, dialek pribadi seperti bahasa Inggris asli Afrika-Amerika, ucapan online, bahasa serupa, atau peralihan kode tingkat kata.

Dalam pekerjaan ini, tujuan kami adalah merancang LID yang adil secara sosial, yang akan memungkinkan pengenalan bahasa multibahasa berskala besar dengan cakupan luas orang-orang dalam sejumlah kecil dialek, pesan multibahasa, dan bahasa lain. Pertama-tama kami membuat kumpulan data besar postingan Twitter dalam skala global (§2). Kemudian, kami memperkenalkan sistem LID EQUILID untuk menghasilkan anotasi bahasa untuk setiap segmentasi kata, dan mendapatkan kinerja optimal dari empat tugas LID (§3), yang melebihi 300% dari tolok ukur LID utama. Terakhir, kami mempresentasikan studi kasus tentang penggunaan Twitter untuk pemantauan kesehatan dan menunjukkan bahwa (1) sistem yang banyak digunakan saat ini dipengaruhi oleh rendahnya tingkat penarikan teks dari negara berkembang, dan (2) sistem kami sangat mengurangi kesenjangan ini. , Dan memungkinkan LID yang adil sosial.

2 Kumpulkan teks perwakilan sosial

Meskipun sudah ada beberapa perbedaan bahasa yang diketahui dalam bahasa, sistem LID arus utama saat ini terutama dilatih pada data sumber yang berpusat di Eropa, biasanya karena ketersediaan data. Selain itu, meskipun pelatihan tersebut diintegrasikan ke dalam teks global Wikipedia, penulisnya sebagian besar masih berasal dari negara-negara maju. Potensi bias ini dapat secara signifikan memengaruhi aplikasi hilir (kami akan menguraikannya nanti di Bagian 4), karena pengenalan bahasa umumnya dianggap sebagai masalah terpecahkan, dan sebagian besar studi menggunakan sistem LID off-the-shelf daripada Pertimbangkan bagaimana mereka dilatih.

Tujuan kami adalah untuk membuat korpus yang representatif secara sosial untuk LID untuk menangkap varian bahasa seperti ortografi, dialek, bentuk, tema, dan ejaan. Didorong oleh survei bahasa Twitter baru-baru ini, kami selanjutnya menjelaskan cara membangun korpus 70 bahasa dalam tiga dimensi: keragaman geografis, sosial dan topik, serta multibahasa.

Keragaman geografis Kami menggunakan boot-strapping untuk membuat kumpulan data teks berskala besar dari berbagai wilayah melalui metode yang berpusat pada manusia. Metode ini memperlakukan deskripsi lokasi dan bahasa sebagai atribut demografis yang disimpulkan oleh penulis. Dengan menyimpulkan pengguna Twitter dan kemudian mengumpulkan dokumen dari pengguna monolingual, kami memastikan bahwa variasi regional dari setiap bahasa ditangkap alih-alih berfokus pada aspek tertentu dari varian bahasa.

Compton et al. (2014) dan Jurgens et al. (2015) mengusulkan metode untuk menyimpulkan lokasi individu. Metode ini pertama-tama mengidentifikasi individu dengan lokasi geografis yang nyata dan dapat diandalkan melalui tweet yang diberi tag geo, kemudian menyimpulkan lokasi individu lain sebagai pusat geografis teman mereka, dan secara berulang menerapkan metode inferensi ke seluruh jaringan sosial. Metode ini akurat dalam jarak sepuluh kilometer dari pengguna perkotaan dan pedesaan (Johnson et al., 2017), yang cukup untuk analisis granularitas perkotaan yang kami gunakan di sini. Kami menggunakan jaringan saling menyebutkan dengan 2,3 miliar sisi untuk menemukan 132 juta pengguna.

Untuk mengidentifikasi pengguna monolingual, kami mengklasifikasikan tweet dari orang yang sama. Jika dia memiliki setidaknya 20 tweet dan 95% di antaranya ditandai sebagai bahasa yang sama, penulis dianggap sebagai pengguna monolingual. Kami menggunakan proses pelabelan berulang ini untuk secara otomatis mengidentifikasi tweet yang salah diklasifikasikan, dan ketika tweet ini digabungkan secara geografis, dialek dan topik regional dapat ditangkap. Kami menggunakan langid.py dan CLD2 sebagai pengklasifikasi untuk membangun kumpulan monolingual terpisah untuk mengurangi bias setiap bahasa.

Keragaman sosial dan tematik Penulis menyesuaikan gaya penulisan mereka yang berbeda. Oleh karena itu, kami memperoleh korpus dari berbagai topik di berbagai tingkat. Teks yang terkumpul dalam 70 bahasa dari (1) artikel Wikipedia dan halaman percakapan informal, (2) terjemahan Alkitab dan Quran (3) JRC-Acquis, kumpulan undang-undang Eropa, (4) "Deklarasi Hak Asasi Manusia Perserikatan Bangsa-Bangsa", (5) ) Majalah online "Menara Pengawal", (6) Iterasi tugas "membedakan bahasa yang serupa" pada tahun 2014 dan 2015 dan (7) kumpulan data Twitter70. Kami juga menyertakan korpus monolingual yang diambil dari situs slang (seperti Urban Dictionary) dan data bahasa Inggris asli Afrika-Amerika dari Blodgett et al. (2016). Untuk semua sumber, kami mengekstrak contoh secara berurutan dengan menggabungkan kalimat hingga 140 karakter.

Keragaman multibahasa Penulis menghasilkan teks multibahasa di Twitter, dan Rijhwani et al. (2017) memperkirakan bahwa 3,5% tweet ditukar dengan kode. Untuk menangkap potensi keragaman dalam dokumen multibahasa, kami melakukan augmentasi data untuk menyusun dokumen tweet multibahasa secara komprehensif, dengan (1) pengambilan sampel teks dalam dua bahasa dari sumber mana pun; (2) sampel teks dari setiap dokumen Probabilitasnya adalah 50% Teks dibagi sesuai dengan tanda baca yang umum digunakan. (3) Hubungkan kedua teks bersama-sama dan tambahkan ke kumpulan data (jika 140 karakter). Kami hanya membuat konversi kode tingkat kalimat atau frasa, bukan konversi tingkat kata untuk menghindari ambiguitas kata asing, yang dianggap sebagai tantangan besar.

Ringkasan Corpus Korpus yang beragam secara geografis terdiri dari dua kumpulan data Twitter: 13 miliar tweet dari 10% sampel dari semua tweet dari Maret 2014 dan 1% sampel dari semua tweet yang diberi geotag sejak November 201614,2 juta tweet diekstrak dalam format. Pada akhirnya, kami mengumpulkan 97,8 juta tweet dari 1,5 juta pengguna di 197 negara dan 53 bahasa. Setelah mengidentifikasi penulis monolingual dalam kumpulan data, 9,4% instance (9,1M) ditandai oleh CLD2 atau langid.py sebagai bahasa yang berbeda dari bahasa yang digunakan oleh penulisnya; karena hampir semuanya salah klasifikasi, kami pikir ini sangat Nilai data untuk memperbaiki kesalahan sistem.

Sebanyak 258 juta entitas telah dikumpulkan untuk korpus tematik dan beragam secara sosial. Instance multi-bahasa dibuat dengan mengambil sampel teks dari semua pasangan bahasa; total 3,2 juta instance sintetis dibuat. Detail lengkapnya dijelaskan dalam materi tambahan.

3 Pengklasifikasi LID yang setara

Kami memperkenalkan EQUILID dan mengevaluasi teks tweet satu bahasa dan multibahasa.

model Arsitektur jaringan saraf berbasis fitur sangat cocok untuk LID karena membantu mensimulasikan fenomena ortografik halus dan karakteristik ucapan bahasa, misalnya, untuk menangkap jumlah kemunculan morfem reguler dalam suatu bahasa. Selain itu, dibandingkan dengan metode berbasis kata, metode berbasis karakter secara signifikan mengurangi kompleksitas model; metode berbasis kata memerlukan representasi saraf terpisah untuk setiap bentuk kata, sehingga metode ini digunakan untuk puluhan juta kata yang berbeda. Tidak layak dalam lingkungan multibahasa. Kami menggunakan arsitektur encoder-decoder dan mekanisme perhatian. Encoder dan decoder adalah jaringan neural berulang 3 lapis dengan 512 unit repetitif berpagar. Model ini dilatih untuk menyegmentasikan urutan karakter masukan berdasarkan karakter spasi, dan mengeluarkan urutan bahasa dengan setiap segmentasi, serta jenis segmentasi tambahan untuk tanda baca, tagar, dan sebutan pengguna.

Mendirikan Data dalam korpus perwakilan sosial (§2) dibagi menjadi set pelatihan, pengembangan, dan pengujian (masing-masing 80% / 10% / 10%), dan data dari setiap sumber (seperti Wikipedia) dibedakan secara terpisah. Karena skala yang berbeda, kami menerapkan hingga 50 ribu instance ke setiap sumber dan bahasa untuk mengurangi kesalahan pelatihan. Sebanyak 52,3 juta instans digunakan dalam kumpulan data akhir. Instance multi-bahasa dihasilkan dari teks di segmentasinya masing-masing untuk mencegah tumpang tindih set pelatihan pengujian. Untuk set data Twitter70, kami menggunakan pelatihan, pengembangan, dan pemisahan pengujian yang sama seperti Jaech et al. (2016). Semua evaluasi menggunakan model pelatihan yang sama. Semua optimasi parameter dilakukan menggunakan kit pengembangan dari adadelta (Zeiler, 2012), dengan 64 model pelatihan batch kecil. Model ini dilatih untuk 2,7 juta langkah dan ada sekitar tiga tahap.

Bandingkan sistem Kami membandingkan dua sistem LID utama, langid.py dan CLD2, keduanya digunakan secara luas di Twitter dalam komunitas NLP. CLD2 dilatih pada teks web, sedangkan langid.py dilatih pada newswire, JRC-Acquis, web dan Wikipedia. Tidak ada yang dirancang untuk Twitter, kami memproses teks sebelumnya untuk menghapus hashtag dan URL yang disebutkan oleh pengguna untuk perbandingan yang lebih adil. Untuk dokumen multibahasa, kami mengganti langid.py dengan Polyglot yang dijelaskan oleh Lui et al. (2014) dan dirancang untuk tugas khusus ini.

Kami juga menggabungkan hasil penelitian Jaech et al. (2016), yang melatih model berbeda untuk dua tolok ukur. Arsitektur mereka menggunakan jaringan konvolusional yang menggunakan karakternya untuk mengubah setiap kata masukan menjadi vektor, dan kemudian mendorong kata vektor ke encoder LISM, yang menerjemahkan bahasa ke dalam distribusi soft-max untuk setiap kata. Ambil distribusi rata-rata dari distribusi bahasa kata-kata ini untuk mengidentifikasi bahasa mana yang kemungkinan besar berasal dari teks masukan. Sebaliknya, arsitektur kami hanya menggunakan representasi berbasis karakter dan menghasilkan tugas bahasa untuk setiap segmentasi kata.

Tolok ukur Kami menggunakan tiga kumpulan data untuk menguji pengaturan satu bahasa: (1) bagian pengujian dari korpus geografis §2 yang beragam, mencakup 53 bahasa, (2) bagian pengujian dari kumpulan data Twitter70, mencakup 70 bahasa, dan (3) berbagi TweetLID Tugasnya mencakup 6 bahasa. Data TweetLID menyertakan Galician, dan karena relatif jarang muncul, ini bukan salah satu dari 70 bahasa yang kami sertakan. Oleh karena itu, kami hanya melakukan eksperimen pada data non-Galicia. Gunakan bagian data uji dari data multibahasa yang dibangun secara komprehensif dalam 70 bahasa untuk menguji LID multibahasa. Evaluasi model menggunakan nilai F1 rata-rata makro dan rata-rata mikro. F1 rata-rata makro mewakili F1 rata-rata setiap bahasa, terlepas dari jumlah instans bahasa tersebut. F1 rata-rata mikro mewakili nilai F1 yang diukur dari semua contoh dan dipengaruhi oleh penyimpangan distribusi bahasa di kumpulan data.

hasil EQUILID dapat mencapai kinerja paling canggih dari sistem LID arus utama lainnya di semua pengujian benchmark. Kami mengaitkan keunggulan ini dengan data pelatihannya yang lebih representatif; memang, Jaech dkk. (2016) menyatakan bahwa langid.py memperoleh nilai F1 yang lebih tinggi sebesar 0,879 ketika hanya melatih ulang pada data Twitter70, yang bernilai Ditekankan bahwa karena keragaman media sosial, sistem arus utama biasanya tidak melakukan pelatihan data. Meskipun pelatihan ekstensif, EQUILID juga lebih baik daripada model optimal benchmark Jaech et al. (2016).

Tabel 1 Empat hasil pengujian benchmark. Hasil eksperimen Jaech et al. (2016) adalah model independen yang optimal untuk setiap benchmark tidak termasuk Galician. Untuk tweet multibahasa, kami menggunakan ekstensi dari langid.py yang dijelaskan oleh Lui et al. (2014).

Dalam lingkungan multibahasa, EQUILID secara signifikan lebih baik daripada Polyglot dan CLD2. Dibandingkan dengan sebelumnya, rata-rata makro F1 telah meningkat lebih dari 300%. Selain itu, karena model kami juga dapat mengidentifikasi setiap celah bahasa, kami menganggap kinerjanya sebagai langkah penting dalam solusi bahasa lengkap yang mendeteksi konversi kalimat dan frasa antar bahasa. Faktanya, dalam kumpulan data Twitter70, EQUILID menemukan bahwa sekitar 5% dari data pengujian adalah contoh pengalihan kode yang tidak berlabel, seperti yang ditunjukkan pada contoh ketiga pada Gambar 1.

Analisis kesalahan Untuk menentukan sumber utama kesalahan klasifikasi, kami menganalisis output EQUILID secara manual pada set pengujian Twitter70. Kumpulan data berisi 9.572 kasus uji, 90,5% di antaranya diklasifikasikan dengan benar oleh sistem kami; kami membahas sumber kesalahan di 909 contoh kesalahan klasifikasi lainnya.

Ditulis dalam skrip yang sama, klasifikasi bahasa yang terkait erat menggunakan kosakata yang tumpang tindih adalah sumber kesalahan terbesar (374 contoh klasifikasi salah, 41,1% dari semua kesalahan). Bahasa Slavia adalah yang paling menantang, dengan 177 tweet Bosnia dan 65 tweet Slovenia diklasifikasikan sebagai Kroasia. Ini tidak mengherankan, mengingat bahkan untuk pelabelan manual, tugas ini menantang (atau tidak mungkin). Misalnya, Twitter Bosnia yang salah diklasifikasikan ("Resep Biskuit Cokelat Juicy") sama dengan Kroasia. Ada 39 kesalahan dalam bahasa India. Kicauan Bengali, Marathi, Nepal, Punjabi, dan Urdu diklasifikasikan sebagai bahasa Hindi. Bahasa Jerman, Denmark, Norwegia, dan Swedia sering kali membingungkan, menyebabkan 22 kesalahan.

Penyebab utama kesalahan lainnya adalah karena transliterasi bahasa Inggris dan konversi kode: 328 pesan dalam bahasa Hindi, Urdu, Filipina, Telugu, dan Punjabi diklasifikasikan sebagai bahasa Inggris, menyebabkan 36,1% kesalahan . Sebuah tweet Hindi dost tha atau rahega ... jangan khawatir ... tapi dheryarakhe ("dia dulu dan akan tetap berteman ... jangan khawatir ... tapi punya keyakinan") adalah contoh dari Sistem kami dibagi ke dalam bahasa Inggris. Karena kurangnya contoh transliterasi dalam bahasa ini, saat ini sulit untuk mengurangi jenis kesalahan ini.

4 Studi kasus: pemantauan kesehatan

Kami meringkas studi kasus dunia nyata menggunakan posting Twitter sebagai sumber informasi waktu nyata untuk melacak tren kesehatan. Informasi ini sangat penting untuk area yang tidak memiliki sumber daya yang memadai untuk mengidentifikasi tren. Umumnya, metode pelacakan tren pertama-tama menerapkan metode pengenalan bahasa untuk memilih konten bahasa tertentu, kemudian menerapkan teknologi NLP yang kompleks untuk mengidentifikasi konten yang terkait dengan fenomena targetnya, seperti membedakan ulasan flu dari konten yang terkait dengan mabuk. Lingkungan ini adalah dampak nyata yang dapat dimiliki oleh sistem LID yang inklusif secara sosial: sistem LID yang secara efektif mengklasifikasikan dialek kelompok etnis yang kurang beruntung dapat sangat meningkatkan tingkat ingatan metode pelacakan tren, sehingga membantu mengungkapkan tren berbahaya dalam penyakit menular di daerah yang paling membutuhkannya.

Variasi bahasa dikaitkan dengan kelas sosial dan identitas nasional. Sebagai studi kasus, kami mengevaluasi keefektifan sistem LID dalam mengenali tweet bahasa Inggris yang berisi kosakata sehat di seluruh wilayah dengan Indeks Pembangunan Manusia (IPM) yang berbeda. Kami membandingkan EQUILID dengan langid.py dan CLD2.

Mendirikan Daftar istilah yang berhubungan dengan kesehatan disusun dari kamus influenza, kamus kesehatan mental, dan kamus berorientasi waktu yang berkaitan dengan usia, jenis kelamin, dan karakteristik kepribadian. Kami memilih 100 istilah alfanumerik dengan bobot tertinggi dari setiap kamus, membentuk total 385 istilah unik.

Untuk menganalisis kemungkinan pengaruh bahasa daerah, kami memilih 25 negara dengan populasi penutur bahasa Inggris dan menetapkan 62 kotak pembatas untuk kota-kota besar untuk penelitian. Dengan menggunakan GnipAPI, total 984K tweet terkumpul selama Januari 2016. Tweet ini menggunakan setidaknya satu istilah dan dihasilkan dalam kotak pembatas yang sama. Karena tweet ini harus berisi istilah dalam bidang tertentu, kebanyakan dalam bahasa Inggris. Oleh karena itu, kami mengukur kinerja setiap sistem berdasarkan persentase tweet ini yang dibagi ke dalam bahasa Inggris dan memperkirakan tingkat ingatannya.

hasil Untuk memahami hubungan antara Indeks Pembangunan Manusia dan kinerja LID, kami melatih model regresi Logit untuk memprediksi apakah tweet dengan salah satu istilah target akan dianggap bahasa Inggris berdasarkan IPM negara asal tweet. Gambar 2 menunjukkan perbedaan akurasi LID antara kedua model benchmark untuk negara berkembang. Sebaliknya, EQUILID mengungguli kedua sistem di bawah semua tingkat HDI, dan telah melakukan 30% observasi tambahan untuk negara kurang berkembang. Karena lebih banyak teks bahasa Inggris datang dari negara berkembang dengan populasi besar, seperti Nigeria (HD 0.527) dan India (HDI 0.624), masing-masing dengan puluhan juta penutur bahasa Inggris, peningkatan kinerja ini dalam lingkungan global Semakin penting. EQUILID meningkatkan tingkat penarikan tweet berbahasa Inggris masing-masing sebesar 23,9% dan 17,4% di setiap negara. Penelitian ini menegaskan hipotesis kami bahwa korpus pelatihan yang adil secara sosial merupakan langkah pertama yang penting dalam mencapai NLP yang adil secara sosial.

Gambar 2 memperkirakan tingkat ingatan kata-kata yang berhubungan dengan kesehatan berdasarkan kurva regresi logistik dari indeks pembangunan manusia negara asal Twitter; pita tersebut menunjukkan interval kepercayaan 95%.

5. Kesimpulan

Bahasa bahasa lisan global biasanya bervariasi menurut dialek daerah, topik atau faktor bahasa sosial. Namun, kebanyakan sistem LID tidak dirancang dan dilatih untuk jenis keragaman bahasa ini, yang sangat merugikan untuk pengenalan bahasa teks. Dalam pekerjaan ini, kami memperkenalkan sistem LID yang adil secara sosial, EQUILID, yang terdiri dari (1) membuat kumpulan data yang dapat mewakili keragaman linguistik, dan (2) secara eksplisit memodelkan multibahasa dan pertukaran kode dari setiap pasangan bahasa . Kami membuktikan bahwa EQUILID secara signifikan lebih baik daripada sistem LID arus utama saat ini, dan dalam studi kasus nyata yang melacak konten terkait kesehatan, EQUILID secara signifikan mengurangi kesenjangan kinerja LID antara negara berkembang dan negara maju. Pekerjaan kami terus menekankan manfaat sosial NLP sambil memastikan bahwa alat NLP sepenuhnya mewakili semua orang. Sistem EQUILID dapat diperoleh secara publik dari https://github.com/davidjurgens/equilid, dan data dapat diperoleh berdasarkan permintaan.

Tautan unduhan kertas: