ACL New Deal melarang kiriman dipublikasikan di arXiv. Review double-blind seperti apa yang kami butuhkan?

Lei Feng.com AI Technology Review Press: Baru-baru ini, ACL (Association for Computational Linguistics, Association for Computational Linguistics) telah merevisi aturan penyerahan, tinjauan, dan kutipannya sendiri, dan yang paling kontroversial adalah persyaratan Pengiriman anonim ke konferensi ACL (ACL, EMNLP, NAACL-HLT) tidak diizinkan untuk diunggah ke platform pracetak non-anonim (seperti arXiv) dalam waktu satu bulan sebelum batas waktu penyerahan konferensi; mereka tidak dapat dipublikasikan hingga hasil tinjauan makalah dipublikasikan Unggah (Unveil anonymity) .

Persyaratan ini jelas menghidupkan kembali diskusi tentang "perlunya double-blind review" dan "bagaimana melakukan double-blind review secara efisien". Bagaimanapun, kiriman makalah anonim ICLR 2018 terungkap dalam jumlah besar sebelum hasil review dirilis beberapa waktu lalu. Penulis makalah telah muncul beberapa suara kritis. Artikel terbaru di ACM Newsletter mempelajari hubungan antara tingkat penerimaan makalah dan anonimitas. Review Teknologi AI Leifeng.com akan membawa Anda untuk meninjau kembali topik sebelumnya.

Alasan peninjauan buta ganda

Secara umum, dalam eksperimen terkontrol, komite Konferensi Internasional ACM tentang Pencarian Web dan Penambangan Data (WSDM) menemukan bahwa ketika pengulas mengetahui informasi penulis, Peninjau lebih cenderung merekomendasikan makalah dari penulis terkenal atau institusi top . Komite Konferensi Evolusi Bahasa ditemukan Jika pengulas mengetahui informasi penulis, skor untuk karya laki-laki akan 19% lebih tinggi daripada jika tidak diketahui, dan skor 4% lebih rendah untuk karya perempuan.

Berbagai penelitian telah menunjukkan bahwa prasangka mempengaruhi siapa pun, tanpa memandang jenis kelamin atau ras pengulas. Tinjauan double-blind dapat melemahkan pengaruh ini dan mengurangi diskriminasi. Hal ini juga menjadikan review double-blind sebagai bagian yang sangat konstruktif dari sistem evaluasi, sehingga hasil review paper lebih loyal terhadap kualitas paper. Tetapi bahkan dalam review double-blind, upaya reviewer untuk menebak penulis makalah akan tetap mempengaruhi hasil review.

Pengaruh anonimitas

Dilihat dari data dari tiga konferensi ASE, OOPSLA, dan PLDI, 70% ~ 86% reviewer tidak menebak siapa penulis makalah sebelum mengirimkan hasil review, yang menunjukkan bahwa mereka tidak tahu atau peduli siapa yang menulisnya. kertas. Gambar di bawah ini menunjukkan jumlah evaluator, makalah, dan komentar untuk setiap konferensi. Ini juga menunjukkan distribusi tebakan penulis.

Setiap makalah memiliki setidaknya tiga komentar

Jika pengulas menebak penulis makalah di komentar, mereka mungkin akan menebak dengan benar (72% tebakan ASE bisa ditebak dengan benar, OOPSLA 85%, PLDI 74%). Namun pada kenyataannya, sebagian besar komentar review tidak benar-benar menyertakan hasil tebakan yang benar (ASE 90%, OOPSLA 74%, PLDI 81%).

Dibandingkan dengan pengulas biasa, apakah para ahli lebih suka menebak penulis dan dengan mudah menebak penulis yang benar? Gambar di bawah menunjukkan kesimpulan dari studi terkait.

Diantaranya, X singkatan dari pakar, Y singkatan dari peneliti, dan Z singkatan dari sarjana biasa (semua mengevaluasi diri). Seperti yang ditunjukkan pada gambar di atas, "ahli" jelas lebih suka prediksi, tetapi akurasi prediksi tidak jauh lebih tinggi daripada dua jenis orang lainnya (kecuali untuk review Z PLDI). Jadi kesimpulannya adalah mereka yang mengidentifikasi sebagai ahli lebih suka menebak penulis makalah, tetapi kebenarannya tidak perlu disebutkan.

Pertanyaan kedua adalah, apakah surat kabar "palsu" sering kali tidak disebutkan namanya? Beberapa penulis mungkin tidak anonim karena anonimitasnya terlalu buruk. Kertas anonim "palsu" seperti itu akan menarik lebih banyak spekulasi. Gambar di bawah menunjukkan kesimpulan dari studi terkait.

Gambar di atas menunjukkan distribusi tebakan kertas (bagian yang diarsir di bawah kolom mewakili tingkat tebakan yang benar). Untuk sebagian besar makalah ini (26% ~ 30%), hanya satu pengulas yang akan menebak penulisnya. Penelitian juga menunjukkan bahwa semakin banyak tebakan yang dimiliki penulis makalah, semakin rendah kemungkinan tebakan yang terlewat. Mengintegrasikan tampilan distribusi 2 dari tiga data konferensi, Terdapat perbedaan yang signifikan secara statistik dalam tingkat tebakan penulis makalah yang telah menebak sekali, dua kali, dan 3+ kali. (P0.05), perbedaan ini juga signifikan di OOPSLA. Secara langsung membandingkan tingkat tebakan dari setiap konferensi (semua menggunakan uji Z satu sisi) mereka juga sampai pada beberapa kesimpulan: untuk OOPSLA, tingkat satu tebakannya sangat berbeda dari dua konferensi lainnya; untuk PLDI, itu Terdapat juga perbedaan statistik antara nilai benar dari satu tebakan dan tingkat yang benar dari 3+ tebakan, yang menunjukkan bahwa sejumlah kecil makalah dapat dengan mudah ditebak oleh penulis; untuk ASE, hanya 1,5% makalah yang dapat ditebak oleh penulis lebih dari tiga kali, mirip dengan PLDI Datanya 13%. Selain itu, mereka juga menemukan bahwa 40% tebakan di PLDI hanya untuk 13% makalah, yang berarti meningkatkan anonimitas sebagian kecil makalah ini dapat mengurangi banyak tebakan. Karena ketiga konferensi ini baru saja mengadopsi tinjauan buta-ganda, mungkin ada tingkat anonimitas yang rendah. Karena penulis memiliki lebih banyak pengalaman anonimitas, efek anonimitas akan menjadi lebih baik dan lebih baik.

Pertanyaan ketiga adalah, apakah makalah yang penulisnya menebak lebih mungkin diterima? Mereka menyelidiki hubungan antara tingkat penerimaan makalah dan tebakan pengulas dan hubungan dengan tingkat perkiraan. Hasilnya ditunjukkan pada gambar di bawah ini.

Grafik di atas menunjukkan bahwa tingkat penerimaan kertas ASE tampaknya tidak dipengaruhi oleh spekulasi. Tingkat penerimaan makalah OOPSLA dan PLDI yang tidak terarah lebih rendah, dibandingkan dengan yang telah ditebak setidaknya sekali. Perlu dicatat bahwa makalah PLDI yang belum dapat ditebak cenderung tidak diterima daripada makalah yang semuanya salah menebak (ini juga terjadi di OOPSLA). Keadaan ini mungkin karena reviewer OOPSLA dan PLDI lebih menyukai peneliti ternama. Mereka percaya bahwa karya berkualitas tinggi lebih cenderung datang dari peneliti terkenal, sehingga lebih berani menebak penulisnya.

Pertanyaan terakhir, bagaimana pengulas "tidak menganonimkan"? Seseorang pernah bertanya kepada reviewer OOPSLA dan PLDI apakah informasi penulis bocor dari kutipan. Di antara semua tinjauan spekulatif, 37% OOPSLA (11% dari semua tinjauan) dan 44% PLDI (11% dari semua tinjauan) mengakui bahwa informasi penulis disimpulkan berdasarkan kutipan. Peninjau ASE juga ditanyai apa yang memandu tebakan mereka. 75 didasarkan pada topik makalah, 31 didasarkan pada pekerjaan sebelumnya, kumpulan data dan kode sumber, dan 21 didasarkan pada draf sebelumnya, 3 Berdasarkan percakapan sebelumnya. Hasil ini menunjukkan bahwa beberapa keterpaparan anonim tidak dapat dihindari. Beberapa reviewer mencari repositori GitHub atau website proyek dari paper saat ini ketika mencari pekerjaan terkait untuk evaluasi. Situasi lainnya adalah bahwa makalah tersebut terlalu dekat hubungannya dengan karya penulis sebelumnya, dan sulit untuk benar-benar anonim. Meskipun anonimitas itu sulit, ada banyak cara untuk meningkatkan anonimitas. Misalnya, tingkatkan keakraban akademisi dengan anonimisasi, tetapkan norma yang konsisten dan pedoman yang jelas, dll.

Dalam rapat internal panitia program, ketua telah berulang kali mendengar pernyataan anggota bahwa anggota lain adalah penulis makalah. Namun, ternyata dia salah menebak. Hal ini juga mencerminkan terlalu percaya diri beberapa pengulas dan penyembunyian nama mereka. Alasannya belum tentu benar.

Pandangan Ketua Komite Program

Menanggapi hasil di atas, ketua panitia program dari tiga konferensi masih mendukung penggunaan double-blind review secara berkelanjutan. Mereka semua percaya bahwa double-blind review mengurangi dampak potensi bias, yang juga merupakan tujuan double-blind review. Namun, efek dari implementasi dan tantangan yang ada masih belum bisa dianggap enteng. Beberapa anggota panitia program juga memiliki pandangan yang sama, yang mungkin menunjukkan bahwa mereka percaya bahwa setelah pengenalan double-blind, mereka percaya bahwa bias yang lebih kecil dalam tinjauan mereka.

Ketua panitia program memiliki pandangan yang berbeda tentang waktu pengungkapan penulis makalah, seperti setelah peninjauan atau sebelum pertemuan PC. Ada juga beberapa perbedaan lainnya, misalnya ketua PLDI sangat menganjurkan double blind review untuk semua pertemuan, agar makalah yang ditolak tetap anonim saat dikirim kembali ke pertemuan lain. Ketua ASE menemukan bahwa dalam beberapa kasus, mengungkapkan penulis makalah membantu untuk lebih memahami kontribusi dan nilai makalah.

Secara umum, semua ketua proses review tidak menganggap double blind review akan menambah beban administrasi, karena ketua panitia program ASE mempekerjakan dua orang ketua proses review untuk membantunya dalam pekerjaannya, bebannya tidak berat. Ketua komite program OOPSLA juga setuju bahwa beban review double-blind tidak berat, dan menurutnya lebih penting untuk menginstruksikan penulis untuk tetap anonim. PLDI memungkinkan penulis untuk menyerahkan makalahnya kepada ketua panitia program dan kemudian mendistribusikannya.Beban administrasi tambahan juga dapat diabaikan.

Beban tambahan tinjauan buta ganda berasal dari konflik subjek, sementara perangkat lunak manajemen konferensi dapat menyederhanakan manajemen konflik. Semua ketua komite program percaya bahwa tidak sulit untuk menangani konflik ini. Ketua komite program PLDI percaya bahwa manfaat tinjauan buta ganda benar-benar lebih besar daripada Beban yang ditimbulkannya.

Mengapa New Deal ACL menimbulkan kontroversi?

Jelas sekali, double-blind review, seperti yang disepakati semua orang, tidak hanya memiliki efek positif, tetapi juga tidak sulit untuk dilakukan.Jadi mengapa upaya ACL untuk melindungi New Deal double-blind menimbulkan kontroversi?

Pertama-tama, keterbukaan informasi makalah dan pembaruan berulang yang cepat dari konten penelitian sudah menjadi praktik umum di lapangan.Berbagai batasan yang dibawa oleh double-blind review hanya dapat diimbangi dan tidak dapat sepenuhnya membalikkan ketepatan waktu dan keterbukaan. Beberapa orang berpendapat bahwa praktik "membatasi publikasi satu bulan sebelum tenggat waktu" terlalu idealis dan sangat terbatas efektivitasnya. Misalnya, ini hanya berguna untuk pengiriman pertama, dan makalah yang ditolak secara alami dapat diunggah ke arXiv dan kemudian dikirim ke konferensi; dan, penulis dapat menyelesaikan dan mengunggah makalah lebih awal, tidak hanya tidak terpengaruh oleh batasan ini, tetapi juga menikmati Ini memiliki waktu eksposur dan revisi yang cukup.

Christopher Manning, pendukung New Deal, ketua grup NLP Stanford, dan mantan ketua ACL pada 2015, juga memberikan pidato untuk menjelaskan maksud asli dari New Deal secara detail:

"Adalah hal yang baik untuk mempercepat kemajuan ilmiah dengan mempercepat diseminasi hasil penelitian, dan penggunaan double-blind review dalam prosesnya dapat melemahkan prasangka dan mencegah beberapa sarjana atau lembaga besar untuk mengambil untung. Aturan pengajuan, review, dan kutipan ACL adalah dua dari keduanya. Kompromi antara.

Sebagai kompromi, ini akan menunda penyebaran artikel non-anonim; pada saat yang sama, tidak dapat memenuhi persyaratan tinjauan double-blind dengan sempurna. Tapi masih mendekati persyaratan double-blind. Menurut saya ini kompromi yang baik. Performa saat ini sesuai dengan ekspektasi. . Tentu saja, jika Anda tidak berniat berkompromi untuk kecepatan transmisi, tetapi berfokus pada penyelesaian masalah keragaman, inklusivitas, dan prasangka, maka Kesepakatan Baru ACL mungkin tidak penting bagi Anda.

Lagi pula, anonimitas penulis tidak bisa dijamin mutlak. Lagi pula, jika harus berdiskusi dengan rekan kerja, atau membicarakan topik penelitian sendiri dalam kuliah, akan selalu bocor, sehingga ACL New Deal tidak ingin Anda mengisolasi komunikasi kerja dengan rekan kerja. Faktanya, kebijakan baru ACL berharap dapat mempercepat kemajuan ilmiah melalui penggunaan pracetak yang efisien: yaitu, mengirimkan hasil baru lebih awal sebelum batas waktu rapat, atau untuk bertukar ide awal dengan rekan kerja untuk revisi nanti.

Alasan merancang Kesepakatan Baru semacam itu adalah dengan mempertimbangkan dua kelemahan utama sifat manusia: penundaan dengan pelupa , Setiap orang dapat menyelesaikan pekerjaan mereka 35 hari sebelum tenggat waktu, tetapi hanya sedikit yang melakukannya. Beberapa pracetak atau makalah yang sebelumnya ditolak mungkin telah disebarluaskan dari waktu ke waktu, tetapi orang jarang mengingat penulisnya. Anonimitas yang tinggi mempertahankan manfaat dari tinjauan double-blind. ACL sekarang membatasi pracetak non-anonim hanya untuk menghindari penghancuran total anonimitas. Tentu saja, ACL juga mempertahankan sebanyak mungkin untuk mempercepat komunikasi ilmiah. "

Kesimpulannya

Menggabungkan data dari konferensi ASE, OOPSLA, dan PLDI di paruh pertama artikel, serta berbagai kesulitan dalam proses mempertahankan anonimitas, kami sebenarnya akan menemukan bahwa "anonimitas lengkap" tidak dapat dicapai. Namun karena ulasan double-blind bisa efektif dalam mengurangi prasangka, kami masih memerlukan beberapa langkah untuk meningkatkan level anonimitas dan mengingatkan semua orang bahwa sambil fokus pada komunikasi yang cepat dan gratis, jangan lupa bahwa kita masih perlu bekerja keras untuk menguranginya dengan berbagai cara. Bias buatan.

melalui ACM.org, Efektivitas Anonimisasi dalam Tinjauan Buta Ganda, C. Le Goues, Y. Brun, S. Apel, E. Berger, S. Khurshid, Y. Smaragdakis, Komunikasi ACM, Vol.61 No. 6 , Halaman 30-33, 10.1145 / 3208157. Christopher Manning (Twitter @chrmanning). Kompilasi dan penyelesaian tinjauan teknologi AI Lei Feng.com

Tampilkan konfigurasi versi standar merah Haval H7L / H7 atau peluncuran Hari Jomblo

Sebelumnya

Luar Negeri | benchmark Mercedes-Benz CLA 2020 BMW 3 Series 2019

Lanjut

: Xiaomi True Wireless Earphones AirDots Youth Edition, apakah bisa dibandingkan dengan Apple Airpods?

: Dengan 520 kado ini, saya memenangkan kejuaraan Moments Show Love Contest

: ASUS akan melipatgandakan pengiriman ponselnya tahun ini, tapi tidak ada yang peduli HTC siapa yang disalahkan?

: "Detective Conan: The Enforcer of Zero" menetapkan 1109 sebagai Conan terkuat melawan "The Alien"

: Tim LPL G tertentu akan memperkenalkan Taiwan Lightning Wolves ke hutan! Netizen: Manajer pabrik tidak akan benar-benar GG, bukan?

: 5 Mei, jam 2 pagi: Ini adalah seluruh hidup saya yang dianiaya! Tidak pernah begitu tidak berdaya!

: Geely Borui GE, yang diberkati dengan teknologi Volvo, terdaftar di pasar saham. Sinyal dan strategi energi baru apa yang akan dirilisnya?

: "Bibi Li Cha" ditampilkan dalam "Everyday Upward" Huang Cailun, Allen Lu Jingshan, "Kucing dan Anjing"

: Cinta dunia untukmu akan meluap lagi, salah satu Perampok Festival Lentera

: Eksposur konfigurasi parsial SUV Damai X7 ukuran sedang Zhongtai, dorongan pertama 1.8T

: Penampilan Hu Mei di "I Am an Actor" mengungkapkan untuk pertama kalinya bahwa "A Dream of Red Mansions" telah selesai.

: Lima puluh lima Kai dan Ma Feifei memainkan buluh ganda? Lima puluh lima bukti pertunjukan terbuka, meledak dan menanyai netizen!

ACL New Deal melarang kiriman dipublikasikan di arXiv. Review double-blind seperti apa yang kami butuhkan?

Alasan peninjauan buta ganda

Kesimpulannya

Informasi Terkait

Generasi baru MINI COUNTRYMAN tampil perdana di Asia di Guangzhou Auto Show

Drone blockchain ke-15618 JD dan teknologi lainnya dipamerkan

Film blockbuster Marvel "Venom" berlatar di daratan Cina! Anti-superhero akhirnya berhasil mencapai November

Wei Shen mengalihkan pandangannya pada lima atau lima? Siaran langsung mengungkapkan "daftar putih" rahasia! Lima puluh lima, saya khawatir saya tidak tahu!

Data terbaru menunjukkan bahwa mesin domestik sedang meningkat, melampaui Apple dan Samsung

Generasi baru Kia K2 resmi dijual dengan harga 7,29-10,39 juta

Xiaomi Mi 6 mungkin mulai dari 2.299 yuan, tetapi tampaknya masih menjadi "raja harga rendah"

Pencipta "I Care About You" muncul di karpet merah pada penutupan Festival Film Jalan Sutra

Penuh dengan celah! Sains populer: Apa sebenarnya 800 DPI pada 50-50? Wei Shen 3200 hampir melempar mouse

Siapa yang ingin melewati 520? Ini masalah serius untuk meraih stussy dan adidas ini serendah 90!