Leifeng.com AI Technology Commentary: Pada KTT data mining ACM SIGKDD 2018 mendatang, makalah "Multi-Type Itemset Embedding for Learning Behavior Success" oleh Tim Riset DM2 (DM2 Laboratory, CSE, University of Notre Dame) Diadopsi oleh konferensi utama. Penulis artikel ini adalah Wang Daheng, seorang mahasiswa doktoral tahun ketiga di tim peneliti DM2 Universitas Notre Dame, dan pembimbingnya adalah Jiang Meng, asisten profesor di Departemen Ilmu Komputer, Universitas Notre Dame.
Penyematan Item Banyak Jenis untuk Keberhasilan Perilaku Pembelajaran (ACM SIGKDD 2018)
Laboratorium DM2, CSE, Universitas Notre Dame (Tim Peneliti DM2, Departemen Ilmu Komputer, Universitas Notre Dame)
Ajukan pertanyaan
Bagi mahasiswa PhD, bagaimana meningkatkan kualitas dan hasil penelitian ilmiah selalu menjadi topik sentral dalam karir akademis mereka. Dibandingkan dengan mahasiswa doktoral senior, mahasiswa junior doktoral yang baru memasuki bidang penelitian ilmiah seringkali kurang memiliki pengetahuan dan pengalaman yang memadai, sehingga tidak mampu memperkirakan probabilitas suatu makalah dalam suatu naskah dan mencari cara untuk meningkatkan laju naskah. . Sebagai mahasiswa doktoral yang baru saja lulus tahun ajaran kedua, pengalaman saya sangat mendalam.
Idealnya, ketika kami memulai proyek penelitian berorientasi publikasi baru, kami berharap memiliki tim peneliti yang sesuai (termasuk banyak sarjana dan ahli dengan keterampilan yang saling melengkapi), pertanyaan penelitian yang cukup jelas, dan masuk akal secara ilmiah. Metode penelitian dan pertemuan target dengan positioning yang sesuai. Namun dalam kenyataannya, seringkali sulit bagi kita untuk mencapai konfigurasi seperti itu di awal. Jadi, dapatkah kita menggunakan kecerdasan buatan untuk membangun model prediksi dari sejumlah besar pengalaman sukses (makalah yang berhasil diterbitkan di masa lalu) untuk membantu kita menilai? Selain itu, dapatkah kita mengizinkan algoritme kecerdasan buatan untuk merekomendasikan cara-cara meningkatkan laju manuskrip di makalah? Apakah mengundang profesor lain di departemen Anda untuk berpartisipasi dapat sangat meningkatkan kemungkinan keberhasilan proyek? Dengan kata lain, adakah artikel bagus yang layak dibaca, atau bahkan harus dibaca, untuk meningkatkan laju manuskrip? Ini adalah pertanyaan yang sangat praktis dan menarik.
Kesulitan
Secara obyektif, setiap makalah akademis adalah produk perilaku yang sangat kompleks, yang berisi berbagai jenis informasi kontekstual. Makalah umum yang berhasil diterbitkan biasanya memiliki banyak penulis, beberapa kata kunci yang membingkai bidang penelitian dan masalah tertentu, sejumlah besar kutipan literatur, dan informasi konferensi yang diterbitkan. Oleh karena itu, sangat sulit untuk secara akurat menentukan tingkat keberhasilan makalah pada konferensi sasaran. Bahkan lebih sulit untuk menemukan peneliti dengan keterampilan yang paling melengkapi dari ribuan kandidat dalam data untuk direkomendasikan kepada kami. Yang kami butuhkan adalah media pembawa yang dapat mengekspresikan perilaku makalah dan konteksnya secara efektif.
Metode tradisional adalah dengan menggunakan matriks atau dekomposisi tensor untuk mendapatkan representasi objek data berdimensi rendah. Dengan kata lain, kita dapat membuat matriks besar yang berisi informasi tentang semua makalah dan item konteks, lalu menguraikan matriks ini untuk mendapatkan representasi dimensi rendah dari makalah dan item konteks. Tetapi ini tidak berlaku untuk situasi di mana beberapa item konteks termasuk dalam tipe yang sama, seperti beberapa penulis dan kutipan dalam sebuah makalah. Dan ketika volume data kita menjadi lebih besar, ini jelas bukan pilihan yang efisien untuk menggunakan satu matriks besar untuk mewakili seluruh kumpulan data.
Metode pembelajaran representasi memberi kita beberapa ide yang lebih baik: jika kita dapat mempelajari representasi vektor dari makalah dan item konteks yang dikandungnya, masalah prediksi dan rekomendasi yang kita pedulikan akan terpecahkan. Perlu disebutkan bahwa pembelajaran tertanam di Internet telah populer dalam dua tahun terakhir. Metode ini didasarkan pada gagasan untuk menjaga kedekatan antar node dan dapat dengan cepat mempelajari node dalam jaringan menjadi representasi vektor. Saat kita memiliki representasi vektor dari simpul, kita dapat dengan mudah menggunakan hasil kali dalam vektor untuk menghitung kesamaan antara simpul dan simpul, sehingga membantu kita menyelesaikan tugas-tugas seperti klasifikasi simpul dan prediksi tepi. Tetapi metode pembelajaran penyematan jaringan tidak cocok untuk situasi kami: kami peduli tentang apakah makalah yang terdiri dari sekumpulan beberapa jenis item konteks dapat berhasil diterbitkan di masa mendatang, daripada apakah makalah tersebut online dengan penulis tertentu. Kesamaan yang lebih tinggi.
Jalan kita
Menanggapi masalah ini, kami mengusulkan metode pembelajaran tertanam yang baru. Pertama, kami memperlakukan semua perilaku sebagai struktur koleksi multi-tipe. Misalnya, makalah dapat dianggap sebagai struktur koleksi yang terdiri dari empat jenis: penulis, kata kunci, konferensi target, dan kutipan; di antaranya, penulis, kata kunci, dan kutipan diperbolehkan memiliki beberapa item konteks, dan makalah hanya sesuai dengan satu. Item konteks.
Dengan cara ini, representasi vektor dari suatu perilaku dapat diperoleh dengan penjumlahan berbobot dari representasi item konteks yang dikandungnya.
Kami selanjutnya mendapatkan tingkat keberhasilan suatu perilaku dengan menghitung panjang modulus orde dua dari vektor perilaku (mengambil nilai singular hiperbolik).
Setelah itu, kami menggunakan metode penurunan gradien stokastik untuk mengoptimalkan jarak antara distribusi tingkat keberhasilan perilaku aktual dan distribusi tingkat keberhasilan perilaku yang diprediksi, dan akhirnya mempelajari representasi vektor berdimensi rendah dari semua perilaku dan item konteks dalam kumpulan data.
Ada dua poin yang perlu ditekankan di sini: 1. Kami menyimpan karakteristik keberhasilan perilaku dalam ruang embedding berdimensi rendah (struktur dari kumpulan item konteks berjenis banyak); 2. Seringkali, kumpulan data kami hanya berisi observasi Perilaku sukses tidak berisi data perilaku gagal. Oleh karena itu, kita juga perlu membuat contoh negatif pelatihan melalui metode pengambilan sampel negatif yang baru. Untuk alasan ini, kami mengusulkan dua metode pengambilan sampel negatif yang inovatif untuk kumpulan item konteks berjenis banyak.
Dalam metode pengambilan sampel negatif pertama, kami mengharuskan contoh negatif yang dihasilkan memiliki jumlah item konteks yang sama dengan contoh positif terkait. Dengan cara ini, kita dapat menghindari contoh negatif yang tidak masuk akal yang disebabkan oleh pengambilan sampel yang benar-benar acak. Dalam banyak kasus, kita akan menemukan jenis item konteks tertentu dengan beberapa karakteristik. Misalnya, sebuah artikel bisa berhubungan dengan beberapa penulis, tapi biasanya hanya berhubungan dengan satu pertemuan target. Kami telah merancang metode pengambilan sampel negatif kedua yang lebih halus di sini: diperlukan untuk mengikuti distribusi frekuensi jenis contoh positif saat membuat contoh negatif. Dengan cara ini, kita dapat menghasilkan contoh negatif yang lebih mirip dengan contoh positif tetapi tidak ada untuk pelatihan.
Hasil percobaan
Kami mengumpulkan hampir 10.000 makalah terkait komputer yang diterbitkan untuk eksperimen.
Dalam tugas prediksi, model kami mengungguli semua model pembelajaran penyematan jaringan (LINE, DeepWalk, Node2Vec, Metapath2Vec) dan model pengurangan dimensi klasik PCA. Diantaranya, metode pengambilan sampel negatif kedua (Pn) lebih baik daripada metode pengambilan sampel negatif pertama (Pt). Dan saat kita menetapkan bobot yang relatif tinggi ke jenis penulis, kita bisa mendapatkan efek terbaik secara keseluruhan.
Pada tugas rekomendasi, kita bisa mendapatkan kesimpulan yang konsisten, dan model kita juga lebih baik dari model lainnya. Khususnya untuk tugas-tugas yang relatif sulit dalam merekomendasikan penulis dan merekomendasikan kutipan (jumlah total masing-masing 12300 dan 18971), model kami memiliki keuntungan yang lebih jelas.
Untuk keunggulan model kami, metode yang lebih intuitif adalah dengan memvisualisasikan artikel asli dan palsu dalam kasus pengujian di ruang embedding berdimensi rendah. Kita dapat melihat bahwa vektor kertas asli di sebelah kiri dengan jelas meluas di ruang angkasa; vektor kertas palsu dekat dengan asalnya. Vektor artikel yang panjang dan pendek tersebut menunjukkan bahwa model prediksi kami memiliki kemampuan yang cukup untuk membedakan perbedaan antara artikel asli dan palsu, sehingga memberikan kami prediksi rasio klik yang akurat.
Penemuan menarik
Selain itu, kami juga membuat beberapa temuan menarik selama percobaan berlangsung.
Kami juga mengumpulkan jumlah kutipan makalah nyata dalam kasus uji dari Google Cendekia. Dari gambar tersebut, kami dapat menemukan bahwa makalah dengan prediksi rasio klik yang lebih tinggi dalam model kami memiliki lebih banyak kutipan secara signifikan daripada makalah dengan prediksi rasio klik yang lebih rendah. Kesimpulan ini muncul hampir di semua tahun dari 2001 hingga 2015.
Akhirnya, saya berharap temuan dan penelitian kami akan membantu Anda.
Silakan merujuk ke kertas asli:
Wang, D., Jiang, M., Zeng, Q., Eberhart, Z., dan Chawla, NV (2018, Juli). Multi-Type Itemset Embedding untuk Keberhasilan Pembelajaran Perilaku. Dalam Prosiding Konferensi Internasional ACM SIGKDD ke-24 tentang Penemuan Pengetahuan dan Penambangan Data (pp. 2397-2406). ACM.
Teks asli makalah dapat diunduh dari area sumber daya komunitas AI Research Society of Leifeng.com.
- Rumah Pintar Hisense berpartisipasi dalam pertemuan persiapan dari Komite Profesional Industri Kunci Asosiasi Inspeksi Kualitas China
- Ingin membandingkan dengan tes Tiangong? Bisakah Anda benar-benar masuk surga dengan Reebok Floatride Space Boot SB-01?
- "Quick Book" tentang "Detective Pu Songling" memiliki tahun baru yang bahagia, Jackie Chan yang legendaris akan menemani Anda merayakan tahun baru!