Ulasan Teknologi AI Leifeng.com: Artikel ini adalah naskah interpretasi KDD 2018 yang disediakan oleh Alibaba. Insiden ini memiliki bonus yang sesuai dalam proyek basis data "Faktor Dampak AI" di bawah Tinjauan Teknologi AI saluran akademik Leifeng.com.
Selama 30 tahun terakhir, dengan munculnya teknologi eksperimental berkualitas tinggi dan koneksi Internet berkecepatan tinggi, semakin banyak data dalam jumlah besar dapat diproduksi dan dikirim secara otomatis. Setelah itu, industri, akademisi, dan bahkan individu harus menghadapi tantangan pemrosesan data skala besar.Bagaimana menambang informasi berharga dari data heterogen berdimensi tinggi dalam jumlah besar ini selalu menjadi solusi bagi praktisi data mining. Masalah. "Data mining", biasanya juga "knowledge discovery in a database", adalah lintas domain yang memanfaatkan sepenuhnya berbagai statistik, pembelajaran mesin, model kecerdasan buatan, dan platform komputasi yang kompatibel untuk mencoba menafsirkan kumpulan data besar secara otomatis. Interdisipliner. KDD (ACM SIGKDD CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING) adalah konferensi teratas di bidang ini. Dari data aktual dan bisnis terkait serta artikel yang diterima oleh KDD, kami dapat merangkum beberapa tren perkembangan penting dalam data mining:
Penambangan data multi-modal: Karena teknologi dapat mengumpulkan data secara lebih efektif dari berbagai saluran, seperti audio, video, teks, gambar, dll., Ini juga merupakan arah yang sekarang semakin diperhatikan, dan datanya sendiri lebih efektif Disimpan dengan berbagai cara. Bagaimana melakukan pemodelan lintas-domain yang efektif, seperti pembelajaran multi-tugas, pembelajaran transfer, dan pembelajaran penguatan, semuanya merupakan model pengembangan utama.
Penambangan data global: Metode ini melibatkan penambangan data dari perangkat seluler dan perangkat IoT untuk mendapatkan informasi tentang individu. Meskipun terdapat beberapa tantangan dalam jenis ini, seperti kompleksitas, privasi, biaya, dll., Metode ini memiliki peluang besar di berbagai industri, terutama dalam studi interaksi manusia-komputer.
Penambangan data terdistribusi: Jenis penambangan data ini menjadi semakin populer karena melibatkan penambangan sejumlah besar informasi yang disimpan di lokasi perusahaan yang berbeda atau organisasi yang berbeda, dan sulit bagi algoritme apa pun untuk melakukan data di seluruh jaringan dalam versi yang berdiri sendiri. Pelatihan dan penalaran. Selain itu, algoritme yang lebih adaptif juga dapat digunakan untuk mengekstrak data dari lokasi berbeda dan memberikan wawasan serta laporan yang sesuai berdasarkan algoritme tersebut.
Penambangan data spasial-temporal: Ini adalah jenis tren baru dari data mining, yang mencakup penggalian informasi dari data lingkungan, astronomi dan geografis dengan tren periodik dan musiman, termasuk gambar yang diperoleh dari luar angkasa. Jenis data mining ini dapat mengungkapkan berbagai aspek seperti jarak dan topologi, terutama digunakan dalam sistem informasi geografis dinamis dan aplikasi navigasi lainnya. Pendekatan ini juga membantu menganalisis peristiwa acak yang terjadi di luar rangkaian peristiwa normal. Masalah yang terkait erat dengan kami menjadi semakin populer. Misalnya, di retail baru, cara menggabungkan data online dan offline yang dinamis secara efektif untuk memodelkan pola pembelian dan perilaku pelanggan yang berkunjung adalah masalah model data spasiotemporal yang sangat menantang.
Model komputasi grafik adalah model yang sangat populer di perusahaan data besar, terutama perusahaan IT, karena merupakan solusi paling langsung untuk banyak masalah praktis. Komputasi grafik secara kasar dapat dibagi menjadi grafik homogen dan grafik heterogen, yang terakhir adalah ketika jenis node atau edge lebih besar dari atau sama dengan 2. Selain itu, grafik pengetahuan juga merupakan aplikasi penting dari grafik heterogen, yaitu model grafik semantik berbasis semantik. Selain model komputasi grafik tradisional, seperti LPA yang terkenal, Random Walk dan berbagai deformasi, CC, dll., Dengan keberhasilan pembelajaran mendalam, Penyematan Grafik menjadi semakin populer. Sederhananya, Graph Embedding juga melakukan rekayasa fitur pada node atau edge melalui model pembelajaran yang mendalam. Dalam beberapa tahun terakhir, dengan diversifikasi data, peningkatan substansial dalam volume data, dan kemajuan terobosan daya komputasi, pengembangan dan penerapan komputasi grafik telah berkembang pesat. Perusahaan-perusahaan besar juga telah meluncurkan platform komputasi grafik, seperti Google Pregel, Facebook Giraph, Tencent Star Atlas, Huawei GES, dll.
Di antara mereka, penggalian data grafik skala sangat besar juga dapat dianggap sebagai ringkasan dari tren sebelumnya, dan ini juga akan menjadi titik nyala terkonsentrasi besar untuk penggalian data dalam 3 hingga 5 tahun ke depan. Misalnya, 27 penulis seperti DeepMind, Google Brain, dan MIT baru-baru ini menerbitkan makalah berat, yang menunjukkan bahwa pembelajaran mendalam murni telah matang, dan pembelajaran mendalam berdasarkan komputasi grafik menggabungkan pembelajaran ujung ke ujung dengan penalaran induktif, yang diharapkan dapat menyelesaikan masalah pembelajaran yang mendalam. Pertanyaan tentang penalaran. Komputasi grafik skala sangat besar memainkan peran yang semakin penting dalam perusahaan data besar, terutama serangkaian algoritma yang diwakili oleh representasi grafik skala besar yang menggabungkan pembelajaran mendalam dan komputasi grafik.
Komputasi grafik skala sangat besar memainkan peran yang semakin penting dalam perusahaan data besar. Secara khusus, serangkaian algoritme yang diwakili oleh representasi grafik berskala besar yang dikombinasikan dengan pembelajaran mendalam dan komputasi grafik telah mencapai hasil bertahap dalam banyak skenario bisnis Ali. Data ekosistem Alibaba sangat kaya dan beragam, mencakup semua aspek informasi mulai dari belanja dan perjalanan hingga hiburan dan pembayaran. Misalnya, sebagai sarana penting penyaringan informasi, sistem rekomendasi yang dipersonalisasi dapat merekomendasikan barang atau jasa yang sesuai dengan kebiasaan dan hobi kita.Namun, sistem rekomendasi tradisional rentan terhadap masalah ketersebaran, start cold, dan pengulangan informasi, sedangkan grafik pengetahuan Sebagai model penting dari representasi grafik skala besar, ini menjadi jenis informasi tambahan rekomendasi yang muncul, yang dapat secara efektif menggabungkan informasi global dari orang perseorangan, benar-benar menambang dan memahami kebutuhan semua orang, dan memperkenalkan informasi nyata konsumen di setiap domain bisnis. Produk potensial yang diminati. Kami sedang mengerjakan pengembangan sistem rekomendasi generasi baru, yang dapat melakukan analisis inferensi secara efisien pada lebih dari milyaran node dan 100 miliar edge. Berdasarkan tantangan ini, kami berusaha sebaik mungkin untuk menemukan insinyur dan ilmuwan yang dapat menghadirkan ide-ide segar di bidang terkait seperti pengambilan informasi, komputasi terdistribusi, desain sistem skala besar, pembelajaran mesin, kecerdasan buatan, dan pemrosesan bahasa alami. Siswa yang tertarik dengan topik ini dipersilakan untuk berdiskusi lebih mendalam dengan penulis (yang.yhx@alibaba-inc.com).
Di bawah ini kami secara khusus akan memperkenalkan beberapa pencapaian terbaru kami dan artikel yang diterima KDD, termasuk:
deteksi penipuan ( SPARC: Representasi Jaringan Pacu Diri untuk Karakterisasi Kategori Langka Jepretan Sedikit) ;Rekomendasi (Penyematan Jalur Interaktif untuk Pencarian Kedekatan Semantik pada Grafik Heterogen) ; Resolusi entitas (Resolusi Rekaman Akses Seluler pada Grafik Identifier-Linkage Skala Besar) dengan interpretasi model yang dalam (Deteksi Adversarial dengan Interpretasi Model).
1. SPARC of Genius: Kemajuan Alibaba dalam analisis klasifikasi langka
Di platform online, data langka biasanya yang paling berharga. Analisis kategori langka sangat penting untuk mencegah intrusi jaringan komputer, menemukan topik hangat di media sosial, dan mendeteksi transaksi online yang curang. Namun, menemukan data ini bisa jadi sulit. Seperti pepatah menemukan jarum di tumpukan jerami, mereka biasanya tersembunyi di antara dan tidak terpisahkan dari titik data normal, dan menandai contoh kategori langka sangat mahal. Untuk menganalisis secara efektif kategori langka dalam kumpulan data, algoritme harus menjadi pembelajar yang cepat. Tim teknis Alibaba bekerja dengan Arizona State University dan Tencent Medical Artificial Intelligence Laboratory untuk membuat SPARC, kerangka kerja mandiri yang secara bertahap mempelajari model representasi dan representasi jaringan berorientasi kategori langka dengan cara yang saling menguntungkan.
Belajar dengan kecepatan Anda sendiri
SPARC terinspirasi oleh pembelajaran kursus. Paradigma pembelajaran kurikulum meniru proses kognitif manusia: model dasar dilatih dari aspek tugas yang sederhana ke aspek yang lebih sulit berdasarkan kurikulum yang telah ditentukan.
Meskipun konsep ini telah diterapkan dalam banyak situasi berbeda, desain trial-and-error sulit diterapkan di dunia nyata. Namun, paradigma pembelajaran baru secara otomatis mempelajari pelajaran dengan menggunakan pengatur kecepatan sendiri untuk meminimalkan fungsi kerugian. Ini disebut pembelajaran mandiri. Tim peneliti membangun konsep pembelajaran mandiri ini dan menerapkannya pada skenario analisis kategori langka di mana terdapat kekurangan contoh berlabel untuk secara bertahap dan bersamaan mempelajari representasi penyematan kategori langka dan model representasi. SPARC juga mempelajari embeddings grafik dan memprediksi contoh kategori langka dengan cara yang saling menguntungkan. Kerangka kerja dapat memodelkan keanggotaan yang tidak seimbang dalam jaringan tertentu (misalnya, ukuran jaringan yang berbeda). SPARC dapat belajar dari sejumlah kecil contoh berlabel kategori langka untuk meminimalkan biaya pelabelan. Selain itu, penggunaan representasi berorientasi kelas dari SPARC dapat secara luas memisahkan kelas mayoritas dan kelas minoritas dalam ruang embedding, dan kelas-kelas ini tidak dapat dibagi dalam hal topologi dan karakteristik jaringan.
Diagram skematis model ritme SPARC sendiri
Terapkan SPARC
Untuk menguji keefektifan SPARC di bidang ini, peneliti mengumpulkan kumpulan data dari jaringan kolaborasi bibliografi, jaringan NLP dan jaringan sosial. Algoritme tersebut dibandingkan dengan dua algoritme penyematan jaringan tanpa pengawasan, DeepWalk dan LINE, serta kerangka kerja semi-supervisi PLANETOID lainnya sesuai dengan kriteria berikut: akurasi klasifikasi, persentase contoh kategori langka yang ditemukan dan rasio contoh langka nyata yang diambil.
Dalam kebanyakan kasus, SPARC mengungguli metode kompetitif paling canggih di semua kumpulan data dan indikator evaluasi. Meskipun jaringan penyematan semi-pengawasan berkinerja lebih baik daripada metode tanpa pengawasan dalam memisahkan kategori, SPARC unggul dalam mengelompokkan contoh langka dan mampu berlatih hanya dengan menggunakan satu contoh yang ditandai sebagai kategori langka. Selain itu, SPARC lebih kuat dan memiliki lebih sedikit kesalahan daripada metode perbandingan.
Alamat teks lengkap:
Visualisasi tata letak jaringan yang diekstrak oleh SPARC dan tiga kerangka kerja yang bersaing
2. Siapa yang tahu siapa: Gunakan jalur interaktif untuk menyematkan orang yang tepat
Salah satu fitur yang paling menarik dari platform web adalah kemampuan pengguna untuk terhubung dengan orang lain. Misalnya, di media sosial, pengguna bahkan tidak perlu secara aktif mencari teman sebelum platform merekomendasikan koneksi baru. Di bawah permukaan platform jaringan ini terdapat jaringan besar koneksi antar pengguna, dan sebagian besar jaringan ini bergantung pada "pencarian kedekatan semantik": objek dalam jaringan digunakan sebagai kueri dan objek lain diberi peringkat menurut hubungan semantik. Pencarian kedekatan semantik melihat fitur seperti lokasi, lokasi kerja, dan sekolah untuk menentukan hubungan semantik yang tersirat oleh koneksi ini. Dari sana, pencarian menjadikan pengguna sebagai kueri dan menanyakan pengguna lain mana yang mungkin tetangga, kolega, atau teman sekelas, memberi peringkat yang sesuai. Pemeringkatan ini kemudian digunakan untuk mendukung fungsi-fungsi seperti tautan rujukan di media sosial, tautan konsultan / pemberi saran di jaringan bibliografi, dan tautan identitas pengguna di platform e-niaga.
Di situs dengan basis pengguna yang besar (seperti Facebook), grafik heterogen yang dijelaskan di atas dapat dengan cepat menjadi rumit
Namun, pencarian kedekatan semantik tidaklah sempurna. Hubungan semantik pada daftar heterogen tidak selalu jelas, dan mungkin ada tautan yang hilang antar objek. Penelitian sebelumnya tentang kedekatan semantik telah mencoba mengukur kedekatan semantik dengan jalur yang menghubungkan objek kueri dan objek target. Namun, jalur ini digabungkan secara lemah dalam pemodelan, dan setiap jalur ditangani secara terpisah. Keluarannya hanya dirangkum dalam tahap akhir, yang membatasi kemampuan model untuk membentuk gambaran lengkap tentang saling ketergantungan antar objek. Tim teknis Alibaba berkolaborasi dengan para peneliti dari Universitas Zhejiang dan Pusat Sains Digital Lanjutan Singapura untuk mengembangkan Penyematan Jalur Interaktif (IPE) untuk menghubungkan lebih kuat jalur penelusuran kedekatan semantik untuk menemukan hubungan antarpengguna. Hubungan ini mungkin Akan diabaikan oleh baseline saat ini.
Pembentukan model IPE
Tim peneliti Alibaba memperkenalkan konsep jalur interaksi, memproses beberapa jalur secara bersamaan dan menambahkan ketergantungan di antara jalur tersebut. Akibatnya, jalur ini dianggap sangat berpasangan. Jalur interaktif ini kemudian disematkan ke dalam vektor berdimensi rendah, yang dapat menangkap berbagai hubungan semantik antar pengguna.
Model kerangka IPE
Dari situ, peneliti menggunakan mekanisme reorganisasi non-siklik. Perulangan dalam struktur grafik tidak diinginkan karena akan mempersulit dua node untuk saling menjangkau. Mekanisme ini mengubah urutan jalur untuk menghilangkan loop yang berbeda dan memaksimalkan efisiensi jalur. Kemudian, arsitektur gated recurrent unit (GRU) menyematkan jalur interaksi dan memungkinkan setiap GRU untuk mensimulasikan interdependensi dari GRU lainnya. Terakhir, keluaran embedding struktur jalur interaktif digabungkan menjadi satu vektor, yang kemudian dapat digunakan untuk memperkirakan kedekatan hubungan semantik.
Penggunaan IPE dalam praktiknya
Untuk menguji keefektifan IPE di bidang ini, tim teknis Alibaba mencari berbagai jenis jaringan heterogen, seperti LinkedIn, Facebook, DBLP, dan Taobao. Dalam percobaan tersebut, tugas IPE dan beberapa baseline pencarian pengguna semantik lainnya adalah untuk menentukan jenis hubungan yang berbeda sesuai dengan set fitur unik dari setiap jaringan. Para peneliti membangun peringkat yang ideal untuk setiap pengguna kueri pengujian dan setiap hubungan semantik yang diperlukan. Mereka membandingkan peringkat ideal ini dengan peringkat yang dihasilkan oleh berbagai algoritme pencarian pengguna semantik yang canggih. Dalam semua pengujian ini, IPE tidak hanya berperforma baik pada baseline kompetitif, tetapi juga berperforma baik pada versi downgrade-nya sendiri, biasanya penting. Ini memvalidasi struktur jalur interaktif dan membuka pintu untuk memperluas IPE untuk menangani atribut dan dinamika dalam jaringan heterogen untuk pencarian kedekatan semantik.
Alamat teks lengkap:
3. Bisakah Anda membuat potret diri Anda melalui ponsel?
Era e-commerce menyaksikan pertumbuhan pesat pengguna Internet seluler. Perusahaan e-niaga besar sekarang melihat miliaran kunjungan seluler setiap hari, dan tersembunyi dalam catatan ini adalah karakteristik perilaku pengguna yang berharga, seperti preferensi belanja dan pola penelusuran. Namun, untuk mengekstrak informasi ini dari kumpulan data yang sangat besar, catatan harus ditautkan ke perangkat seluler yang sesuai, Proses ini disebut resolusi catatan akses seluler (MARR). MARR menghadapi dua tantangan utama:
1. Pengenal perangkat dan atribut lain di log akses mungkin hilang atau tidak dapat diandalkan.
2. Kumpulan data berisi miliaran catatan akses dari jutaan perangkat.
Saat ini, belum ada metode yang dikembangkan untuk memecahkan masalah penggunaan pengenal perangkat seluler dalam skala besar.
Kami mungkin tidak tahu perangkat apa yang Anda gunakan
Menurut laporan terbaru dari International Telecommunication Union (ITU), jumlah pengguna Internet seluler global (non-pengguna) mencapai 7,74 miliar pada 2017. Karena ponsel menggantikan komputer desktop sebagai platform digital yang paling banyak digunakan, karakteristik preferensi pengguna seluler untuk pola perilaku dalam catatan kunjungan mereka menjadi sangat penting. Dibandingkan dengan blog tradisional, catatan akses seluler terutama mengandalkan cookie untuk melacak perilaku pengguna, sehingga memungkinkan untuk lebih memahami pengguna Internet dengan berbagai ID dalam catatan akses mereka dengan lebih jelas. ID ini meliputi:
1. International Mobile Equipment Identity (IMEI) -pengenal unik yang digunakan untuk mengidentifikasi perangkat.
2. International Mobile Subscriber Identity (IMSI) - digunakan untuk mengidentifikasi pengguna di jaringan seluler yang disimpan di kartu SIM.
3. IDentitas perangkat UserTrack (UTDID).
IMEI dan IMSI masing-masing adalah pengenal dari ponsel pintar dan nomor ponsel. Di sisi lain, UTDID sama sekali berbeda dari dua pengenal berbasis perangkat keras ini karena dibuat dan digunakan oleh Alibaba, sebuah perusahaan perdagangan elektronik multinasional di Cina, untuk identifikasi perangkat. Dengan menggunakan ID ini, catatan akses dapat dipetakan ke ponsel atau aplikasi terkait untuk menghasilkan profil pengguna yang lebih berkualitas. Memetakan catatan akses ke ponsel atau aplikasi tampaknya menjadi masalah sederhana, karena ID seperti IMEI, IMSI, dan UTDID dapat digunakan untuk mengidentifikasi perangkat dan aplikasi secara unik. Namun, data yang dikumpulkan dari aplikasi praktis jauh dari sempurna. Nilai atribut, ID yang berisik (bermasalah dan menyesatkan), dan masalah konversi ID akan hilang. Salah satu cara konversi ID Shift adalah dengan mendapatkan IMSI baru saat perangkat memasang kartu SIM baru.
Kami memiliki banyak data dalam catatan kunjungan seluler kami
Biarkan peralatan kami berbicara dengan sendirinya
Tim teknis Alibaba mengamati bahwa konversi ID dari satu atau dua ID dalam catatan akses dapat terjadi dari waktu ke waktu, tetapi jarang terjadi di ketiga ID tersebut. Terinspirasi oleh pengamatan ini, mereka menggunakan kombinasi tiga ID (IMEI, IMSI, UTDID) (mereka menyebutnya "IDSET") untuk mengidentifikasi catatan akses dari perangkat seluler tertentu secara andal. Contoh record IDSET yang diberikan di atas diidentifikasi oleh IDSET, yang merupakan kombinasi dari IMEI, IMSI dan UTDID. Berdasarkan konsep IDSET, mereka memperkenalkan masalah mobile access record resolution (MARR). Tujuan dari masalah MARR adalah untuk mengidentifikasi perangkat fisik dari setiap catatan akses, karena setiap catatan akses dibuat oleh perangkat seluler tertentu. Tujuan tim adalah mengelompokkan catatan akses berdasarkan perangkat, yang dapat digunakan untuk menghasilkan file konfigurasi bagi pengguna perangkat. Mempertimbangkan bahwa skala besar kumpulan data dan kualitas data yang buruk terutama disebabkan oleh masalah transfer ID, MARR merupakan masalah yang sangat menantang. Oleh karena itu, tim juga mengusulkan grafik tautan pengenal renggang (SPI-Graph) dengan banyak data analisis perangkat seluler untuk secara akurat mencocokkan catatan akses seluler dengan perangkat (ketika beberapa nilai yang diharapkan dalam kumpulan data hilang , Data dianggap "jarang", yang merupakan fenomena umum dalam analisis data skala besar umum). Sejauh ini, hasil eksperimen ekstensif pada kumpulan data aktual skala besar telah memverifikasi keefektifan dan efisiensi algoritme tim. Hasil ini juga berarti bahwa tim sekarang ingin menyelidiki bagaimana mereka dapat mengelompokkan lebih lanjut catatan akses seluler dari perangkat tertentu ke dalam sesi akses untuk mengkarakterisasi profil pengguna dengan lebih baik.
Alamat teks lengkap:
4. Kenali lawan Anda: Bagaimana Alibaba dapat mengembangkan pendeteksi penipuan online yang lebih cerdas
Dengan semakin banyaknya aplikasi praktis, sistem pembelajaran mesin (ML) baru-baru ini menjadi alat deteksi penipuan online yang menjanjikan. Namun, dalam kasus sebagian besar tugas ML yang menangani kumpulan data tetap, deteksi penipuan berfungsi pada aktor manusia cerdas yang dapat beradaptasi saat terpapar, yang berarti bahwa model ML cenderung menjadi statis dalam kumpulan data yang bergeser. Upaya sebelumnya untuk membangun detektor yang lebih tahan terhadap lawan yang berubah mengandalkan metode seperti klasifikasi dan peningkatan pengenalan fitur, pelatihan konfrontasi hafalan, dan aplikasi jaringan saraf dalam. Masing-masing memiliki keterbatasannya sendiri, tetapi masalah utama yang berulang adalah masalah "kotak hitam". Para peneliti sering kali tidak dapat memperoleh informasi rinci tentang cara kerja metode ini, menyangkal wawasan penting yang dapat membantu mereka mengembangkan metode ini lebih lanjut. Sekarang, peneliti Alibaba telah mengembangkan metode pelatihan permusuhan berdasarkan studi tentang pengoperasian model ML, menggunakan pengetahuan tentang mekanismenya untuk menghasilkan lawan yang lebih kuat untuk mereka latih. Selain meningkatkan ketahanan grosir detektor, upaya untuk menghasilkan musuh baru yang menantang dari sumber daya komputasi minimal dapat membantu mengungkap cara pelaku penipuan nyata dapat beradaptasi dari lokasi tertentu setelah ditemukan. Berdasarkan premis bahwa spammer pada dasarnya adalah agen manusia dan mereka menghabiskan sumber daya yang terbatas saat beradaptasi, metode ini menunjukkan cara memprediksi "arah" serangan di masa mendatang berdasarkan lokasi serangan sebelumnya.
Centang kotak hitam
Sistem deteksi penipuan ML bergantung pada pengklasifikasi untuk memfilter konten, memperlakukan beberapa contoh pengirim spam sebagai contoh berkeyakinan tinggi dan contoh lainnya sebagai contoh berkeyakinan rendah, tergantung pada kemungkinan mereka diberi label dengan benar. Saat sejumlah besar entitas spammer masuk ke zona kepercayaan rendah, pengklasifikasi menjadi rentan, karena bahkan perubahan kecil pada sampel pengirim spam yang mudah dihindari (EP) dapat menyebabkannya salah diklasifikasikan sebagai konten yang sah . Untuk tujuan penelitian, tim Alibaba memperlakukan sampel EP ini sebagai "benih" untuk menghasilkan sampel penanggulangan yang kuat untuk pelatihan detektor. Kemudian, mereka mencoba menentukan arah benih yang paling rentan untuk menghindari mekanisme klasifikasi, sehingga dapat melewati deteksi dengan sedikit usaha. Dengan menggunakan temuan ini, mereka menghasilkan musuh yang meniru perilaku jahat yang sebenarnya, mengurangi jumlah total penyerang yang diperlukan untuk melatih mekanisme deteksi yang lebih kuat secara efektif. Dengan menggunakan pengetahuan tentang mekanisme ML untuk menganalisis tanggapannya terhadap setiap musuh yang diperkenalkan di sepanjang batasnya, tim mendapatkan fungsi penerjemah lokal khusus untuk setiap instance. Dengan informasi ini, mereka memperbarui keseluruhan mekanisme untuk lebih mempertimbangkan evolusi ancaman spam individu yang diperkenalkan selama uji coba.
Sistem baru mengidentifikasi sampel yang mudah dihindari, menganalisis strategi penghindaran potensial, dan memperbarui model deteksi yang sesuai
Berdasarkan eksperimen dengan Yelp Review dan data posting Twitter, pemilihan musuh yang cermat terbukti efektif dalam menghasilkan simulasi serangan yang lebih menantang, memberikan banyak informasi tentang kelemahan pengklasifikasi selama eksperimen. Hasil penelitian ini kemudian digunakan untuk mengembangkan strategi pertahanan yang efektif untuk berbagai serangan, yang dapat digunakan untuk memperkuat efektivitas kerangka kerja deteksi di masa mendatang. Melihat ke masa depan, Alibaba berusaha untuk memperluas upaya deteksi spamnya untuk menangani data mentah berdimensi tinggi dan kumpulan data tautan relasional antar instance.
Alamat teks lengkap:
Klik tautan ini untuk pindah ke komunitas AI Research Society untuk mengemas dan mengunduh empat makalah.
- Memecahkan miliaran film tergantung pada mulut, pahlawan Marvel "Deep Well Ice" yang paling populer, Deadpool dibuat kagum oleh penggemar
- Kecerdasan buatan memberi tahu Anda cara bekerja sama untuk memposting artikel? Makalah KDD 2018 mengusulkan metode pembelajaran representasi untuk beberapa dan beberapa jenis set
- Lembaga pelatihan di luar sekolah dari Universitas South Bank ke-11 mengatur promosi kelompok, sekolah "daftar hitam" masih mendaftarkan siswa
- Rumah Pintar Hisense berpartisipasi dalam pertemuan persiapan dari Komite Profesional Industri Kunci Asosiasi Inspeksi Kualitas China