The "mengumpulkan pasir menjadi menara" data kecil di bawah perlindungan privasi.
Penulis | Kaka
Sunting | Akhir Cong
Baru-baru ini, Qiang Yang, Chief Artificial Intelligence Officer dari WeBank dan Ketua Profesor Universitas Sains dan Teknologi Hong Kong, menjadi tamu dari "Federal Learning Series of Public Course" yang diselenggarakan bersama oleh Leifeng.com AI Financial Review dan AI Technology Review, dengan fokus pada "Frontier Research and Application of Federal Learning" Untuk topiknya, dijelaskan secara komprehensif dan mendetail bagaimana federated learning menghadapi tantangan ganda yaitu silo data dan perlindungan privasi. Artikel ini mengatur isi pidato ini, artikelnya sedikit lebih panjang, dan isinya sebagai berikut:
1. Dilema pengembangan AI: data kecil dan perlindungan privasi
2. Pembelajaran federasi menerobos pulau dan menyelesaikan "teka-teki" data
2.1 Pembelajaran federasi horizontal: karakteristik sampel yang berbeda adalah sama
2.2 Pembelajaran federasi longitudinal: karakteristik berbeda dari sampel yang tumpang tindih
2.3 Transfer Federated Learning: Tidak ada sampel dan fitur yang tumpang tindih
2.4 Sistem Rekomendasi Federal
3. Contoh aplikasi multi-scene dari federated learning
Keempat, pembangunan ekologi pembelajaran federal sedang berlangsung
Berikut ini adalah teks lengkap pidato Yang Qiang dan pertanyaan serta jawaban pilihan:
Yang Qiang:
Topik hari ini terkait dengan keuangan. Izinkan saya memberi tahu Anda mengapa ada kebutuhan khusus untuk melindungi privasi pengguna di industri keuangan. Saya harap semua orang ingat satu kalimat: data tidak bergerak, model bergerak.
1. Dilema pengembangan AI: data kecil dan perlindungan privasi
Dalam industri keuangan, sebagian besar aplikasi sekarang digerakkan oleh data, tetapi menghadapi tantangan yang sangat berat.
Pertama-tama, kekuatan kecerdasan buatan berasal dari data besar, tetapi dalam proses aplikasi sebenarnya, ini adalah data yang lebih kecil. Ambil contoh kasus hukum, seseorang telah melakukan statistik, dan paling banyak terkumpul puluhan ribu kasus. Contoh lainnya adalah anti pencucian uang, karena kasus anti pencucian uang merupakan fenomena yang jarang terjadi, maka setiap kasus menjadi sangat penting. Untuk gambar medis, hanya ada sedikit gambar medis yang dianotasi dengan baik. Jadi kami dapat menemukan: Ada lebih banyak data kecil, tetapi AI hanya perlu menggunakan data besar.
Beberapa contoh: Pertama, di bidang keuangan, seperti pengendalian risiko kredit dan pemasaran, diperlukan banyak pelatihan data. Ada sangat sedikit kasus pengendalian risiko dari pinjaman besar. Jika digunakan sebagai model deep learning, maka tidak cukup hanya menggunakan beberapa contoh pinjaman sebesar itu.
Contoh lainnya adalah kota pintar. Ada banyak kamera di kota pintar, dan data yang dapat diperoleh setiap kamera sebenarnya terbatas. Saya berharap dapat mengumpulkan beberapa data dari kamera yang berbeda. Tetapi jika mereka berasal dari perusahaan yang berbeda atau melibatkan privasi pengguna, mereka tidak dapat digabungkan secara sederhana dan kasar.
Semua orang tahu bahwa salah satu masa depan (arah penerapan) kecerdasan buatan adalah kendaraan tak berawak, tetapi data baru yang dihadapi oleh setiap kendaraan tak berawak terbatas. Jika kita ingin memperbarui model kita, kita membutuhkan banyak data baru yang berasal dari kendaraan tak berawak yang berbeda, harus ada privasi dalam data setiap kendaraan, dan juga data kecil.
Contoh lainnya adalah belanja online, seperti sistem logistik dan sistem supply chain. Ada banyak pergudangan. Jika akan diotomatiskan, akan banyak persyaratan pemantauan. Jenis data ini seringkali berupa data kecil, tetapi juga data terdistribusi. Tidak mudah untuk menggabungkannya. mudah.
Misalnya menggunakan handphone untuk menonton berita, sistem rekomendasi banyak, Informasi preferensi pengguna yang didapat pada masing-masing handphone juga data yang kecil, jika digabungkan juga menghadapi masalah privasi pengguna.
Masalahnya adalah: Area sekitarnya adalah data kecil, dapatkah digabungkan, dan semakin sedikit dapat menjadi lebih banyak? Tentu saja ini adalah ide kami yang paling langsung.Pengembangan kecerdasan buatan dilakukan dengan cara yang sama pada awalnya, tetapi sekarang menghadapi tantangan berat.
Di tingkat sosial, kesadaran akan privasi dan keamanan semakin kuat, dan pengawasan pemerintah serta peraturan perundang-undangan terkait semakin ketat.
Peraturan pertama yang diperkenalkan di Eropa disebut GDPR. Ini memiliki berbagai klausul, yang paling penting adalah melindungi privasi data, untuk memastikan bahwa privasi ada di tangan pengguna. Sejak diluncurkan pada 2018, banyak perusahaan besar, seperti Facebook dan Google, telah didenda.
Kemajuan di Amerika Serikat sedikit lebih lambat, tetapi sekarang hukum California juga mengikuti, yang disebut CCPA. Hukum domestik juga ketat dan komprehensif, dan hukum serta peraturan di semua lapisan masyarakat tersedia.
2. Pembelajaran federasi menerobos pulau dan menyelesaikan "teka-teki" data
Kami berharap memiliki data besar dalam jumlah besar dalam proses model pelatihan, tetapi kenyataannya adalah pulau data. Saya ingin menghubungkan pulau data untuk membentuk data besar, tetapi menghadapi batasan ketat hukum dan peraturan.
Dua masalah teknis yang kami hadapi juga merupakan masalah yang saya minati dalam penelitian pribadi: yang pertama adalah bagaimana menggunakan pembelajaran transfer untuk memecahkan data kecil, ini tidak ada dalam kuliah hari ini. Hari ini saya akan fokus pada gambar di sebelah kanan: Semua datanya rusak.Jika Anda ingin menggabungkan data yang rusak, apa yang bisa dilakukan? Mari bicarakan tentang solusi kami, Federated Learning.
Federated Learning, terus terang, ingin mencapai keadaan seperti itu: ada beberapa sumber data, ada beberapa pulau data, data dari setiap sumber data tidak dipindahkan, semuanya bersifat lokal. Namun biarkan pemilik (Pemilik) dengan sumber data ini mencapai kesepakatan sehingga setiap orang dapat bergabung bersama untuk membangun model, model federasi. Ada berbagai cara dan algoritme untuk membangun model kooperatif, tetapi tujuan umumnya sama: untuk mengubah praktik masa lalu, untuk menjaga data tetap lokal, dan untuk bertukar beberapa informasi model untuk memungkinkan model tumbuh.
Untuk melakukannya, diperlukan beberapa alat matematika dan alat komputasi. Yang paling menonjol dari yang pertama adalah alat yang terkait dengan perlindungan privasi dan pemodelan enkripsi; yang paling menonjol dari yang terakhir adalah pembelajaran mesin terdistribusi.
Mungkin ini pertama kalinya bagi sebagian siswa mendengar istilah pembelajaran federasi, saya akan menggunakan contoh sederhana untuk menjelaskannya kepada semua orang.
Misalkan seekor domba digunakan sebagai analogi model pembelajaran mesin, kita berharap domba tersebut dapat tumbuh dewasa setelah makan rumput.
Praktik sebelumnya adalah membeli rumput bersama untuk membuat model. Misalnya, pada model di sebelah kiri, panah di sebelah kiri mengarah ke domba. Domba tidak bergerak, tetapi rumput dibeli ke tengah. Ini setara dengan menggunakan metode sederhana dan kasar untuk mendapatkan data, membentuk data besar, dan membangun model.
Tapi kami ingin melindungi privasi satu sama lain, jadi jangan biarkan rumput bergerak dan domba-domba bergerak. Dengan kata lain, kami mengambil model untuk mengunjungi padang rumput yang berbeda, dan seiring waktu domba itu tumbuh - ini adalah ide baru dari pembelajaran federal, yang mencegah rumput keluar dari padang rumput, dan pemilik lokal tidak dapat mengetahui rumput mana yang dimakan domba. Tapi domba itu tetap tumbuh dewasa.
2.1 Pembelajaran federasi horizontal: karakteristik sampel yang berbeda adalah sama
Bagaimana cara mendarat? Pendekatan pertama mengasumsikan bahwa setiap pemilik data memiliki sampel yang berbeda, namun karakteristik longitudinal pada dasarnya sama. Ini setara dengan kita memiliki kumpulan data besar yang begitu besar, memotongnya dari arah horizontal untuk membentuk tumpukan sampel, tetapi karakteristiknya serupa.
Misalnya, setiap ponsel digunakan secara pribadi oleh kami, membentuk sekumpulan sampel. Ada ponsel yang berbeda, dan setiap ponsel pada dasarnya mengambil karakteristik ini, tetapi sampelnya berbeda. Kami berharap dapat menggabungkan kemampuan data ini di ponsel ini dan membuat model data besar tanpa mengubah datanya.
Sama seperti kumpulan data yang ditunjukkan di sebelah kiri gambar ini, mereka sesuai dengan data di terminal di sebelah kanan secara bergantian. Karakteristiknya longitudinal, X1, X2, dan X3 serupa, tetapi sampel U1, U2 ... U10 berbeda. Jadi ini disebut pemotongan horizontal, pemotongan dengan sampel, atau singkatnya pembelajaran federasi horizontal.
Pembelajaran federasi horizontal, dalam bentuk matematika, adalah matriks. Kumpulan data ada di pojok kiri atas, dan kumpulan data di pojok kanan bawah. Mereka memiliki banyak fitur yang tumpang tindih, tetapi contoh penggunanya tidak tumpang tindih. Mereka mungkin memiliki label sendiri.
Ada label terpisah di kiri dan kanan, tetapi kami ingin menggunakan semua data untuk membuat model, daripada hanya mengandalkan data pada terminal untuk membangun model kecil, kami berharap dapat mengumpulkannya untuk membangun model besar, tetapi datanya tidak dapat dipindahkan .
Saat ini, model pembelajaran aliansi horizontal sangat dibutuhkan. Sederhananya, setiap terminal memiliki koneksi dengan server, kita harus memastikan bahwa komunikasi kita dengan server bukanlah komunikasi data, tetapi hanya komunikasi parameter model. Parameter di sini adalah w1, w2 hingga wk. Parameter ini memiliki dua tanda kurung siku () di sampingnya, yang mewakili enkripsi secara matematis, jadi berikut adalah model matematika enkripsi.
Setelah parameter ini dienkripsi, paket yang dienkripsi dikirim ke server. Server tidak tahu apa yang ada di dalam paket yang dienkripsi, tetapi hanya mengetahui bahwa ini adalah paket terenkripsi dari parameter yang relevan. Sekarang sudah ada teknologi untuk menggabungkan paket enkripsi ini di sisi server, dan hasil gabungannya akan membentuk model baru, yaitu model jaringan saraf tiruan di atas. Ini adalah proses dari langkah pertama hingga langkah keenam.
Secara matematis, kombinasi seperti itu sebenarnya adalah superposisi model. Dua kumpulan data yang berbeda membuat dua model klasifikasi yang berbeda, satu adalah model linier, dan yang lainnya mungkin model KNN. Kedua model ini digabungkan Ini akan membentuk model ruang dimensi tinggi.
Kami berharap dalam proses pemodelan ini, setiap kumpulan data tidak akan membocorkan datanya sendiri ke server, tetapi parameternya berkomunikasi. Dan komunikasi parameter juga dienkripsi, yang menjamin privasi.
- Enkripsi homomorfik
Secara rinci, ada metode enkripsi yang sangat baik. Ketika dua paket terenkripsi digabungkan, Anda dapat mengabaikan data di setiap paket terenkripsi, tetapi kami akan menukar paketnya dengan kernelnya, jadi a Enkripsi plus b sama dengan enkripsi a plus b.
Misalnya, ketika dua paket disatukan, paket keluar, dan bagian dalamnya adalah jumlah dari dua hal tersebut. Teknologi ini disebut enkripsi homomorfik. Jika Anda tertarik, ada banyak sumber daya online. Ada juga banyak pakar domestik yang sangat berhasil dalam enkripsi homomorfik. Salah satu alasan mengapa enkripsi homomorfik tidak bekerja dengan baik di masa lalu adalah karena jumlah penghitungan yang terlalu besar. Sekarang telah ditemukan adanya algoritma penyelesaian yang baik, ditambah dengan kemajuan di semua aspek perangkat keras, sehingga enkripsi homomorfik tidak lagi menjadi masalah.
Efek enkripsi homomorfik telah merangsang imajinasi banyak orang yang mempelajari mesin. Misalnya, kurva Sigmod adalah non-linier dan dapat didekati dengan linier, setelah aproksimasi, fungsi kerugian dan hasil enkripsi dapat dihitung. Hukum distribusi enkripsi homomorfik (hukum distribusi) menjadikan enkripsi totalnya menjadi penjumlahan dari enkripsi setiap item.
Google pertama kali melihat keuntungannya dan mengusulkan Federated Averaging, yang merupakan pendekatan pembelajaran federasi horizontal.
Kita dapat membayangkannya sebagai rata-rata federasi, yaitu, ada n model, dan sekarang kita memerlukan nilai rata-ratanya, tetapi ketika hal ini dilakukan di sisi server, kita tidak ingin server dapat melihat setiap item yang ada di dalamnya, jadi misalkan Setelah ponsel memperoleh data baru setiap hari, kami perlu memperbarui beberapa model pembelajaran mesin di ponsel. Misalnya, prediksi kata berikutnya dan pengenalan wajah. Kami dapat memilih beberapa ponsel dan menggunakan metode ini untuk melakukan penjumlahan federal pada data barunya Akhirnya, dengan alasan untuk melindungi privasi pengguna, kami dapat terus memperbarui data pada ponsel tersebut.
Ini sudah diterapkan di Google dan Android, dan sekarang banyak vendor ponsel, termasuk vendor ponsel dalam negeri kita, yang sangat tertarik. Produsen lain seperti Internet of Things dan perusahaan rumah pintar, jika mereka belum pernah mendengar tentang Federal Learning, mereka akan tertinggal.
2.2 Pembelajaran federasi longitudinal: karakteristik berbeda dari sampel yang tumpang tindih
Yang baru saja saya bicarakan adalah federasi horizontal, yang dibagi oleh pengguna dan dibagi dengan sampel. Apakah ada situasi seperti itu? Sampelnya hampir sama, di pemilik data yang berbeda, tetapi karakteristiknya berbeda. Misalnya, pengguna yang dihadapi oleh organisasi dan perusahaan yang berbeda hampir sama, tetapi karakteristiknya berbeda.
Misalnya, situs web video memiliki banyak preferensi video pengguna, dan toko daring yang menjual buku memiliki kumpulan pengguna yang hampir sama, tetapi fiturnya berbeda, yang satu tentang buku, dan yang lainnya tentang video. Contoh lainnya adalah dua bank. Satu bank mungkin memiliki banyak pinjaman, bank lain mungkin memiliki banyak manajemen keuangan, dan kelompok penggunanya mungkin juga memiliki banyak tumpang tindih.
Di masa lalu, metodenya adalah membeli data dan menggabungkannya di server, tetapi sekarang tidak berhasil. Kami hanya memikirkan apakah pembelajaran federasi dapat melakukan ini.
Jenis federasi ini memiliki karakteristik yang berbeda, tetapi sampelnya tumpang tindih dan dipotong secara vertikal sesuai dengan karakteristiknya, sehingga dinamakan federasi vertikal. Seperti yang ditunjukkan pada gambar, komunikasi antara kedua institusi juga merupakan parameter model terenkripsi, bukan datanya sendiri. Mengingat dua data A dan B, tidak semua sampel tumpang tindih. Tetapi jika kita memiliki cara untuk menemukan bagian yang cukup tumpang tindih, kita dapat membuat model pada bagian ini dan menggunakan pembelajaran federasi untuk membuat model.
Pertanyaan berikut ini dibagi menjadi dua pertanyaan:
Bagaimana membuat model:
Ide umum dari federasi vertikal adalah bahwa model ini merupakan bagian dari model Partai A dan bagian dari model Partai B. Seperti lambang harimau di Zaman Negara-negara Berperang, segel dipotong menjadi dua bagian. Hanya jika segel benar-benar bisa tumpang tindih, dapatkah itu membuktikan bahwa sang jenderal telah menerima perintah raja yang sebenarnya - model A di kiri dan model B di kanan , Keduanya bersama-sama dapat membentuk aliansi untuk alasan yang sama.
Mari kita lihat detailnya: Pertama, ada tembok, artinya data tidak bisa dipertukarkan melalui tembok. Ada organisasi A di kiri dan organisasi B di kanan Kedua organisasi ini harus sangat berhati-hati saat berkomunikasi, dan hanya dapat mengkomunikasikan beberapa parameter model terenkripsi.
Algoritme ini menggunakan 4 langkah untuk dikembangkan di sini di sebelah kanan, dan saya akan menjelaskannya selangkah demi selangkah kepada Anda.
Langkah 1: Seperti yang ditunjukkan pada gambar, misalkan organisasi di sebelah kiri memiliki pengguna atau sekumpulan sampel X, dan ada juga sekumpulan sampel Y di sebelah kanan. Perpotongannya dapat ditemukan tanpa mengekspos X dan Y.
Langkah 2: Hitung model masing-masing, ingat bahwa organisasi A akan menjadi bagian dari model, dan organisasi B akan menjadi bagian lain dari model. Pertama, lakukan langkah pertama di institusi A, lakukan perkalian titik dari parameter awal dan setiap sampel, enkripsi hasil perkalian titik ini, lalu kirim ke B melalui algoritma enkripsi.
Langkah ketiga: B dapat paket ini, saya tidak tahu apa isinya, tetapi dapat memperbarui hasil penghitungan sampel melalui enkripsi homomorfik. Setelah diperoleh hasilnya akan dibandingkan dengan nilai sebenarnya dan akan diperoleh nilai kerugian. Enkripsi kerugian dan kirimkan kembali ke A.
Seringkali dalam hal ini jika ada penyelenggara (Koordinator) maka akan mempermudah prosedur, sehingga B juga bisa mengirimkan hasilnya langsung ke Koordinator.
Langkah 4: Setelah Koordinator mendapatkan hasil, ia mengenkripsi hasil, menambahkan beberapa gangguan, dan mendistribusikannya ke A dan B sehingga mereka dapat memperbarui parameter model mereka sendiri. Hal ini membuat setiap peserta tidak menyadari pihak lain Data dan karakteristik, serta dapat memperbarui parameternya sendiri. Setelah proses ini berkali-kali, model A dan B secara bertahap terbentuk.
Jika ada pengguna baru yang datang, hal itu dapat diselesaikan melalui proses serupa melalui partisipasi Partai A dan Partai B. Ini berada di bawah premis federasi vertikal, di mana fitur tidak tumpang tindih, sampel tumpang tindih, dan mereka tidak saling mengenal sampel. Di bawah premis, bisa juga model.
Ringkasan: Yang disebut pembelajaran federasi horizontal adalah memotong data secara horizontal. Lebih banyak skenario penggunaan adalah pembelajaran federasi dengan banyak terminal dan satu server. Pembelajaran federasi longitudinal, memotong data sesuai dengan karakteristik. Saat menggunakan, semua orang pada dasarnya berada di lokasi atau level yang sama, di antara dua perusahaan.
Jadi federasi horizontal kiri lebih cocok untuk toC, dan federasi vertikal kanan lebih cocok untuk toB.
Secara khusus, di awal tanggal 18, kami menemukan di WeBank bahwa perlindungan privasi pengguna merupakan tantangan bagi banyak pemilik data untuk bekerja sama. Cara membuat model bersama antara bank dan institusi yang berbeda sambil melindungi Privasi data? Kami telah mengembangkan pembelajaran federasi dari toB.
Tim peneliti terkait Google selalu berada di bawah tim Android, jadi mereka lebih memperhatikan pembelajaran federasi horizontal. Sekarang Amerika Serikat dan Eropa lebih horizontal, tetapi di negara kita lebih vertikal. Pembelajaran federal sekarang merupakan perkembangan berkepala dua.
- Bisakah pihak ketiga dihapus?
Karena ada kemungkinan pihak ketiga membocorkan privasi pengguna, hal itu dapat (dihapus), tetapi perlu beberapa langkah lagi. Keseluruhan langkah menjadi lebih panjang, tetapi dapat dilakukan, jadi saya tidak akan memperluasnya di sini.
- Apakah pembelajaran federasi seperti blockchain?
Pembelajaran federasi sebenarnya berbeda dengan blockchain. Perbedaan terpentingnya adalah: Pembelajaran federasi menggunakan nilai data. Salah satu ciri khasnya adalah data tidak dapat disalin dan ditempatkan di node lain. Blockchain adalah untuk memastikan transparansi informasi dan tidak dapat dirusak, sehingga data harus disalin ke node yang berbeda. Meski tujuan akhirnya adalah membentuk konsensus dan kebersamaan di antara banyak pihak, mereka memang berbeda.
Dari sudut pandang matematika, dari sudut pandang komputer, saat memperkenalkan mekanisme multi-partai, tiga pertanyaan berikut harus ditanyakan:
Pertanyaan pertama adalah konsistensi. Sekarang ada banyak pihak, jadi jika saya melakukan sesuatu dengan urutan berbeda, apakah saya mendapat hasil yang sama? Kami berharap itu sama. Untuk database, hasil query harus sama. Hal yang sama berlaku untuk pembelajaran federasi.
Pertanyaan kedua adalah atomicity. Ketika salah satu pihak menutup telepon, dapatkah semua orang kembali ke keadaan semula?
Pertanyaan ketiga adalah keamanan. Ini adalah fitur yang sangat penting untuk pembelajaran federasi. Tetapi blockchain tidak ada hubungannya dengan jenis komputasi multi-pihak, komputasi aman, dan apa yang kami sebut komputasi model dan kerja sama data.
2.3 Pembelajaran transfer: sampel dan fitur tidak tumpang tindih
Saya baru saja menyebutkan bahwa sampelnya tumpang tindih atau fiturnya tumpang tindih, tetapi jika keduanya tidak tumpang tindih, maka diperlukan pembelajaran transfer.
Ide pembelajaran transfer adalah mengasumsikan bahwa sampel dan fitur dari dua kumpulan data hampir tidak memiliki persimpangan, dan saya dapat menemukan tumpang tindih di subruang mereka. Bagaimana cara menemukannya? Ini melalui enkripsi homomorfik dan mekanisme interaksi terdistribusi baru saja disebutkan. Setelah ditemukan, Anda dapat melakukan federasi horizontal atau vertikal di subruang.
- Cara mengidentifikasi pusat dan node berbahaya dengan partisipasi banyak pihak
Bagaimana orang jahat masuk? Misalnya, di OCR (Handwriting Recognition), kita biarkan komputer mengenali 0. Jika enkripsi tidak dilakukan, kami tidak memiliki mekanisme. Yang disebut konfrontasi ini dapat dilakukan. Orang jahat dapat menebak data asli melalui kebocoran parameter atau serangkaian gradien.
Oleh karena itu, para ahli matematika memikirkan berbagai metode untuk mengklasifikasikan orang jahat.
Jujur adalah orang yang baik; Jujur-tapi-penasaran itu ingin tahu, tapi tidak buruk. Ada orang lain yang jahat dan ingin merusak, ingin mendapatkan privasi pengguna, dan kemudian untung.
Untuk hipotesis yang berbeda, algoritma pembelajaran federasi dan algoritma kalkulasi multi-pihak yang berbeda dapat dirancang, dan pengetahuan nol serta beberapa klasifikasi pengetahuan juga dapat dilakukan. Server juga dapat membedakan apakah itu malicious center, malicious data node, dan non-malicious data node.
Misalnya, ada ponsel yang secara khusus ingin merancang beberapa data palsu untuk mengontrol model rata-rata seluruh server. Bagaimana cara mencegah fenomena ini terjadi? Masalah ini akan ditangani dalam serangkaian kelas terbuka di masa mendatang. Tugas-tugas ini sedang dalam proses. Anda dapat mencari secara online.
Dalam hal kebijakan keamanan, ada dua contoh khusus yang dapat Anda temukan secara online. Salah satunya disebut serangan model, yang mengontrol seluruh model federasi dengan memanipulasi parameter model. Ada juga serangan data, yang berpartisipasi dalam kalkulasi federasi, yang menjadikannya peran yang menentukan dalam kontrol model federasi. Ini memiliki artikel dan solusi.
Selain itu, bagaimana kami dapat terus mendorong pemilik data yang berbeda ini untuk terus berpartisipasi dalam pemodelan federasi, sehingga setiap orang dapat terus memperoleh manfaat, dan pada saat yang sama memaksimalkan manfaat kolektif? Inilah yang harus dilakukan teori permainan, ekonomi, dan model, dan ada banyak pekerjaan di bidang ini.
2.4 Sistem Rekomendasi Federal
Perpotongan antara sistem rekomendasi dan federated learning juga dapat dihasilkan.Misalnya, dua pihak data, merekomendasikan film dan merekomendasikan buku, mungkin tidak bersaing dalam bisnis, sehingga mereka memutuskan untuk bekerja sama, tetapi tidak ingin membocorkan privasi ke Untuk pihak lain, mereka dapat menggunakan metode berikut untuk melakukan pembelajaran federal:
Pemilik data ABC yang berbeda dapat menggunakan dekomposisi matriks untuk memperlakukan data pengguna yang dimiliki oleh masing-masing pihak sebagai produk dari beberapa sub-matriks. Aljabar linier digunakan untuk membentuk produk dari sub-matriks tersebut. Ketiga pengguna yang berbeda ini didekomposisi Vektor eigen dari tiga pengguna dikalikan dengan matriks vektor eigen dari sebuah buku. Perhitungan vektor-vektor ini adalah yang kami harapkan dapat dihitung melalui pembelajaran federasi. Khusus untuk cara menghitung, berikut adalah algoritme, yang terlihat relatif baru dan rumit, yang mungkin membingungkan semua orang.
Secara singkat berbicara tentang pendekatan umum:
Setiap pemilik data pertama-tama melakukan dekomposisi matriks datanya sendiri, dan kemudian mengenkripsi beberapa parameter di dalamnya, seperti vektor eigen dari buku yang baru saja disebutkan, dan memindahkannya ke server, dan kemudian vektor yang berbeda ini dapat dilewati Pembelajaran federasi horizontal melakukan rata-rata homomorfik, dan kemudian mendistribusikan nilai rata-rata yang diperbarui ke pengguna yang berbeda. Melalui pendekatan seperti itu, matriks dapat diperbarui di bawah kerangka Federated Averageing.
Sekarang kami juga dapat memperluasnya ke sistem rekomendasi vertikal, yaitu, penggunanya memiliki banyak tumpang tindih, tetapi fiturnya tidak. WeBank kini telah meluncurkan sistem periklanan pertama yang menggunakan Pembelajaran Federal dan Rekomendasi Federal, sehingga disebut Periklanan Federal. Sistem periklanan mungkin tidak mengetahui privasi pengguna atau privasi media.
3. Contoh aplikasi multi-scene dari federated learning
- Pengendalian risiko bank
Karena yang ingin kita dapatkan adalah big data, artinya datanya berasal dari perspektif yang berbeda.Misalnya manajemen risiko pinjaman pengguna membutuhkan data keuangan, opini publik, yudisial, perpajakan, administrasi dan banyak data lainnya, semuanya berbeda-beda. Di pemilik data, kami berharap dapat membentuk aliansi federasi untuk membuat model bersama. Misalnya, perusahaan koperasi dan bank. Ini adalah federasi vertikal, karena pengguna memiliki cukup banyak tumpang tindih, tetapi karakteristik mereka berbeda. Efek penggunaan algoritme yang baru saja disebutkan meningkat pesat, berikut ini korespondensinya Hasilnya adalah penurunan tajam rasio NPL.
- Kerjasama Industri Asuransi
Saat ini kami telah menjalin kerjasama yang mendalam dengan perusahaan reasuransi Swiss. Yang disebut reasuransi adalah asuransi bagi perusahaan asuransi. Bisa dibayangkan banyak sekali perusahaan asuransi yang berada di bawah perusahaan reasuransi. Perusahaan asuransi ini sama-sama kompetitif dan kooperatif. Kerja sama tersebut membutuhkan penggunaan pembelajaran federal.
Bisa melalui federasi vertikal, federasi horizontal, atau kombinasi dari federasi vertikal dan horizontal menjadi federasi horizontal skala kecil dan federasi vertikal skala besar. Ada berbagai struktur yang sangat menarik, dan mereka telah mencapai hasil yang sangat bagus.
- Visi komputer
Dengan asumsi bahwa gambar komputer yang berbeda berasal dari perusahaan yang berbeda, mereka memiliki keinginan untuk bekerja sama. Bayangkan sistem pembelajaran federasi horizontal. Karena sampel gambarnya berbeda, tetapi fiturnya hampir semua sama, semuanya piksel, sehingga dapat digunakan di bidang manufaktur cerdas, keamanan, dan kota, dan sekarang diterapkan.
Ambil contoh kerja sama kita dengan Extreme Vision. Salah satu bisnisnya adalah membantu perusahaan konstruksi memantau keamanan lokasi konstruksi. Ada banyak privasi perusahaan konstruksi itu sendiri, dan mereka tidak ingin mengungkapkannya kepada perusahaan konstruksi lain, tetapi masing-masing datanya adalah Ini terbatas. Melalui pembelajaran federal, model keseluruhan dapat dibuat dan didistribusikan kepada mereka, yang dapat memenuhi persyaratan mereka untuk konstruksi yang aman.
- Pengenalan suara
Sistem suara mungkin berasal dari rekaman yang berbeda, misalnya rekaman dari pusat layanan, beberapa rekaman di ponsel, dan beberapa rekaman dari perusahaan lain. Kemudian setiap rekaman mungkin memiliki sudut pandang yang berbeda untuk mengamati pengguna ini. Adakah cara untuk mengumpulkan rekaman ini, membangun model umum tanpa memindahkan data tersebut, dan melatih model federasi kami menggunakan rekaman rekaman, bahasa, dan kumpulan data yang berbeda?
- Kendaraan tak berawak
Kendaraan tak berawak di lingkungan laboratorium memiliki data yang terbatas, tetapi dengan asumsi bahwa ada kendaraan tak berawak di seluruh jalan, setiap kendaraan memperoleh data baru setiap saat. Adakah cara untuk tidak mengekspos data spesifik pada setiap kendaraan tak berawak, dan pada saat yang sama mengumpulkannya untuk membentuk model federal? Metode spesifiknya adalah federated learning plus reinforcement learning, yaitu pembelajaran federasi penguatan.
- keuangan rantai pasokan
Ada banyak manajemen dan pemantauan gudang, yang menggunakan komunikasi antara computer vision dan federated learning yang baru saja disebutkan. Hubungan antara hulu dan hilir serta perkiraan inventaris merupakan masalah sulit dalam rantai pasokan, yang juga dapat diselesaikan dengan lebih baik melalui pembelajaran federal semacam ini.
4. Ketika ekologi pembelajaran federal sedang dibangun
Bayangkan di masa depan, dengan teknologi seperti pembelajaran federal, dengan persyaratan peraturan seperti GDPR dan privasi pengguna, bentuk seperti apa yang akan berkembang masyarakat kita dalam lima tahun dan sepuluh tahun? Saya juga percaya bahwa kita akan mencapai simpul sosial seperti itu, dan banyak aliansi akan terbentuk, inilah ekologi.
Ada banyak perusahaan berbeda yang secara sukarela mengorganisir, melalui pembelajaran federasi, mereka dapat bekerja sama dengan bebas tanpa rasa khawatir Mekanisme insentif pembelajaran federasi dapat secara adil menjaga ekologi semacam ini tetap hidup, menjadi semakin besar, seperti bola salju. memperluas. Ini dapat mencegah monopoli data dan memungkinkan perusahaan dengan data kecil untuk bertahan hidup - apa yang kami sebut sifat sosial dari kecerdasan buatan, ini adalah teknologi yang benar-benar dapat mencapai AI Etis.
Setelah kata Federated Learning muncul, kami berpikir untuk menerjemahkan kata ini ke dalam bahasa Mandarin. Kami menganggap bahwa setiap pemilik data seperti "negara", dan hubungan di antara mereka seperti hubungan diplomatik negara. Mereka mungkin juga memiliki Koordinator, atau mereka mungkin memiliki model yang sama, dan semua orang menggunakannya bersama-sama, yang seperti pesta layanan yang dimiliki oleh semua orang, yang disebut "federasi".
Pada saat yang sama, kami juga telah memimpin dalam penetapan standar IEEE yang pertama, Perumusan standar ini belum selesai, dan sekarang sudah memasuki titik akhir. Banyak perusahaan terkenal telah berpartisipasi dalam standar ini. Ketika standar ini muncul, itu akan menjadi standar pembelajaran federal internasional pertama di dunia Ketika semua orang bekerja sama melalui pembelajaran federal di masa depan, mereka dapat melanjutkan sesuai dengan standar ini dan memiliki bahasa yang sama untuk berinteraksi. Pada saat yang sama, kami juga secara aktif mempromosikan berbagai standar domestik, termasuk standar grup dan standar nasional.
- Proyek Federal Learning Open Source FATE
Misalkan kita telah membangun platform pembelajaran federasi, pengguna akan meragukan keamanan platform dan khawatir tentang keberadaan pintu belakang. Cara terbaik adalah menjadikannya publik dan open source. Semua orang dapat melihat setiap baris kode dan menggunakannya dengan percaya diri. Sejak awal, kami percaya bahwa kemajuan teknologi pembelajaran federasi tidak dapat dipisahkan dari open source. Jadi kami membuka proyek open source pertama di dunia pada federated learning, yang terdaftar sebagai proyek emas oleh yayasan Linux, yaitu sistem FATE.
Ini adalah pembelajaran federasi tingkat industri yang telah mendukung federasi horizontal, federasi vertikal, pembelajaran migrasi federasi, pembelajaran penguatan federasi, dan rekomendasi aliansi yang baru saja saya sebutkan. Sekarang ada versi baru yang mendukung komputasi heterogen, mendukung berbagai pembelajaran federasi, dan kami memiliki kerja sama yang mendalam dengan VMWare, pengikatan mendalam, dan meluncurkan sistem yang disebut KubeFATE untuk membantu pengguna menerapkan dengan lebih baik di Cloud .
Apa lagi yang layak dipelajari dalam pembelajaran federal? Masih terlalu banyak hal yang bisa dilakukan di sini, seperti bagaimana mencapai kepatuhan keamanan, bertahan dari serangan, meningkatkan efisiensi algoritma, memperbaiki arsitektur sistem, bagaimana melakukan lebih banyak aplikasi teknis, dan melakukan mekanisme aliansi dan mekanisme insentif yang baik. Dorong semua orang. Jadi di semua aspek, kami baru mulai, dan masih banyak pekerjaan yang harus diselesaikan.
Unggulan Tanya Jawab Interaktif
T: Apa hal yang paling membedakan antara pembelajaran federasi dan pembelajaran mesin terdistribusi?
Yang Qiang: Pertama adalah karakteristik distribusi data. Dalam pembelajaran mesin terdistribusi, data umumnya didistribusikan secara merata (iid) ke node komputasi yang berpartisipasi, dan tujuannya adalah untuk meningkatkan efisiensi melalui komputasi paralel. Dalam pembelajaran federasi, data secara alami ada di pulau data dari berbagai bidang dan institusi, dan sebaran datanya sangat berbeda dan tidak merata (Non-iid). Selain itu, pembelajaran terdistribusi lebih memperhatikan efisiensi, sering dilakukan di pusat data, dan pemilik datanya adalah individu yang sama. Pembelajaran gabungan lebih memperhatikan keselamatan, dan pemilik data adalah banyak individu.
Pertanyaan: Ada perusahaan yang sedang melakukan kombinasi blockchain dan MPC (seperti federated learning, homomorphic encryption), bagaimana menurut anda?
Yang Qiang: Blockchain dan pembelajaran federasi dapat saling melengkapi dengan baik. Pembelajaran federasi dapat menggunakan akuntansi terdistribusi blockchain dan fungsi lainnya untuk mencapai pertukaran nilai dan insentif yang efektif untuk semua pihak yang terlibat. Ia juga dapat menggunakan properti desentralisasi dari blockchain untuk menggantikan node pusat yang berpartisipasi dalam penghitungan pembelajaran federasi. Blockchain berbeda dari pembelajaran federasi. Blockchain mereplikasi data berulang kali di setiap node untuk mencapai mekanisme konsensus. Semua data di rantai bersifat publik, sedangkan data semua pihak yang berpartisipasi dalam pembelajaran federasi berbeda dan pribadi.
Pertanyaan: Model setelah pelatihan pembelajaran federasi adalah model publik, dan data setiap klien seringkali non-iid. Saya ingin tahu apakah guru memiliki pendapat tentang ini?
Yang Qiang: Pengaruh pembelajaran federasi (horizontal) terutama berasal dari agregasi ukuran sampel dari semua pihak.Tujuan pelatihan adalah untuk mendapatkan model dengan kemampuan generalisasi yang dapat diterapkan pada data semua peserta. Distribusi data non-idd dari semua pihak dapat diselesaikan dengan pembelajaran federasi dolar Kanada dan pembelajaran multi-tugas.
Pertanyaan: Bagaimana cara memastikan kualitas setiap bagian data? Misalnya, kualitas anotasi data citra medis bervariasi.
Yang Qiang: Dalam produksi aktual, metode penerapan mekanisme inspeksi pada semua node dapat digunakan untuk menghilangkan ambang batas kualitas data sampel yang berpartisipasi dalam pelatihan, atau dapat dikombinasikan dengan beberapa teknik pembelajaran mesin, seperti GAN, untuk menyimulasikan pembuatan sampel pelatihan untuk pemeriksaan. Selain itu, penggunaan metode verifikasi data seperti validasi silang selama pelatihan juga dapat secara efektif mengontrol masalah kualitas data.
Pertanyaan: Dalam pembelajaran federasi, apakah pulau data yang berbeda memiliki bobot implisit dalam proses pembelajaran federasi (yaitu, tidak ada bobot desain dalam model algoritme, tetapi bobot yang berbeda terbentuk dalam pembelajaran yang sebenarnya). Bagaimana cara menyelesaikannya?
Yang Qiang: Algoritme pembelajaran federasi itu sendiri memberikan bobot sesuai dengan jumlah data, dengan asumsi bahwa data tersebut didistribusikan secara merata. Padahal, bobot juga bisa dirancang dengan menganalisis kesamaan antara sumber data dan sumber data target.
T: Apa kelebihan dan kekurangan framework FATE dan Framework Federasi Tensorflow?
Yang Qiang: Framework FATE adalah framework FL kelas industri pertama. Mulai dari aplikasi industri, framework ini mendukung framework pembelajaran seperti pembelajaran federasi horizontal, vertikal, dan migrasi serta berbagai komponen komputasi yang aman. TensorflowTF saat ini hanya mendukung federasi horizontal, yang sebagian besar cocok untuk penelitian akademis, relatif ringkas dan mudah digunakan.
Pertanyaan: Bagaimana pembelajaran federasi memengaruhi penerapan RPA dan penyebaran stasiun tengah data?
Yang Qiang: Pembelajaran federasi dapat digunakan sebagai komponen teknologi AI di RPA. RPA sering menghadapi tantangan seperti non-standar dan pemisahan data.Sistem penerapan RPA dapat meningkatkan efek produk melalui pembelajaran federasi.
Pertanyaan: Bagaimana pembelajaran federasi berlaku untuk bidang big data pendidikan?
Yang Qiang: Pembelajaran federal dapat membantu mencapai pendidikan yang disesuaikan. Institusi pendidikan dapat secara kolaboratif membangun model rencana pembelajaran umum berdasarkan data yang disimpan di perangkat seluler pribadi siswa (seperti smartphone dan laptop). Berdasarkan model ini, model panduan pembelajaran yang disesuaikan dan dipersonalisasi juga dapat dibangun sesuai dengan spesialisasi, kebutuhan, keterampilan, dan minat setiap siswa.