Konveksi Rayleigh-Bénard. Metode elemen hingga digunakan untuk mendiskritkan masalah kontinu spasial, dan deviasi induksi hubungan yang kompleks ditampilkan sebagai sekumpulan entitas. Sumber: penulis asli.
Sistem multi-agen banyak digunakan dalam berbagai bidang ilmiah yang berbeda: dari fisika hingga robotika, teori permainan, keuangan dan biologi molekuler, dll. Secara umum, tugas prediksi atau pengambilan keputusan bergantung pada observasi sampel yang berisik dan tidak teratur, sehingga rumus analisis bentuk tertutup tidak valid untuk ini.
Jenis sistem ini memberikan contoh nyata dari deviasi induksi relasional. Memperkenalkan kesalahan induksi dalam proses statistik sampel atau pembelajaran mesin adalah metode yang umum digunakan untuk meningkatkan keefektifan dan generalisasi sampel. Dari pemilihan fungsi obyektif hingga desain kerangka pembelajaran mendalam yang mengatur diri sendiri yang sesuai untuk masalah tertentu, penyimpangan pengaturan juga merupakan cara yang sangat umum dan efektif.
Deviasi induksi hubungan merupakan jenis deviasi khusus, yang melibatkan hubungan antar entitas. Baik itu model grafis, model probabilitas, atau model lain, semuanya adalah model tradisional yang secara khusus memaksakan bentuk struktural apriori dari deviasi relasional pada entitas. Struktur grafik ini dapat memainkan peran di berbagai bidang. Ini dapat mengurangi kompleksitas komputasi dengan memperkenalkan asumsi independensi bersyarat, dan juga dapat meningkatkan keefektifan sampel dengan menyandikan pengetahuan sebelumnya dalam bentuk grafik.
Graph Neural Network (GNN) adalah jaringan pembelajaran mendalam yang sesuai dengan model grafik. GNN biasanya digunakan dalam dua situasi ini: yang pertama adalah ketika struktur masalah target dapat dikodekan dalam bentuk grafik; yang lainnya adalah pengetahuan sebelumnya tentang hubungan antara entitas masukan itu sendiri dapat dijelaskan sebagai grafik.
GNN telah menunjukkan efek yang signifikan di banyak area aplikasi, seperti klasifikasi node, klasifikasi grafik, prediksi, dan tugas pembuatan.
1. Persamaan diferensial biasa dalam pembelajaran mendalam
Jenis bias induktif yang berbeda dengan kepentingan yang sama terkait dengan jenis sistem yang digunakan untuk mengumpulkan data. Meskipun secara tradisional, pembelajaran dalam didominasi oleh model diskrit, penelitian terbaru telah mengusulkan metode pemrosesan yang memperlakukan jaringan saraf sebagai model dengan lapisan kontinu.
Pandangan ini mendefinisikan ulang proses perambatan maju sebagai masalah penyelesaian nilai awal dalam persamaan diferensial biasa (ODE). Dengan asumsi ini, persamaan diferensial biasa dapat langsung dimodelkan, dan kinerja jaringan saraf pada tugas-tugas yang melibatkan deret waktu kontinu dapat ditingkatkan.
"Graph Neural Ordinary Differential Equations", pekerjaan ini bertujuan untuk menjembatani kesenjangan antara pembelajaran dalam geometris dan model kontinu. Graph Neural Ordinary Differential Equations (GDE) memetakan tugas-tugas umum pada data struktur grafik ke dalam kerangka teori sistem. Kami menempatkan data struktur grafik umum ke dalam kerangka teoritis sistem, seperti menyusun data ke dalam sistem:
Terlepas dari apakah struktur model GDE tetap atau berubah seiring waktu, model ini dapat memodelkan bidang vektor yang ditentukan pada grafik dengan melengkapi model dengan lapisan GNN berkelanjutan.
Karena struktur model GDE ditentukan oleh lapisan GNN kontinu, model ini memiliki fleksibilitas yang baik dan dapat beradaptasi dengan data sampel urutan tidak beraturan.
Tujuan utama dari model GDE adalah untuk menyediakan metode berbasis data untuk pemodelan sistem terstruktur, terutama ketika proses dinamis nonlinier, bahkan lebih sulit untuk membuat model dengan metode analisis klasik.
Berikut ini adalah pengantar GDE. Untuk lebih jelasnya dan turunannya, silahkan merujuk ke makalah aslinya.Link terkait dari makalah tersebut adalah sebagai berikut:
-
https://arxiv.org/abs/1911.07532
Kami sedang mengembangkan Repositori Github untuk memperkenalkan model GDE, yang berisi contoh beranotasi penggunaan notebook Jupyter. Alamat Github yang relevan adalah sebagai berikut:
-
https://github.com/Zymrael/gde
Dilaporkan bahwa kami berencana untuk akhirnya menerapkannya ke dalam pengaturan dengan fungsi yang berbeda (termasuk prediksi, kontrol ...), termasuk contoh yang berfungsi dari varian GDE yang berbeda di bawah semua arsitektur jaringan saraf tiruan utama (GNN).
2. Kata Pengantar dan Latar Belakang
Seperti GNN, GDE beroperasi pada grafik. Untuk pengenalan simbol dan definisi dasar yang lebih rinci, kami mengacu pada penelitian komprehensif terkait yang sangat baik tentang GNN (tautan penelitian terkait: https://arxiv.org/abs/1901.00596) dan bagian latar belakang dalam makalah asli.
Di bawah ini kami akan memberikan pengantar singkat tentang GDE. Sebenarnya tidak cukup. Hanya dua pengetahuan dasar tentang grafik berikut yang perlu kami ketahui:
-
1. Grafik adalah kumpulan node (entitas) yang saling berhubungan yang dihubungkan oleh tepi. Model pembelajaran mendalam biasanya berurusan dengan sekumpulan fitur (biasanya sekumpulan vektor atau tensor) untuk menggambarkan grafik atribut dari sebuah node. Untuk grafik dengan n node, setiap node dapat dijelaskan dengan fitur d, dan akhirnya kami menunjukkan matriks embedding node n x d sebagai H.
-
2. Struktur grafik ditangkap oleh matriks ketetanggaan A. Struktur yang terhubung antar node menunjukkan perbedaan utama antara model deep learning standar dan model GNN, karena GNN secara langsung menggunakannya untuk beroperasi pada node embedding dengan berbagai cara.
Tiga, persamaan diferensial biasa Tushen
Persamaan diferensial reguler (GDE) Tushen didefinisikan sebagai berikut:
Formula umum GDE
Diantaranya, H adalah matriks fitur node. Rumus di atas mendefinisikan bidang vektor H yang diparameterisasi oleh fungsi F, di mana fungsi F dapat berupa lapisan jaringan saraf tiruan grafik (GNN) yang dikenal.
Dengan kata lain, F menggunakan informasi koneksi dari node pada grafik G dan karakteristik node-nya untuk menggambarkan proses perubahan H di S. Diantaranya, S adalah domain kedalaman model; tidak seperti domain kedalaman yang ditentukan oleh himpunan bagian bilangan asli di GNN, S adalah kontinu, yang mewakili domain integral dari persamaan diferensial biasa yang ditentukan oleh fungsi F.
GDE dapat dilatih dengan berbagai cara, yang sangat mirip dengan persamaan diferensial standar. Makalah asli juga menjelaskan dan membahas kebugaran sistem secara rinci.
Rumus GDE umum memiliki beberapa arti. Dalam persamaan diferensial umum, terlihat bahwa memilih skema diskritisasi dapat menggambarkan variabel multi-langkah diskrit sebelumnya yang dikenal oleh ResNets (jaringan residual). Oleh karena itu, sudut pandang sistem dinamis berkelanjutan dalam pembelajaran mendalam tidak hanya terbatas pada pemodelan persamaan diferensial, tetapi juga dapat menggunakan banyak metode numerik terkait literatur untuk memandu penemuan model umum baru.
Dibandingkan dengan ResNets, GNN relatif muda sebagai kategori model. Oleh karena itu, literatur terkait pada varian kompleks multi-langkah dan koneksi residual fraktal serupa belum dikembangkan dengan baik; dan kami dapat menemukan bahwa beberapa varian GNN baru dipandu oleh penerapan berbagai skema diskritisasi GDE, dan Tidak memulai dari awal sepenuhnya.
Hasil grafik statis: klasifikasi node
Melalui serangkaian eksperimen klasifikasi node semi-supervised di Cora, Pubmed dan Citeseer, terbukti bahwa GDE dapat digunakan sebagai model umum berperforma tinggi. Kumpulan data ini berisi grafik statis, dengan matriks ketetanggaan A tetap tidak berubah, sehingga menjauhkannya dari setelan sistem dinamis menggunakan GDE. Kami mengevaluasi kinerja persamaan diferensial biasa konvolusi grafik (GCDE), yang didefinisikan sebagai:
Model GCDE. Versi yang lebih rinci disertakan dalam makalah kami, serta beberapa varian GDE populer dari GNN.
Bentuk diskrit sepenuhnya sesuai dengan jaringan konvolusional grafik (GCN). Kami mengacu pada literatur termasuk jaringan perhatian grafik (GAT) terkenal sebagai referensi:
Akurasi tugas klasifikasi node. Nilai-nilai dalam tabel di atas adalah rata-rata dan deviasi standar dari 100 putaran.
GCDE telah terbukti dapat dibandingkan dengan model paling canggih dan lebih baik daripada model terpisah mereka. Kami mengevaluasi dua versi GCDE berikut:
-
Salah satunya adalah skema ukuran langkah tetap yang terpisah, menggunakan Runge-Kutta4 (GCDE-rk4);
-
Yang lainnya adalah skema ukuran langkah adaptif, yang menggunakan Dormand-Prince (GDDE-dpr5).
Skema diskrit langkah tetap tidak menjamin bahwa perkiraan ODE masih mendekati solusi analitis; dalam hal ini, tidak perlu menyelesaikan ODE yang sesuai. GCDE-rk4 dapat menyediakan FractalNet yang efisien secara komputasi (seperti GCN). Struktur model) untuk meningkatkan akurasi.
Gambar tersebut menunjukkan kerugian pelatihan dan akurasi Cora, di mana area yang diarsir adalah interval kepercayaan 95%
Di sisi lain, melatih GCDE dengan pemecah ukuran langkah adaptif secara alami akan lebih dalam daripada menggunakan model vanilla GCN. Kedalaman lapisan jaringan yang terakhir sangat mengurangi kinerja jaringan.
Dalam percobaan, kami berhasil melatih GCDE-dpr5, yang memiliki hingga 200 evaluasi fungsi ODE (NFE), yang membuatnya jauh lebih tinggi dalam penghitungan grafik daripada vanilla GCN (karena lapisan yang terlalu dalam, kinerja sangat berkurang) . Perlu dicatat bahwa karena GDE menggunakan kembali parameter dalam fungsi solusi, parameter yang diperlukan lebih sedikit daripada istilah diskrit yang sesuai.
Menariknya, ukuran langkah adaptif GDE tampaknya tidak terpengaruh oleh kelancaran fitur node yang berlebihan. Masalah penghalusan yang berlebihan menghalangi penggunaan GNN yang dalam secara efektif di berbagai bidang, terutama dalam pembelajaran penguatan multi-agen (MARL). Saat ini kami secara aktif mengeksplorasi fitur GDE ini dan dapat dengan cepat melakukan analisis yang lebih detail.
Empat, GDE ruang dan waktu
Pengaturan kunci dalam GDE melibatkan informasi data spasial-temporal. Saat memproses informasi urutan grafik, diperlukan versi GNN rekursif.
Namun, seperti jaringan saraf rekuren konvensional (RNN) dan variannya, jaringan ini tidak diizinkan untuk beroperasi pada data sampel yang tidak teratur dengan derajat dispersi tetap. Fakta ini selanjutnya mendorong pengembangan formulir RNN berdasarkan asumsi apriori perubahan jumlah kedatangan, seperti RNN versi ODE.
Dalam skenario yang melibatkan komponen waktu, domain kedalaman S di GDE konsisten dengan domain waktu dan dapat disesuaikan dengan kebutuhan. Misalnya, dalam jangka waktu t, rumus untuk meramalkan menggunakan GDE adalah sebagai berikut:
Meskipun memiliki struktur khusus, GDE merepresentasikan semacam model autoregresif dari urutan grafik, yang secara alami mengarah pada perluasan struktur ruang-waktu klasik dalam bentuk sistem dinamis campuran, seperti: ditandai dengan interaksi dinamis antara waktu kontinu dan diskrit waktu sistem.
Ide intinya adalah untuk memungkinkan GDE mengontrol fitur node potensial dengan lancar antara dua titik waktu, dan kemudian menerapkan beberapa operator terpisah untuk membuat fitur node H bergerak dengan cepat, dan kemudian lapisan keluaran akan memproses fitur node ini H.
Diberikan serangkaian konstanta waktu
Dan keadaan arus informasi data-grafik data
, Rumus umum GDE autoregresif adalah:
Gambar menunjukkan GDE autoregresif. Model GNN spasiotemporal dengan variabel kontinu yang diketahui dapat diperoleh dengan memilih parameter F, G, K yang sesuai dari sistem ini.
Diantaranya, parameter F, G, K mirip dengan operasi GNN atau lapisan jaringan saraf umum, dan H + mewakili nilai H setelah transformasi diskrit. Proses transformasi sistem dapat divisualisasikan dengan automata hybrid:
Diagram skematis automata hybrid GDE autoregresif
Dibandingkan dengan model rekursif standar yang hanya memiliki lompatan terpisah, GDE autoregresif berisi aliran H terus menerus dari node fitur potensial di antara lompatan. Fitur GDE autoregresif ini memungkinkan mereka melacak sistem dinamis dari pengamatan tidak teratur.
Kombinasi yang berbeda dari F, G, dan K dapat menghasilkan variabel kontinu dari model GNN spasiotemporal yang paling umum.
Untuk mengevaluasi keefektifan model GDE autoregresif untuk tugas prediksi, kami melakukan serangkaian eksperimen pada kumpulan data lalu lintas PeMS yang telah ditetapkan. Kami mengikuti parameter preset eksperimental dalam literatur dan menambahkan langkah preprocessing: under-sampling the time series. Untuk mensimulasikan lingkungan yang menantang dengan timestamp yang tidak teratur atau nilai yang hilang, kami menetapkan setiap input ke 0,7 Kemungkinan penghapusan.
Untuk mengukur peningkatan kinerja yang diperoleh GDE dalam pengaturan data yang dihasilkan oleh sistem waktu kontinu, kami menggunakan GCDE-GRU dan GCGRU diskritnya yang sesuai, dan menempatkan hasilnya dalam metrik GRU vanilla untuk pengukuran.
Untuk setiap model yang dipertimbangkan, kami mengumpulkan hasil RMSE standar (NRMSE) dan rata-rata persentase kesalahan absolut (MAPE). Untuk detail lebih lanjut tentang indikator dan data yang dipilih, silakan merujuk ke kertas asli.
Karena rentang waktu prediksi rata-rata akan berubah secara dramatis selama pelatihan dan pengujian, perbedaan tidak konstan antara stempel waktu ini membuat tugas prediksi satu model lebih menantang. Untuk membandingkan model dengan lebih adil, kami menggunakan informasi stempel waktu inkremental sebagai fitur node tambahan dari GCGN dan GRU.
Data tidak teratur memprediksi hasil tugas. Di sini ambil rata-rata dan deviasi standar dari 5 sesi pelatihan.
Karena desain GCDE-GRU dan GCGRU cocok dalam hal struktur dan jumlah parameter, kami dapat mengukur peningkatan kinerja 3% dalam NRSME dan 7% peningkatan kinerja MAPE.
Penggunaan GDE sebagai alat pemodelan untuk area aplikasi lain dengan kumpulan data yang dinamis dan tidak teratur juga akan memberikan keuntungan, seperti di bidang kedokteran, keuangan atau sistem kendali terdistribusi. Kami sedang melakukan beberapa eksperimen terkait lainnya di bidang ini, dan menyambut setiap permintaan, ide atau saran untuk kerjasama.
6. Kesimpulan
Seperti disebutkan di atas, saat ini kami sedang mengembangkan pustaka Github, yang berisi serangkaian contoh dan aplikasi untuk berbagai jenis model GDE.
Kami mendorong semua orang untuk meminta / merekomendasikan operasi di Github untuk aplikasi GDE lainnya: kami berencana untuk pada akhirnya menyertakan semua contoh yang berfungsi dari varian GDE yang relevan dari arsitektur jaringan saraf grafis utama (GNN), yang diterapkan di berbagai pengaturan (perkiraan, Kontrol...).
Makalah kami dapat digunakan sebagai pracetak di arXiv: Jika menurut Anda karya kami bermanfaat, pertimbangkan untuk mengutip makalah kami.
Referensi terkait di artikel, Anda dapat membaca teks aslinya:
https://towardsdatascience.com/graph-neural-ordinary-differential-equations-a5e44ac2b6ec
Kompilasi Tinjauan Teknologi AI Jaringan Lei Feng Jaringan Lei Feng Jaringan Lei Feng
- Seberapa jauh dari AlphaGo ke AI dengan kecerdasan manusia? François Chollet punya beberapa ide baru
- Laporan Mingguan Global Industri Hal-Hal Berwawasan ke Depan No. 23: Lei Jun mengeluarkan surat Tahun Baru 2020 "5G + AIoT" untuk berinvestasi setidaknya 50 miliar dalam lima tahun
- Laporan Mingguan Global Industri Robot Berwawasan ke Depan No. 52: Kasus pertama di bidang penulisan AI jatuh! Tencent Robot Dreamwriter memenangkan gugatan tersebut
- Apakah dihancurkan hanya setelah sehari? LeCun secara terbuka mempertanyakan hasil penelitian AI kanker payudara "Alam" dari Google
- Sagitar Juchuang 125-line solid-state lidar dengan harga US $ 1.898 Apakah era lidar solid-state akan datang? | CES 2020
- Para eksekutif Apple 2019 secara kolektif memotong gaji, Tim Cook masih memegang $ 125 juta sebagai gantinya