Penelitian dari Universitas Tianjin, Universitas Tokyo, dll: Menggunakan pembelajaran penguatan mendalam untuk mendeteksi cacat model

Kolom Xinzhiyuan

Penulis: Yi-Sea

Panduan Xin Zhiyuan Makalah yang ditulis bersama oleh Laboratorium Multi-agen dan Pembelajaran Penguatan Mendalam Universitas Tianjin, Universitas Tokyo dan Institut AIST Jepang, mengusulkan penggunaan metode pembelajaran penguatan mendalam untuk mendeteksi kerusakan dalam model sistem fisik siber (CPS). Dibandingkan dengan metode tradisional, metode pembelajaran penguatan dalam dapat menemukan cacat sistem melalui lebih sedikit eksperimen simulasi dalam banyak kasus.

Dengan munculnya AlphaGo, gelombang pembelajaran penguatan mendalam (DRL) dimulai. Banyak lembaga penelitian ilmiah dan tim universitas termasuk DeepMind dan OpenAI berkomitmen untuk penelitian DRL. DRL juga telah mencapai hasil yang baik di bidang game dan kontrol robot cerdas, seperti pengembangan game terkait StarCraft dan robot Atlas. Ketika kecerdasan buatan secara bertahap memasuki kehidupan manusia, konsep sistem fisik siber menjadi lebih akrab bagi orang-orang. Sistem Cyber-Fisik (CPS, Cyber-Physical Systems) adalah sistem multi-dimensi dan kompleks yang mengintegrasikan komputasi, jaringan, dan lingkungan fisik. Melalui integrasi organik dan kolaborasi mendalam dari teknologi 3C (Komputer, Komunikasi, Kontrol), ia dapat mewujudkan persepsi waktu nyata, kontrol dinamis, dan Layanan informasi. Terutama digunakan di beberapa sistem pintar seperti interkoneksi perangkat, penginderaan IoT, rumah pintar, robot, navigasi pintar, dll. Oleh karena itu, pemeriksaan keamanan sistem fisik siber (CPS) telah menjadi prioritas utama.

Baru-baru ini, FM2018 (Simposium Internasional tentang Metode Formal), konferensi teratas di bidang formalisasi rekayasa perangkat lunak, menerima makalah dari Multi-agent and Deep Reinforcement Learning Laboratory Universitas Tianjin bekerja sama dengan Universitas Tokyo dan Institut AIST Jepang. Gunakan metode pembelajaran penguatan mendalam untuk mendeteksi cacat dalam model sistem fisik siber (CPS) . Dibandingkan dengan metode tradisional (simulasi anil dan lintas entropi), metode pembelajaran penguatan yang dalam dapat menemukan cacat sistem melalui lebih sedikit eksperimen simulasi dalam banyak kasus.

Inovasi dari makalah ini adalah: untuk pertama kalinya, pembelajaran penguatan mendalam dikombinasikan dengan jenis masalah yang melanggar kekokohan model CPS, dan hasil eksperimen yang lebih signifikan telah diperoleh; kerangka pengujian baru diusulkan:

1) Gunakan pembelajaran penguatan mendalam untuk mendapatkan masukan dari sistem yang diuji

2) Meneruskan input ke sistem yang diuji, mendapatkan output sistem dan menghitung nilai pendapatan, sebagai input untuk putaran pembelajaran berikutnya

3) Ulangi langkah-langkah di atas untuk mendeteksi cacat.

Metode tradisional untuk mendeteksi kerentanan CPS

Sistem fisik siber (CPS) semakin banyak digunakan di bidang keamanan kritis, yang membuatnya lebih penting untuk memastikan kebenaran sistem fisik siber. Pengujian dan verifikasi model CPS merupakan metode umum untuk memastikan akurasinya. Pada saat yang sama, karena ruang status model CPS tidak terbatas, sulit untuk pengujian mencapai cakupan yang tinggi, dan teknologi verifikasinya mahal dan tidak dapat diputuskan. Oleh karena itu, metode pemalsuan yang berorientasi pada ketahanan baru-baru ini dianggap sebagai metode yang efektif untuk mendeteksi cacat CPS.

Dalam metode pemalsuan berorientasi ketahanan, logika sekuensial sinyal (STL) biasanya digunakan untuk mengekspresikan properti (ketahanan) yang harus dipenuhi oleh model CPS. Makalah ini mengusulkan teknik pemalsuan yang berorientasi pada ketahanan untuk mengeksplorasi ruang keadaan model CPS, dan menentukan urutan perilaku yang meminimalkan ketahanan sebagai kandidat untuk pengujian. Dengan cara ini, input yang berorientasi ketahanan (yaitu, kontra-contoh) dihasilkan yang mengekspos cacat model, sehingga deteksi cacat dapat dilakukan secara lebih efektif dan otomatis. Meskipun fakta bahwa proses pemalsuan tidak berakhir tidak berarti bahwa tidak ada contoh balasan, fakta bahwa tidak ada contoh balasan yang ditemukan dalam periode waktu tertentu menunjukkan kebenaran model CPS sampai batas tertentu.

Metode pemalsuan berorientasi ketahanan yang ada mengadopsi algoritme pengoptimalan global acak, seperti anil yang disimulasikan, entropi silang, dll., Untuk mencapai tujuan meminimalkan ketahanan. Semua metode ini mengambil seluruh lintasan (urutan perilaku) sebagai input, sehingga sejumlah besar simulasi berjalan diperlukan dalam proses pemalsuan, dan dengan demikian tidak dapat menjamin bahwa input counterexample dalam model sistem CPS aktual dapat ditemukan dalam waktu terbatas.

Metode pemalsuan properti model CPS berdasarkan pembelajaran penguatan

Dalam tulisan ini, DRL digunakan untuk mengatasi masalah model CPS yang melanggar robustness. Metode pembelajaran penguatan dapat mengamati umpan balik lingkungan dan kemudian menyesuaikan perilaku masukan pada waktunya. Dengan cara ini, metode dapat lebih cepat menyatu ke nilai ketahanan terkecil. Artikel ini menggunakan dua teknologi DRL paling canggih: Asynchronous Advanced Actor Critic (A3C) dan Double Deep-Q Network (DDQN).

Kerangka khusus ditunjukkan pada Gambar 1: Lingkungan kerangka kerja mencakup modul lingkungan operasi simulasi Matlab dan modul penghargaan perhitungan. Menggunakan algoritme pembelajaran penguatan klasik, agen mengambil status saat ini dan penghargaan dari sistem sebagai input, dan kemudian mengeluarkan tindakan berikutnya sebagai input ke modul simulasi. Agen kerangka kerja ini menggunakan dua algoritma, A3C dan DDQN.

Gambar 1: Kerangka keseluruhan sistem

Kontribusi utama artikel ini adalah:

(1) Menunjukkan bagaimana menemukan masalah menemukan urutan perilaku yang melanggar robustness model CPS menjadi masalah deep reinforcement learning (DRL);

(2) Metode yang diusulkan diimplementasikan dan evaluasi pendahuluan dilakukan.Hasilnya membuktikan bahwa penggunaan teknologi DRL dapat mengurangi jumlah simulasi yang dibutuhkan untuk menemukan input yang salah dari model CPS, sehingga mengurangi total waktu operasi simulasi.

(3) Mengusulkan kerangka pengujian untuk masalah pemalsuan ketahanan model CPS berdasarkan teknologi pembelajaran penguatan, yang memberikan jaminan untuk eksplorasi lebih lanjut masalah ini.

Metode yang diusulkan dalam makalah ini diimplementasikan dalam sistem prototipe, dan model sistem CPS yang banyak digunakan digunakan untuk evaluasi awal. Hasil eksperimen menunjukkan bahwa metode yang diusulkan dalam makalah ini dapat mengurangi frekuensi ditemukannya input palsu. Hasil dari running pada sistem kendali transmisi otomatis ditunjukkan pada Gambar 2. Metode yang didasarkan pada pembelajaran perkuatan selalu lebih baik daripada metode baseline lainnya dalam hal tingkat keberhasilan. Dalam waktu yang terbatas, metode berbasis reinforcement learning lebih mudah menemukan input yang salah.

Gambar 2: Hasil berjalan pada sistem kendali transmisi otomatis (AT)

Makalah: Pemalsuan Sistem Cyber-Fisik Menggunakan Pembelajaran Deep Reinforcement

Ringkasan

Dengan perkembangan pesat perangkat lunak dan komputasi terdistribusi, sistem fisik siber (CPS) telah banyak digunakan di berbagai bidang, seperti jaringan pintar dan kendaraan otonom. Karena kerumitan perangkat lunak dan sistem fisik, sulit untuk mendeteksi cacat pada model CPS. Untuk menemukan kelemahan dalam model CPS secara efektif, metode pemalsuan berorientasi ketahanan dari properti model CPS diperkenalkan. Metode yang ada menggunakan teknik pengoptimalan global untuk menghasilkan contoh balasan yang melanggar properti model CPS. Namun, metode ini mungkin memerlukan banyak simulasi untuk menemukan contoh yang berlawanan, yang seringkali di luar kelayakan praktis. Artikel ini membahas teknologi deep reinforcement learning (DRL) paling canggih untuk mengurangi jumlah simulasi yang diperlukan untuk menemukan contoh yang berlawanan, dan membahas metode tertentu dan hasil evaluasi awal.

Toko Suami dan Istri: "Bisnis Ujung Jari Kecil" sedang berlangsung di 660.000 desa di China

Sebelumnya

Puisi Aksen kampung belum diubah, ada masa pulang kampung

Lanjut