MIT 6.S094 · Pembelajaran Mendalam Catatan kursus Study Ba, kami telah menyusunnya untuk Anda

Pers bersih Lei Feng: Grup subtitle Lei Feng diberi wewenang oleh tim kursus MIT untuk menerjemahkan kursus mengemudi otonom, tautan video:

Kami telah menyortir catatan kursus setiap Kuliah untuk Anda, dan menyempurnakan esensi setiap kuliah. Direkomendasikan untuk menonton konten video yang dikombinasikan dengan catatan kursus untuk efek pembelajaran yang lebih baik.

Judul asli MIT 6.S094: Pembelajaran Mendalam untuk Mobil Self-Driving 2018 Catatan Kuliah 1

Penulis | Sanyam Bhutani

Terjemahan | Penyelesaian Li Han Liu Hui | Fan Jiang

* Semua gambar di bawah ini diambil dari slide kursus.

Pembelajaran mendalam: Seperangkat teknologi yang melayani berbagai teknologi kecerdasan buatan. Dalam beberapa tahun terakhir, dengan penelitian mendalam yang berkelanjutan dan perluasan kemampuan GPU yang berkelanjutan, teknologi ini menjadi lebih bertenaga. SDC adalah sistem yang dapat menggunakan teknologi ini.

Dosen ini berdedikasi untuk mengembangkan mobil yang memahami lingkungan di dalam dan di luar mobil.

Item kompetisi utama:

Proyek kompetisi DeepTraffic: Deep Reinfocement Learning (Deep Reinfocement Learning), kode terkait dapat dijalankan di browser. Versi 2.0 terbaru memungkinkan pelatihan Multi-Agen.

SegFuse: proyek kompetisi Segmentasi Adegan Mengemudi Dinamis. Berikan video asli, mobil bergerak sesuai dengan prinsip dinamis yang sebenarnya. Set pelatihan dapat memberi kami label langsung permukaan jalan, label tingkat piksel, segmentasi pemandangan, dan aliran optik. Sasaran: untuk lebih mencerminkan kondisi jalan yang sebenarnya daripada teknologi Segmentasi Berbasis Gambar yang ada. Kebutuhan: Robot perlu menjelaskan, memahami, dan melacak banyak detail di tempat kejadian.

Deep Crash: Sasaran: Gunakan Deep RL untuk menghindari Penghindaran Kecelakaan Berkecepatan Tinggi (Penghindaran Kecelakaan Berkecepatan Tinggi). Pelatihan: Jalankan 1000 kali dan gunakan video monokuler sebagai sumber input untuk melatih model mobil agar melaju dengan kecepatan di atas 30mph.

DeepTesla: Gunakan jaringan skala besar untuk melatih operasi mengemudi ujung ke ujung, dan gunakan video monokuler sebagai sumber masukan untuk melatih gerbong.

Mengapa autopilot?

Sasaran: Menerapkan metode pembelajaran berbasis data untuk kendaraan otonom.

Ini adalah integrasi paling kompleks dan masif dari beberapa robot pribadi.

Arti universal: Ada banyak mobil yang melaju di jalan.
Signifikansi yang mendalam: untuk membangun hubungan yang lebih dekat antara manusia dan mobil. Saling percaya memungkinkan manusia menyerahkan hidup mereka kepada robot, dan menyerahkan "kendali" ke mobil. Jika kita menganalisanya secara mendalam, memastikan keselamatan hidup adalah atribut alami dari operasi sistem, dan kita benar-benar perlu menguji batasan sistem di masa mendatang.

Mobil self-driving: Ini bukan terminal Kontrol-Persepsi sebagai Robot Pribadi. Menghadapi berbagai kondisi jalan, sistem tersebut juga perlu mendapatkan bantuan manusia dengan menyerahkan kendali. Dalam arti sebenarnya, dibutuhkan setidaknya puluhan tahun untuk mengembangkan sistem sensorik yang memiliki sifat dinamis seperti manusia.

Beban kognitif: Jaringan neural konvolusional (CNN) yang terhubung sepenuhnya sedang memproses sumber input RAW 3D, menganalisis beban kognitif, postur tubuh, dan kelelahan pengemudi.

Parameter aktual: Untuk mencapai mengemudi otonom sepenuhnya, kecerdasan harus dekat dengan manusia di area tertentu.

Pendekatan human-centric terhadap kecerdasan buatan

Rekomendasi: Pertimbangkan faktor manusia dalam desain setiap algoritme.

Kontrol perseptual dapat menangani lebih dari 90% kasus
Kontrol manusia: mendominasi 10% skenario

Mengapa pembelajaran mendalam?

Platform pembelajaran mendalam dapat menangani data besar dengan sangat baik. Pada saat itu, kehidupan manusia akan langsung terkirim ke perangkat tersebut, sehingga teknologi ini harus dipelajari dari data kehidupan nyata.

Persepsi / akhir kendali
Interaksi dan kolaborasi berbasis manusia

Apa itu pembelajaran mendalam?

Kecerdasan buatan: mampu mencapai berbagai tujuan kompleks

Pemahaman / penalaran: Kemampuan untuk mengubah informasi yang kompleks menjadi informasi yang sederhana dan praktis.

Pembelajaran mendalam (pembelajaran representasi atau pembelajaran fitur) dapat mengekstrak informasi sumber tanpa penjelasan apa pun, dan membangun representasi hierarkis untuk memungkinkan berbagai laporan wawasan dibuat.

Pembelajaran representasi

Pembelajaran representasi sangat penting. Misalnya: Earth Centered Vs Sun Centered.

Sistem koordinat kartesius VS sistem koordinat kutub untuk membedakan lingkaran dan segitiga.

Misalnya: Gunakan jaringan neural tersembunyi 1 lapisan untuk membedakan kurva biru dan merah. Untuk mencapai efek dari pembelajaran ini (menggunakan input sumber untuk menghasilkan output) dilakukan melalui deep learning.
Pembelajaran mendalam dapat meningkatkan lebih banyak data.
Induksi situasi edge adalah tantangan utama deep learning.

Jaringan Neural

Terinspirasi oleh jaringan saraf biologis manusia yang longgar.

Jaringan Syaraf Manusia: 100 miliar neuron, 1000 triliun sinapsis

Teknologi teratas saat ini ResNet-52: 60 juta sinapsis
Perbedaan antara keduanya adalah 7 kali lipat
perbedaan:

Jaringan saraf manusia tidak membutuhkan tumpukan, sedangkan jaringan saraf tiruan membutuhkan;

Jaringan saraf manusia tidak memiliki keteraturan, tetapi jaringan saraf tiruan ada;

Pembelajaran sinkron dan pembelajaran asinkron;

Pembelajaran yang tidak diketahui dan algoritma Backprop;

Pemrosesan lambat vs. pemrosesan lebih cepat;

Konsumsi daya rendah VS efisiensi rendah;

Kesamaan: Keduanya adalah komputasi terdistribusi skala besar.

Neuron dasar sangat sederhana, tetapi beberapa unit yang terhubung satu sama lain dapat digunakan dalam kasus yang sangat kompleks.

Neuron

Neuron berisi sekumpulan sumber input dengan lingkungan berbobot.

Bobot dikalikan bersama.

Kemudian tambahkan bias.

Fungsi non-linier untuk mengonfirmasi apakah jaringan saraf diaktifkan.

Kombinasi jaringan saraf:

Feed-forward NN: Ini telah berhasil diterapkan pada grafik komputer.

Jaringan Neural Rekursif (NN rekursif): Dapat mundur dengan sendirinya dan memiliki memori. Ini telah berhasil diterapkan pada Time Series pada data, yang sangat dekat dengan manusia (sehingga sulit untuk dilatih).

Universalitas: Jaringan neural multi-variasi dapat memperkirakan fungsi arbitrer hanya dengan satu lapisan tersembunyi dengan algoritme yang cukup baik.

Memberikan algoritme yang sangat bagus.

Cacat: Ini bukan kredit jaringan saraf, tetapi kredit algoritme.

Jenis pembelajaran mendalam

Pembelajaran yang diawasi: Semua data berlabel manual digunakan;

Pembelajaran yang diawasi yang diperluas: data pelabelan manual yang diperlukan dan data yang tidak berlabel sama;

Pembelajaran semi-supervisi: sejumlah kecil data yang diberi label secara manual dan sejumlah besar data yang tidak berlabel;

Pembelajaran penguatan: sejumlah kecil data berlabel manual dan sejumlah besar data tak berlabel;

Pembelajaran tanpa pengawasan: semua menggunakan data tak berlabel;

Pada tahap ini, 1 dan 2 sering digunakan.

Tren masa depan dan tren yang lebih baik adalah 3, 4, dan 5.

Area yang terpengaruh oleh pembelajaran mendalam:

Tentukan dan selesaikan masalah tertentu. Misalnya: Perkiraan harga rumah di Boston.

Kecerdasan buatan tujuan umum (atau hampir semua): gunakan pembelajaran penguatan dan pembelajaran tanpa pengawasan.

Pembelajaran yang diawasi

Tahap pelatihan: 1. Input kumpulan data 2. Label 3. Melatih kumpulan data pelatihan.

Tahap pengujian: 1. Menggunakan kumpulan data baru untuk menguji; 2. Memasukkan model pembelajaran; 3. Mengeluarkan hasil.

Belajar

Operasi maju: Kumpulan data masukan dimasukkan ke dalam jaringan saraf dan hasil prediksi dibentuk.
Propagasi mundur: Mengukur penyimpangan antara hasil prediksi dan hasil keluaran yang diharapkan, dan menghitung kesalahan hasil. Sesuaikan parameter (hyperparameter) untuk menyesuaikan nilai sesuai dengan besarnya kesalahan.

Apa yang dapat kita lakukan dengan pembelajaran mendalam?

Pemetaan satu-ke-satu.
Pemetaan satu-ke-banyak.
Pemetaan banyak ke banyak.
Pemetaan banyak ke banyak yang tidak sinkron.

Penjelasan istilah:

DL = NN (pembelajaran dalam = jaringan saraf).
DL adalah bagian dari ML (pembelajaran mesin).
MLP: Jaringan neural multi-lapisan.
DNN: Jaringan Neural Dalam.
RNN: Jaringan Neural Berulang.
LSTM: Jaringan memori jangka panjang dan pendek.
CNN: Jaringan Neural Konvolusional.
DBN: Deep Belief Network.

Struktur jaringan saraf:

Lapisan konvolusional
Lapisan penggabungan
Lapisan insentif
Propagasi mundur

Fungsi aktivasi

Fungsi sigmoid: ada hilangnya gradien, tidak berpusat pada asalnya.
Fungsi Tanh: Ada hilangnya gradien.
Fungsi ReLu.: Tidak berpusat pada origin.

Gradien menghilang: nilai keluaran atau gradien kecil dan kecepatan pemelajaran sangat lambat.

Propagasi mundur

Mengenai proses pembelajaran jaringan syaraf tiruan, tujuan utamanya adalah untuk mengurangi fungsi kerugian guna memperbarui bobot dan nilai penyimpangan.

Tugas dasar:

Melalui propagasi maju, nilai keluaran dan sisa jaringan dihitung.

Propagasi mundur menghitung gradien.

Hapus gradien sebagian bobot dari bobot.

Karena proses ini bersifat modular, ini berjalan secara paralel.

latihan

Pelatihan adalah proses yang optimal.

Tujuannya adalah untuk meminimalkan fungsi kerugian dengan memperbarui bobot dan residu.

Perlu menggunakan keterampilan: penurunan gradien dan penurunan gradien stokastik dari unit terkecil.

Tantangan dalam pelatihan

Fungsi kerugian sangat non-linier.

Gradien menghilang.

ULT memiliki node mati: ketika input 0, output juga akan 0.

Ada titik pelana.

Overfitting: Jaringan neural mempelajari data pelatihan tetapi gagal menyesuaikan dengan data input yang sebenarnya. Alasannya adalah sisa pelatihan rendah tetapi sisa tes tinggi.

Regularisasi

Ada beberapa keterampilan umum.

Set validation set: subset dari set data training.
Akhiri pelatihan lebih awal: untuk menyimpan node inspeksi dan mengevaluasi status operasi jaringan neural pada set pengujian.

Putus sekolah: jatuhkan beberapa node ini secara acak (bersama dengan node input dan output)

Dinyatakan dengan probabilitas mempertahankan node (p).
Node masukan p harus lebih tinggi.

Tujuan: Untuk membantu jaringan meringkas dengan lebih baik.

Batasan norma yang diatur

Batasan L2: batasan berat persegi:

Jika penyimpangan tidak meningkat, nilai bobot dijaga agar tetap kecil.

Hindari kesalahan pemasangan sampel.

Model yang lebih halus.

Untuk dua input serupa, bobot perlu diberikan.

Batasan L1: Batasan pada nilai bobot absolut:

Memungkinkan untuk mempertahankan berat badan yang lebih besar.

Neural Network Playground: Gunakan keterampilan dan eksperimen untuk berlatih.

Terobosan tersebut disebabkan oleh deep learning

Apa yang berubah?

Peningkatan daya komputasi.

Kumpulan data yang besar dan teratur dapat direalisasikan.

Algoritma dan penelitian di bidang pemanfaatan GPU.

Perangkat lunak dan infrastruktur.

dukungan finansial.

Pembelajaran mendalam itu sulit

Kompleksitas tubuh manusia:

Visi manusia: 5.440.000 tahun data historis telah terbentuk.

Berjalan tegak: 2,3.000.000 tahun data historis.

Pemikiran abstrak: 10,0000 tahun data historis.

Jaringan Neural:

Ini akan meningkatkan distorsi sampel tingkat piksel, menghasilkan prediksi yang tidak akurat.

Masalah dengan gambar itu sendiri: situasi berbeda seperti pencahayaan, postur, oklusi, dan kategori internal.

Pengenalan atau klasifikasi objek

Sasaran: Memasukkan gambar dan memprediksi hasilnya.

ImageNet: Lebih dari 14 juta jenis input dan lebih dari 2,18 juta jenis output.

Kompetisi ILSVRC:

AlexNet (2012): Telah terjadi peningkatan akurasi yang signifikan.

Resnet (2015): Mengalahkan manusia dalam akurasi pengenalan.

Contoh pintar: masih ada celah antara pembelajaran mendalam dan "universalitas manusia" Banyak aplikasi dengan arsitektur yang sama: kita dapat mengubah lapisan keluaran sesuai dengan jumlah jenis kebutuhan.

Klasifikasi gambar.
Pengambilan gambar.
Penempatan objek.
Segmentasi gambar.

FCNN

Setiap piksel dibagi ke dalam kategori, dan kemudian memasukkan gambar dan menghasilkan gambar lain sebagai output.

Sasaran: korespondensi antara citra dan citra.

adegan yang akan digunakan:

Segmentasi adegan penuh tingkat piksel.

Metode pencelupan sesuai.

Pengenalan objek.
Hilangkan background.
Pix2PixHD: Menghasilkan foto realistis beresolusi tinggi dari tag semantik.
RNN: Kumpulan data yang digunakan untuk rangkaian.

adegan yang akan digunakan:

Pengenalan tulisan tangan.
Pengambilan gambar.
Deskripsi Video.
Model perhatian yang bergeser.
Gunakan model perhatian opsional.

Terobosan utama

Pong to Pong (2012): Closer to general artificial intelligence.

AlphaGo (2016): Anda dapat belajar dari game tingkat ahli manusia AlphaGo Zero (2017): mengalahkan AlphaGo and Co. Tidak memerlukan input data eksternal (itu belajar dengan melatih dirinya sendiri).

DeepStack (2017): mengalahkan pemain poker profesional untuk pertama kalinya (di Heads up Poker).

Kekurangan pada tahap ini

Sulit untuk menentukan fungsi insentif yang sesuai (ambil Coast Runner sebagai contoh), dan hasilnya mungkin tidak terduga.
Kekurangan: Menambahkan noise ke piksel dapat menyebabkan hasil prediksi yang salah.

Tantangan pada tahap ini:

Pembelajaran transfer: Kinerja operasi terkait dengan ruang lingkup pekerjaan. Tantangan: Kesulitan dalam pembelajaran transfer lintas domain. Alasan: pemahaman tentang proses penalaran atau kemampuan untuk mengekstraksi pemahaman.
Butuh banyak data.
Butuh data berlabel.
Tidak sepenuhnya otomatis: hyperparameter perlu disesuaikan.
Fungsi insentif: Sulit untuk menentukan fungsi eksitasi yang tepat.
Transparansi: Sifat jaringan saraf dekat dengan kotak hitam (ini masih terjadi setelah kami memvisualisasikan proses tersembunyi).
Situasi pemrosesan tepi: Pembelajaran mendalam tidak bagus dalam memproses data tepi (terutama jika digunakan untuk mengemudi secara otonom).

Lei Feng Net Lei Feng Net

Pameran Mobil Los Angeles 2016: Model convertible penggerak belakang Huracan

Sebelumnya

"Liga Kung Fu" mempromosikan semangat seni bela diri Tiongkok Zhao Wenzhuo menuntun seratus bayi yang menggemaskan untuk muncul

Lanjut

: Lenovo mencoba untuk melakukan diskriminasi! Beli Moto Z versi AS dan dapatkan modul kamera Hasselblad gratis

: Bagaimana membedakan YEEZY BOOST 350 V2 yang benar dan yang salah? Empat cara sederhana dan kasar untuk mendapatkannya

: Dirilis pada Juli! Baik Z17 maupun Z17 mini sudah dirilis, Nubia sepertinya sudah melupakan modelnya

: Roadshow nasional "Yesterday's Blue Sky" berakhir di 24 kota! Rekomendasi sobek oleh 30.000 siswa

: Ingin memasang rumah pintar? Ketiga hal ini harus dipersiapkan

: Survei sistem telepon seluler China pada kuartal keempat 2016: Android empat kali lebih banyak dari iOS!

: Saya bertemu 6 bulan dan menikah, istrinya berpikir dia harus memulai bisnis, dan situs web China terbesar di dunia lahir!

: Stussy meluncurkan seri pakaian dalam baru, menciptakan kebutuhan sehari-hari untuk Cool Girls

: Paviliun Pameran Mobil Guangzhou: Bertanggung jawab atas penampilan merek! Generasi baru Infiniti Q60

: Kasus: Nanyang Future Intelligent Experience Center, ruang pameran seluas 400², jangkauan jaringan 5G penuh

: Sarjana emas Hu Ge meminta untuk menarik pencarian panas: Hari Valentine tidak membawa penyiksa anjing seperti itu

: Toko Xiaomi meluncurkan hadiah Hari Valentine khusus: mawar mini hanya 69 yuan

MIT 6.S094 · Pembelajaran Mendalam Catatan kursus Study Ba, kami telah menyusunnya untuk Anda

Informasi Terkait

Dapatkah Anda menemukan "Little San" hanya dengan melihat log panggilan? Masukkan "kode misteri" di ponsel Anda, dan catatan operasi dapat dilihat sekilas!

Honor V9 dirilis pada 21 Februari: juru bicara Sun Yang, telepon secepat dia

Daftar baru dirilis: LOL masih yang pertama, dan diam-diam naik ke urutan keenam di ke-55, Nona mendominasi puncak!

Desain material pecah bersama! Peluncuran seri Converse x Carhartt WIP Chuck Taylor All Star 70-an

Kasus: Selamat OCT, Wi-Fi di seluruh rumah

Panduan generasi baru Jeep dimulai dengan harga kurang dari 170.000 yuan

Mengapa bumi diserang lagi? ! Inventarisasi spesies alien yang menginvasi bumi di film

LG Smart Watch Watch Sport / Style Picture Tour: Fashion, keren, penting untuk para hipster

Karena Supreme x Michael Jackson sedang diobral, toko terdekat lainnya memilih untuk tutup hari ini

Bekerja sebagai instruktur pelatihan bahasa Inggris dan sangat dipuji oleh Yu Minhong. Konferensi peluncuran produknya disebut "Konferensi Crosstalk"