Li Mu: Mengajar Pembelajaran Mendalam di Berkeley

Lei Feng.com AI Technology Review melaporkan bahwa pada awal tahun ini, penulis MXNet Li Mu dan Alex Smola membuka kursus pembelajaran mendalam di University of California, Berkeley. Di akhir kursus, Li Mu menulis artikel panjang dalam bahasa Zhihu, menjelaskan motivasi pembukaan kursus ini, dan beberapa wawasan serta pengalamannya dalam pendidikan setelah kursus. Li Mu berkata, "Beberapa metode yang telah kami coba dan lakukan Jalan memutar dan materi yang terkumpul dapat membantu semua guru dan siswa yang tertarik. Jadi saya di sini untuk membagikannya.

Leifeng.com AI Technology Review berwenang untuk mencetak ulang artikel ini. Berikut ini adalah teks, dengan penghapusan.

Alamat asli: https://zhuanlan.zhihu.com/p/66062438

Pada musim semi 2019, Alex Smola dan saya mengajar kursus pembelajaran mendalam eksperimental untuk para sarjana di University of California, Berkeley (selanjutnya disebut Berkeley), yang bertujuan untuk mengeksplorasi cara mengajarkan pembelajaran mendalam secara efektif. Bersama dengan dua asisten pengajar (Rachel dan Ryan) dan seratus siswa, kami menghabiskan empat bulan kehidupan yang intens, menyakitkan dan bahagia. Saya baru saja menyelesaikan laporan proyek kursus minggu lalu. Ada beberapa dari dua puluh laporan yang sangat saya sukai, dan satu atau dua di antaranya akan diserahkan ke NeurIPS mendatang. Yang lebih memuaskan adalah bahwa beberapa proyek yang saya pikir akan gagal juga menemukan jalan keluarnya.

Mengajar adalah salah satu bentuk penciptaan. Penciptaan bersifat artistik dan pribadi. Pengalaman kami tidak cukup untuk mendukung penulisan artikel tentang "Bagaimana cara mengajar deep learning secara efisien", tetapi beberapa metode yang telah kami coba, jalan memutar yang telah kami ambil, dan materi yang terkumpul dapat membantu para guru dan siswa yang tertarik. Jadi saya membagikannya di sini secara khusus.

motivasi

Dalam tiga tahun terakhir, departemen kecerdasan buatan (AI) Amazon Cloud Services (AWS) tempat saya bekerja telah berkembang pesat puluhan kali lipat, mencerminkan industri yang berkembang pesat. Tetapi saya mengamati bahwa perluasan pasar ini tidak secepat yang saya bayangkan. Salah satu alasannya adalah entry barrier untuk deep learning bagi para pemain top AI masih sangat tinggi. Meskipun lebih praktis daripada pembelajaran mesin, ini masih rumit dibandingkan mata pelajaran lainnya. Misalnya, jika 100 orang mempelajari database (sumber pendapatan penting untuk AWS), 50 orang mungkin dapat menggunakan pengetahuan yang dipelajari untuk memecahkan masalah praktis. Tetapi orang-orang yang sama ini datang untuk belajar deep learning, dengan hati-hati dan optimis, itu bagus untuk bisa memulai setelah 10 pembelajaran. Jika kegilaan AI memudar, antusiasme pengembang untuk belajar menurun, dan perluasan pasar melambat, maka musim dingin tidak akan lama lagi.

Saya telah bekerja dengan banyak kolega di departemen untuk melatih karyawan internal Amazon dan pelanggan AWS (salah satu pekerjaan sampingan). Dalam 17 tahun, saya melakukan 19 siaran langsung dengan Aston di Cina. Di akhir tahun lalu, saya memunculkan ide untuk merekam MOOC yang lebih formal dan berkualitas lebih tinggi. Tetapi saya khawatir kursus online tidak bisa mendapatkan umpan balik waktu nyata, sehingga kesulitannya sulit untuk dimasukkan, jadi saya ingin mengajar tatap muka terlebih dahulu untuk mengumpulkan beberapa pengalaman.

Pilihan pertama adalah pergi ke Stanford karena dekat dengan rumah (15 menit dengan sepeda). Tetapi Stanford sudah memiliki beberapa kursus pembelajaran mendalam yang dibuka pada waktu yang sama. Untungnya, Berkeley masih memiliki kursi yang tersedia, dan mereka dengan senang hati mengajari kami. Hubungi Berkeley untuk mendapatkan persetujuan dari manajemen atas AWS dalam waktu seminggu, meskipun kami dengan jelas menyatakan bahwa kami akan keluar dari kantor dua hari seminggu dalam enam bulan. Dalam hal ini, saya sangat menyukai Amazon karena mempromosikan proyek yang memiliki dampak jangka panjang dan mendorong upaya yang cepat.

Ada dua episode menarik pada hari masuk. Salah satunya adalah diberitahukan bahwa Berkeley adalah sekolah umum dan para stafnya adalah pejabat pemerintah dan perlu bersumpah untuk memperjuangkan Amerika Serikat ketika perang terjadi. Saya mengatakan bahwa saya tidak siap secara mental untuk ini, atau haruskah saya dibayar, jadilah sukarelawan saja. Dengan cara ini, saya juga merasa nyaman untuk pergi ke pengajaran eksperimental.

Yang kedua adalah bahwa jurusan statistik di Berkeley yang saya datangi adalah salah satu yang terbaik di dunia (guru di sini menganggapnya sebagai yang terbaik di dunia, sama seperti jurusan komputer CMU yang saya baca dan jurusan komputer MIT dan teknik elektronik yang dibaca istri saya. , Guru mereka merasa bahwa mereka nomor satu di dunia?). Di kantor di lantai atas, ada bukit besar, Michael Jordan, Peter Bartlett, Bin Yu, dan banyak nama. Tapi gedung departemen statistik adalah yang paling bobrok di sekolah yang pernah saya kunjungi, bukan salah satunya. Jadi ketika mereka bertemu dengan asisten pengajar, mereka secara halus menyarankan untuk pergi ke ruang publik di gedung sebelah, yang lebih terbuka dan modern.

Kantor yang ditugaskan. Lihatlah lantai ini, bangku ini, papan tulis ini, dinding ini, jendela ini. Itu diambil pada jam 12 siang.

Silabus

Munculnya pembelajaran mendalam baru berusia 7 atau 8 tahun, dan dunia akademisi saat ini masih berjalan lancar, dan model serta aplikasi baru masih bermunculan. Cara memilih konten pengajaran dari sejumlah besar literatur yang sudah lama tidak diuji cukup melelahkan. Misalnya, model seperti BERT dan GPT yang muncul pada akhir tahun lalu membuat kami menyadari bahwa model berbasis transformator berdasarkan perhatian diri mungkin sama pentingnya dengan jaringan saraf konvolusional dan jaringan saraf berulang di masa mendatang, sehingga setengah pelajaran sengaja dipindahkan. Untuk memperkenalkan. Siswa kemudian melaporkan bahwa itu sangat membantu proyek kursus mereka.

Poin pengetahuan pembelajaran mendalam dapat secara sederhana dan kasar dibagi menjadi dua kategori: praktis dan menyenangkan. Kategori praktis mencakup berbagai jenis jaringan saraf konvolusional dan berulang, dan aplikasinya pada masalah umum dalam penglihatan komputer dan pemrosesan bahasa alami. Model jenis ini dapat digunakan untuk menyelesaikan hal-hal yang dapat dinilai manusia dalam beberapa detik, sehingga dapat menggantikan orang untuk melakukan tugas berulang, dan memiliki berbagai skenario aplikasi. Keseruannya termasuk menggunakan jaringan konfrontasi generatif untuk menghasilkan gambar, dan menggunakan pembelajaran penguatan untuk memainkan berbagai permainan. Model jenis ini memiliki tingkat kreativitas tertentu dan dapat digunakan untuk demonstrasi tingkat tinggi. Semua orang suka mendengarnya, tetapi penerapan teknologinya saat ini agak tidak jelas.

Kami berharap mahasiswa dapat menguasai dan menggunakan model umum setelah menyelesaikan mata kuliah ini. Tidak peduli apakah mereka pergi ke industri untuk menemukan posisi yang relevan atau melanjutkan studi untuk studi lanjutan, mereka dapat meletakkan dasar yang kokoh. Jadi silabusnya bias pada keterampilan praktis dan dasar.

Tetapi kita tidak dapat membuka kursus yang sepenuhnya praktis. Hanya mengajarkan berbagai konstruksi jaringan saraf mungkin sama konyolnya bagi siswa Berkeley yang cerdas karena ada empat cara untuk menulis Huizi. Di kelas, kita tidak hanya harus berbicara tentang BAGAIMANA, tetapi juga menjelaskan MENGAPA. Tetapi tidak banyak pekerjaan teoritis dalam pembelajaran mendalam, dan ada kemungkinan besar akan ditampar wajah dalam beberapa hari ketika penjelasan diajukan hari ini. Oleh karena itu, di kelas kita hanya bisa mengemukakan pendapat semua pihak, menambahkan pendapat sendiri-sendiri, kemudian mengingatkan setiap orang untuk memiliki semangat diskriminasi, karena tebakan yang disebutkan hari ini mungkin saja salah. Selain itu, kami telah menambahkan beberapa pengetahuan klasik dan teori matematika terkait, pembelajaran statistik, dan pengoptimalan untuk meningkatkan kedalaman.

Poin penting lainnya selain poin pengetahuan adalah kemampuan praktis. Metafora yang sangat saya sukai adalah bahwa akumulasi pengetahuan adalah memori, dan kecepatan tangan adalah CPU. Memori menentukan seberapa besar program dapat dijalankan (kedalaman pekerjaan), dan CPU menentukan seberapa cepat program dapat dijalankan. Untuk pemula, CPU lebih penting daripada memori, karena memori dapat dipinjam dari orang lain. Misalnya, dalam proyek kursus, Alex, asisten pengajar dan saya bertindak sebagai tanggung jawab memori. Namun, CPU tidak dapat dipinjam. Jika Anda tidak dapat melakukannya, Anda tidak akan dapat menyelesaikan proyek kursus, dan penyelesaian pekerjaan rumah dapat ditangguhkan.

Dalam kursus ini, pada dasarnya kita telah melalui implementasi kode untuk setiap algoritma yang disebutkan. Beberapa yang dasar bahkan merupakan dua implementasi yang berbeda. Yang satu mudah dipahami dari awal, dan yang lainnya digunakan dalam praktik. Saya merasa bahwa setidaknya separuh waktu di seluruh kursus ada pada kode. Masalahnya adalah poin-poin pengetahuan yang dibahas kurang. Namun kelebihannya adalah setiap poin telah dijelaskan secara detail. Secara umum, rumus dan gambar adalah yang pertama berbicara tentang ide desain model dan keterkaitan serta perbedaan dengan model lain yang serupa. Kemudian muncul kode, berbicara tentang implementasi detail, menjelaskan input dan output data dari setiap modul, dan mendemonstrasikan efek eksperimental di situs. Ini juga merupakan metode pembelajaran yang secara pribadi saya yakini. Pertama-tama selami untuk memahami semua detail, lalu cari dan pikirkan tentang pemikiran di baliknya.

Jadwal setiap kelas ditunjukkan di bawah ini (atau klik Menurut Alex, kami mencakup 20% konten pembelajaran mendalam. Saya membaca beberapa makalah, jadi saya merasa lebih optimis bahwa kami mencakup 60% topik dan 50% poin pengetahuan penting di setiap topik, jadi ada juga 30% konten. Untuk kursus pengantar, ini cukup kaya.

Buku pelajaran

Kami menulis buku teks pembelajaran mendalam dengan tangan dua tahun lalu. Situasinya adalah buku Ian Goodfellow adalah buku pengantar terbaik saat itu, baru dan komprehensif. Tetapi itu hanya mendeskripsikan model umum tanpa menjelaskan bagaimana sebenarnya menggunakannya dan seberapa efektif mereka. Dan sepertinya itu belum diperbarui selama beberapa tahun. Pada saat yang sama, banyak sekali artikel tentang implementasi model di Internet, namun terlalu bertebaran dan setiap orang memiliki gaya penulisan yang berbeda. Kami menginginkan sebuah buku yang dapat berbicara tentang prinsip-prinsip, memiliki penerapan dan penggunaan praktis, terus diperbarui, dan mudah dibaca.

Dalam eksplorasi dua tahun terakhir, buku teks ini telah mengambil beberapa langkah maju dalam pengertian tradisional:

Setiap bab dari buku ini menggunakan kata-kata, matematika, grafik, dan kode untuk memperkenalkan poin pengetahuan dalam banyak cara. Ini adalah notebook Jupyter dan dapat berjalan secara independen. Berisi sekitar 20 blok teks dan kode, yang dapat dibaca dalam waktu sekitar 15 menit.

File sumbernya adalah penurunan harga, keluaran eksekusi tidak disimpan, dan bersumber terbuka di Github. Ini mempermudah lebih banyak orang untuk berkontribusi dan meninjau perubahan, dan mudah untuk menambahkan bab baru secara terus menerus.

Setiap perubahan akan memicu layanan integrasi berkelanjutan untuk menjalankan kembali Notepad untuk mendapatkan keluaran eksekusi, sehingga memastikan kebenaran kode. Waktu eksekusi notepad dikontrol tidak lebih dari sepuluh menit. Ini cukup menantang untuk mendemonstrasikan pelatihan model yang kompleks.

Setelah eksekusi benar, maka langsung dipublikasikan di Internet dalam tiga format: notebook Jupyter dengan keluaran eksekusi, HTML untuk browsing langsung, dan PDF sesuai untuk pencetakan.

Anda dapat dengan mudah mengindeks grafik, tabel, rumus, dan dokumen seperti LaTeX.

Setiap bab memiliki tautan untuk didiskusikan.

Versi bahasa Inggris dari buku tersebut saat ini diterbitkan di dan versi Mandarin di

Banyak implementasi kode dalam buku ini didasarkan pada MXNet (tujuan awalnya adalah menulis dokumen yang baik untuk MXNet), dan kami juga telah mempertimbangkan apakah akan menyediakan versi PyTorch atau Keras. Belakangan saya menemukan bahwa kekhawatiran ini berlebihan. Kerangka kerja adalah alat, dan kesulitan yang disebabkan oleh perbedaan antar alat jauh lebih kecil daripada memahami model dan mengingat hasil. Di kelas, saya menemukan bahwa bahkan siswa yang belum pernah menggunakan alat ini menggunakan MXNet untuk mengerjakan pekerjaan rumah mereka, dan kemudian mengembangkan dan mengerjakan proyek berdasarkan algoritme yang ada, apa pun kerangka kerja yang mereka gunakan. Dengan kata lain, kesulitan tidak datang dari tool itu sendiri, apalagi implementasi algoritmanya sudah dijelaskan di kelas.

Slideshow

Buku teks untuk siswa baca sebelum dan sesudah kelas. Bahan ajar perlu diubah menjadi slide selama kelas. Meskipun saya berpikir apakah buku teks dapat langsung menghasilkan slide secara otomatis, tetapi saya tidak menemukan cara yang sangat baik. Alasannya, penyajian buku dan slide sangat berbeda. Teks dalam buku ini ditulis, terperinci, dan ketat. Slide diucapkan, sederhana, dan jelas.

Misalnya, gambar di bawah ini adalah bagian dari buku yang memperkenalkan deteksi objek dan kotak pembatas.

Dalam versi slideshow, pertama saya perkenalkan pengenalan objek dalam dua halaman, halaman pertama menyoroti perbedaan antara klasifikasi gambar dan klasifikasi gambar sebelumnya, lalu aplikasi sebenarnya (omong-omong, saya akan memperkenalkan aplikasi penggerak otomatis). Lalu ada halaman transisi yang menunjukkan permulaan unit, dan pengantar singkat ke kotak pembatas. Dibandingkan dengan buku, slide lebih sederhana dalam penyajian dan menekankan kejelasan.

Berdasarkan gagasan ini, teks dari setiap bagian dalam buku dibuat ulang menjadi unit slide. Umumnya sekitar 5 halaman, setiap halaman dalam perkuliahan rata-rata membutuhkan waktu 2 menit. Kemudian hapus teks untuk menyimpan kode, dan gunakan Jupyter untuk membuat peragaan slide.

Lihat contoh ini: https://nbviewer.jupyter.org/format/slides/url/courses.d2l.ai/berkeley-stat-157/slides/4_30/gd-sgd.ipynb#/

Biasanya unit kode terdiri dari 10 halaman, dan satu halaman rata-rata membutuhkan waktu satu menit.

Dengan cara ini, setiap bagian buku dibuat menjadi dua unit slide, totalnya 20 menit. Di Berkeley, satu pelajaran adalah 80 menit, dan satu pelajaran bisa menjadi 4 pelajaran. Total 26 kelas diajarkan, sekitar 100 pelajaran diajarkan, yang pada dasarnya mencakup seluruh buku.

Video kursus

Kursus pembelajaran mesin seperti video (mungkin Andrew Ng membuat awal yang baik). Video tersebut memiliki dua adegan, satu bagian utama slide, dan dosen di bagian pojok. Badan utama lainnya adalah papan tulis.

Dalam beberapa tahun terakhir, kami telah mencoba berbagai metode DIY untuk merekam video semi-profesional dengan peralatan murah. Gambar di bawah menunjukkan peralatan yang digunakan saat ini.

Rekaman video menggunakan 4K mikro-tunggal , yang ditempatkan pada tripod 4 meter di depan podium , dan dihubungkan ke notebook dengan kabel HDMI dan kepala transkripsi . 4K terutama disiapkan untuk adegan dua, tetapi karena papan tulis di kelas yang kami pesan tidak terlalu bagus, adegan ini tidak banyak digunakan, dan kami sering lupa beralih di ruang kelas. Belakangan diketahui ponsel praktisnya sudah cukup, seperti aplikasi iPhone plus EpocCam, lalu diletakkan di bagian belakang notebook dengan tripod kecil. Ini sangat mengurangi peralatan yang harus dibawa setiap saat dan mengurangi biaya peralatan. Tapi hati-hati jangan sampai menggunakan kamera depan yang disertakan dengan notebook, efeknya tidak akan berfungsi.

Kualitas suara sangat penting. Jangan gunakan mikrofon yang disertakan dengan notebook, karena orang tidak dapat mendengar dengan jelas jika mereka berada agak jauh. Kami menggantungkan mikrofon nirkabel di tubuh kami connect, menghubungkannya ke hub and, lalu menghubungkannya ke laptop. Belakangan, saya menemukan bahwa jika Anda tidak sering bergerak, menggunakan mikrofon tetap berfungsi dengan baik, dan mudah untuk dihubungkan (yang kami beli terutama untuk MOOC, yang lebih berat, jika Anda ingin membawanya, Anda dapat membeli yang lebih kecil).

Perangkat lunak perekaman menggunakan OBS, yang biasa digunakan oleh jangkar permainan. Bertenaga, tetapi tidak terlalu stabil, dan menghabiskan sumber daya, terutama saat banyak perangkat terhubung. Oleh karena itu, MacBook Pro kelas atas baru digunakan untuk memastikan bahwa MacBook Pro tidak akan dipindahkan kecuali di kelas, dan tersedia cukup sumber daya komputasi untuk menjalankan program di situs. Kemungkinan kesalahan OBS tidak kecil, disarankan untuk memeriksa apakah pencatatan normal di awal dan di tengah. Jika tidak, akan sangat menyakitkan untuk merekam ulang video karena tidak ada siswa yang hadir dan suasananya sangat berbeda.

Keyboard fisik sangat nyaman. Satu tombol dikonfigurasi untuk memulai dan menghentikan perekaman, dan dua lainnya untuk mengganti adegan. Keuntungan utamanya adalah latar belakang LED menunjukkan status saat ini, dan Anda dapat memeriksa apakah perekaman normal dari waktu ke waktu. Karena setiap unit merekam satu video, sebuah pelajaran biasanya merekam 7 atau 8, dan beberapa pelajaran pertama sering kali lupa untuk memulai. Keyboard ini dapat memeriksa apakah rekaman normal dari waktu ke waktu. Namun menurut saya cara yang lebih baik adalah menggunakan iPad sebagai layar tambahan dan meletakkan OBS di atasnya sehingga Anda benar-benar dapat melihat status perekaman.

Biasanya kami mengupload video kursus ke YouTube dalam satu atau dua hari. Namun hal ini secara langsung menyebabkan penurunan tajam jumlah siswa yang datang ke kelas. Siswa yang bersikeras untuk datang ke kelas mungkin lebih termotivasi untuk belajar. Setiap kali mereka berinteraksi, mereka merasa bahwa setiap orang memiliki pemahaman yang baik tentangnya, yang mengarah pada berbicara terus-menerus dan pada dasarnya menyelesaikan keseluruhan buku. Ini 20% lebih banyak dari rencana awal. Saya rasa akan lebih baik untuk mengupload video setelah seminggu, sehingga siswa perlu datang ke kelas untuk menyelesaikan pekerjaan rumah untuk diserahkan seminggu kemudian, sehingga mudah untuk memahami ritme di kelas.

Lingkungan komputer

Sebagian besar pelatihan model dalam pembelajaran mendalam memerlukan GPU untuk berakselerasi, tetapi siswa biasanya tidak memiliki GPU mereka sendiri (tentu saja menurut mereka tidak demikian. Banyak siswa menunjuk ke kartu grafis terintegrasi Intel yang ditampilkan di sistem mereka setelah kelas untuk memberi tahu saya, lihat saya Ini memiliki GPU). Cara mudah adalah dengan menggunakan Google Colab (K80 disediakan pada saat itu, tetapi sekarang menjadi T4), tetapi hanya satu tugas yang dapat dilatih pada saat yang sama. Pekerjaan rumah baik-baik saja, tetapi item kursus tidak cukup. Cara lain yang kami sediakan adalah dengan menggunakan instans GPU di AWS, dan kami menyediakan pendanaan.

Mengajar siswa menggunakan contoh GPU di cloud lebih sulit daripada yang dibayangkan. Meskipun saya telah belajar sendiri di kelas, saya telah menanyakan cara menggunakan cloud sejak lama. Dan banyak siswa sering lupa membuka instans, atau menggunakan instans GPU yang sangat mahal, yang mengakibatkan tagihan yang sangat tinggi di akhir bulan (seorang kolega mengeluh kepada saya beberapa hari yang lalu bahwa seorang siswa dari proyek yang didanai Saya bergegas ke sebuah koran dan membakar 300.000 dolar AS di AWS. Guru secara alami tidak mampu membelinya, jadi kami harus menebusnya. Itu hampir mengosongkan dana kami sepanjang tahun).

Dalam kursus ini, kami mungkin mengeluarkan kode penebusan AWS sebesar $ 30.000. Masalah utamanya adalah para siswa bertanya kepada saya apa yang saya inginkan, dan kemudian saya menjawab secara manual dan mengirim ratusan email. Saya juga harus menjawab pertanyaan seperti mengapa tidak bisa ditukar. Karya ini masih memikirkan bagaimana cara meningkatkannya.

PR dan ujian

Kami memberikan total 10 pekerjaan rumah, satu pekerjaan rumah per minggu. Kebanyakan dari mereka adalah masalah implementasi kode. Operasi diperkirakan memakan waktu setengah hari. Untuk beban kerja yang berat, kami membiarkan setiap tim proyek kursus bekerja sama untuk menyelesaikannya. Dengan cara ini mereka dapat membiasakan diri dengan setiap anggota tim sebelumnya. Untuk tugas individu, kami mendorong diskusi, tetapi setiap orang perlu menuliskan jawaban mereka sendiri.

Beberapa tugas populer berpartisipasi dalam kompetisi Kaggle. Kami menyediakan model dasar dan beberapa ide perbaikan, kemudian siswa menyesuaikan parameter dan mengunggah skor hasil prediksi. Setelah itu, kami akan memeringkat tiga tim teratas, dan setiap tim akan diberi hadiah kode penukaran AWS sebesar $ 500.

Dua dari sepuluh tugas ini tidak dirancang dengan baik. Itu semua adalah pertanyaan pelatihan model, tetapi kami tidak menerapkannya sebelumnya dan menjalankannya lagi. Kami tidak mengharapkan satu pertanyaan menjadi terlalu mudah dan terlalu sulit. Saya masih tidak bisa mencuri ini dengan malas lain kali.

Hanya ada ujian tengah semester, sehingga setiap orang memiliki lebih banyak waktu untuk mengerjakan proyek di akhir semester. Ujian terbuka, tetapi Anda tidak dapat membawa komputer. Salah satu pertanyaannya adalah bagian dari kode pelatihan LeNet, dan 6 tempat sengaja dikoreksi agar semua orang menunjukkan masalahnya. Secara keseluruhan, semua orang melakukan pekerjaan dengan baik, yang menunjukkan bahwa poin pengetahuan dari paruh pertama kursus dikuasai dengan baik. Jika diizinkan, saya masih merekomendasikan ujian akhir untuk mendorong siswa meninjau paruh kedua kursus.

Proyek Kursus

Item kursus menyumbang setengah dari nilai kursus, yang sangat kami sukai. Karena menerapkan pengetahuan yang dipelajari untuk secara kreatif memecahkan masalah yang menarik adalah pengalaman belajar terbaik yang dapat kami berikan. Tapi itu tidak mudah bagi guru dan siswa.

Dalam pengalaman kami sebelumnya, siswa yang memilih untuk bekerja sendiri seringkali berakhir dengan tidak berhasil, kali ini kami memaksa sebuah proyek untuk memiliki setidaknya empat anggota. Di kelas pertama, Alex meminta setiap orang untuk meluangkan waktu tiga menit untuk mengenal orang yang duduk di samping, dan kemudian menghabiskan tiga menit untuk mengenal orang yang duduk di belakang, sehingga mudah bagi siswa untuk membentuk tim ketika mereka tidak memiliki kenalan di kelas. Jika kami benar-benar ditempatkan di bagian akhir, kami akan menambahkan orang secara acak ke tim dengan sejumlah kecil orang. Pada akhirnya, ada total dua puluh proyek.

Mengingat bahwa mahasiswa mungkin kurang pengalaman proyek, kami telah menyiapkan beberapa tautan perantara. Termasuk skor 10% untuk topik yang ditetapkan dalam tiga minggu, pidato tengah semester dan laporan tengah semester (skor 20%) diperlukan di 1/3 kursus, dan pertemuan dengan asisten pengajar untuk membahas proyek (skor 10%) diperlukan.

Kami mengamati bahwa kesulitan utama yang dihadapi siswa adalah meremehkan kesulitan proyek. Pertama-tama, pembelajaran mendalam telah sangat memperluas skenario aplikasi pembelajaran mesin. Gambar, video, audio, permainan, keuangan, perawatan medis, dan jejaring sosial pada dasarnya dapat diproses oleh jaringan saraf. Namun banyaknya data yang menarik dapat membawa banyak perhitungan (seperti video) dan beban kerja (seperti preprocessing data medis), yang jauh dari pemula.

Kedua, semua orang menyukai model yang menyenangkan, seperti model adversarial generatif dan pembelajaran penguatan. Namun, kedua jenis model tersebut lebih sulit untuk dilatih, misalnya dalam model adversarial generatif, perlu untuk mencapai keseimbangan Nash antara generator dan diskriminator, dan pelatihan sering tidak stabil. Namun silabus berfokus pada model praktis, sehingga kedua jenis model ini tidak disebutkan. Jadi siswa menemukan bahwa model yang mereka pilih jauh lebih sulit daripada yang mereka lihat di pekerjaan rumah dan kelas.

Terakhir, siswa menjadi sangat percaya diri dan memiliki tingkat kemampuan berbicara yang tinggi. Pidato semesteran berkualitas tinggi. Saya tidak hanya menyukai ide-ide dari beberapa proyek, tetapi saya juga berbicara dengan sangat baik. Misalnya, setiap proyek diberi waktu tiga menit untuk dilaporkan, dalam banyak kelompok, tiga orang bergiliran berbicara, masing-masing satu menit, jadi waktunya sangat tepat. Dibandingkan dengan lima tahun lalu, saya bekerja sebagai asisten pembelajaran mesin di CMU. Menurut saya, tahun ini sangat luar biasa. Ini sebuah keuntungan, tapi membuatku dan Alex terlalu optimis.

Titik balik terjadi setelah ujian tengah semester. Kami mulai mendorong siswa untuk fokus pada item kursus, dan selama waktu Tanya Jawab (dua jam per minggu), kami terutama menanyakan kepada mereka bagaimana kemajuan mereka. Di awal akan saya ceritakan beberapa pemikiran mereka, misalnya, berikut adalah makalah yang baru diterbitkan yang bisa Anda baca. Pada dasarnya, saya memiliki mentalitas bahwa saya dapat menerbitkan makalah atau membuat bisnis setelah saya menyelesaikannya. Setelah menggambar pai, kedua sisi sangat senang. Tapi tidak ada yang bisa membantu. Saya segera menemukan bahwa sebagian besar proyek berjalan lambat.Saya sering menemukan bahwa saya terjebak mencari data atau membaca makalah ketika saya memeriksa kemajuan setelah satu atau dua minggu.

Melihat kursus ini akan berakhir kurang dari sebulan, kami dan siswa mulai merasa sedikit cemas. Jadi waktu Tanya Jawab mingguan ditingkatkan menjadi 6 jam (3 jam sebelum setiap kelas), dan saya mengambil tanggung jawab manajer proyek (tidak bermoral). Tim dengan kemajuan yang tidak memuaskan akan sangat berhati-hati dan mengatakan setelah setiap obrolan, kembali untuk menyiapkan kopi Red Bull dan begadang, dan kami akan melihat kemajuannya dalam dua hari.

Minggu terakhir adalah yang paling menjengkelkan. Ketika sebuah tim akan membuat laporan dalam satu jam, mereka datang dan bertanya apakah model dari Internet dapat memprediksi data yang mereka ambil. Saya berkata, tidak, Anda harus "melatih" model ini. Ada juga siswa yang tidak mengerjakan apa pun dan kemudian mengatakan bahwa mereka melakukan ini atau itu.Mereka meminta departemen khusus peduli siswa sekolah untuk mengatakan apakah mereka dapat melakukan ini atau itu.

Sungguh menggembirakan bahwa beberapa proyek yang sangat kami khawatirkan akhirnya menemukan jalan keluarnya. Ada juga satu atau dua proyek yang sangat memprihatinkan pada awalnya tetapi sedikit kecewa di tengah, karena mereka merasa telah membuat jalan memutar dan tidak terlalu memperhatikan saran kami, tetapi akhirnya muncul dengan hasil yang menyenangkan. Hasil akhirnya lebih baik dari yang diharapkan.

Di saat yang sama, masih banyak hal yang bisa ditingkatkan:

Silabus perlu disesuaikan dengan pemilihan topik kurikulum siswa. Misalnya, meskipun kami secara khusus memindahkan BERT selama dua minggu dari akhir (beberapa kelompok mendapat manfaat), kami harus menambahkan model konfrontasi generatif ke konten.

Penting untuk membantu siswa dengan benar memperkirakan kompleksitas proyek secepat mungkin, dan dengan benar memperkirakan kemampuan mereka sendiri.

Komunikasi yang lebih baik dengan asisten pengajar memungkinkan mereka mengalokasikan lebih banyak waktu untuk membantu menyelesaikan beberapa masalah praktis dalam beberapa proyek. Saya pernah melihat kelas program sarjana di CMU. Setiap minggu siswa duduk dan membuat program bersama (mungkin menulis PR), lalu 5 atau 6 asisten pengajar akan langsung menjawab pertanyaan, saya rasa efeknya akan sangat bagus.

Di awal, perlu ditekankan bahwa laporan tugas akhir perlu mencantumkan kontribusi proyek masing-masing anggota, kemudian kami akan memberikan poin secara proporsional. Ini dapat mengurangi kebetulan beberapa siswa memegang ikan di perairan yang bermasalah.

Biaya waktu

Awalnya saya pikir membuka kelas itu mudah setelah buku teksnya sudah ditulis. Tetapi bahkan dalam kasus hanya setengah dari kelas, saya masih menghabiskan setengah dari waktu kerja saya setiap minggu. Kepala besar waktu meliputi:

Tayangan slide pelajaran memakan waktu lebih dari sepuluh jam, biasanya sepanjang akhir pekan dan dua hari kerja malam (karena butuh lebih banyak waktu untuk membawa bayi). Namun, saya mengamati bahwa Alex hanya membutuhkan waktu 2 atau 3 jam.

Karena bahasa Inggris lisan saya sangat umum dan saya tidak pandai berbicara, saya perlu menghabiskan dua atau tiga jam berlatih sebelum kelas. Sekalipun itu adalah ceramah bahasa Mandarin, perlu meluangkan waktu 30 menit sebelumnya untuk memikirkan bagaimana cara berbicara. Pada saat yang sama, saya juga mengamati bahwa Alex hanya perlu melihat-lihat slide selama sepuluh menit sebelum kelas.

Waktu untuk menjawab pertanyaan dan berkomunikasi dengan asisten pengajar adalah 3 jam per minggu di awal dan kemudian ditingkatkan menjadi 7 jam per minggu.

Balas email, unggah video, perbarui halaman web, dll. Satu jam seminggu.

Kursus ini telah memberiku beban yang berat. Saya juga sangat berterima kasih kepada keluarga, bos perusahaan, dan teman-teman saya yang telah mendukung proyek eksperimental "jangan berbisnis dengan benar" ini.

Untuk menyimpulkan

Sulit untuk mengambil jalan yang baik dan membutuhkan banyak waktu dan tenaga. Kursus klasik biasanya merupakan hasil dari akumulasi bertahun-tahun oleh beberapa guru. Ini sangat menantang untuk subjek baru deep learning. Saya berharap pengalaman kami dan jalan memutar yang telah kami lakukan dapat menginspirasi para guru dan siswa di masa depan.

Selain itu, semua materi terkait kelas dipublikasikan secara online menggunakan perjanjian CC BY-NC-SA 4.0 (gratis untuk tujuan non-komersial):

Situs kursus:

Semua courseware dan latihan: https://github.com/d2l-ai/berkeley-stat-157

Versi bahasa Inggris dari buku teks: dan versi bahasa Mandarin:

Terakhir, dan mungkin yang paling penting:

Jika Anda berencana menggunakan materi ini untuk mengajarkan kursus serupa, Anda bisa mendapatkan sumber daya komputasi AWS secara gratis. Terima kasih khusus kepada tim AWS China, Guru Fei, Shawn, Leo, Vivian, Kai Ge, Zhang Wei dan Xing Jin atas dukungan mereka. Untuk informasi khusus, silakan merujuk ke: Mendaftar untuk sumber daya komputasi gratis untuk pembelajaran atau pengajaran di buku ini (
Buku teks versi Cina akan dijual pada bulan Juni. Ada dua versi, versi deluxe penuh warna dan versi ekonomi hitam putih. Karena kami tidak mengambil biaya pembuatan naskah, kami bernegosiasi dengan penerbit untuk mencapai harga yang sangat rendah. Terima kasih kepada Aston dan editor kami Hai Ling atas upaya luar biasa mereka. Pra-penjualan tersedia di JD.com, Dangdang, dan Tmall.

Pekan Sains dan Teknologi Wuhan 2019 dimulai, serangkaian kegiatan sains yang luar biasa menanti Anda

Sebelumnya

Server Yidao diserang dan meminta Bitcoin! Pengguna tidak bisa mendapatkan mobil, dan pemiliknya menghadapi perlawanan lagi

Lanjut

: Terungkap bahwa film baru Marvel "Black Widow" mulai syuting, Scarlett kembali berperan sebagai agen wanita

: Petir, hujan, dan angin kencang! Beberapa distrik Beijing secara berturut-turut mengeluarkan alarm petir dan biru petir

: Bagaimana cara mengoptimalkan efek model klasifikasi gambar Anda?

: Wuchuan, Guizhou: Burung Bangau dan Burung Menari di Cabang

: Pria itu menangkap sepuluh kepiting two-jin dan langsung memasaknya, namun cara tersebut membuat netizen meloncat marah

: Tuhan yang menciptakan! Perawat wanita beralih ke membuat popok untuk burung, menghasilkan 30.000 sebulan! Orang asing datang untuk mengambil barangnya

: Huawei menyangkal bahwa "Hongmeng akan merilis sistem operasinya pada 24 Juni"; Microsoft Windows dihentikan untuk Huawei; ByteDance membuat smartphone | Lei Feng Morning Post

: Tentang biro hot pot tetapi menyimpang ke adegan pernikahan! Bisakah Anda membelinya untuk romansa di atap Desa Kota Shenzhen?

: Hotspot global | Trump bilang dia bisa bicara Iran menolak untuk menjadi rutinitas

: Pidato Wakil Presiden Huawei mengungkapkan tata letak terbaru Huawei di 5G Field Digital Expo 2019

: Mendekati penjaga tenaga nuklir di pantai Laut Cina Timur, mengungkapkan bagaimana polisi bersenjata "hidup berdampingan dengan tenaga nuklir" dalam 10 tahun terakhir?

: Apakah Anda masih menggunakan tangan saat memetik semangka? Ajari Anda cara untuk memastikan kulit tipis, berair dan manis

Li Mu: Mengajar Pembelajaran Mendalam di Berkeley

Informasi Terkait

Music of the Week | Lisa Ono mengambil alih Philadelphia Symphony dan memulai debutnya di opera Bizet "Pearl Plier"

tragedi! Sebelas orang telah meninggal di Gunung Everest dalam 10 hari terakhir Selamat: orang awam membunuh orang!

Harga unit pelanggan rata-rata adalah 600 yuan! Tahun ini Lego akan mendirikan 11 toko baru di pasar Guangshen

Lei Jun, yang berusia sekitar 50 tahun, kembali ke medan perang ponsel

520 juta harga setinggi langit! Satu kata bernilai 7000 yuan

Akselerator industri China Resources menetap di Qianhai, ruang bisnis ideal Gedung China Resources Qianhai dibuka

Panas dan saya tidak punya pakaian untuk dikenakan. Saya melakukan ini dan mengirim pesan teks kepada diri saya sendiri untuk direkam.

"Ingatkan" 380.000 kencan online telah ditipu, tetapi pembohong memintanya untuk menelepon polisi! Alasan yang tidak bisa Anda pikirkan

Li Bingbing mengajak keponakannya untuk membuat film blockbuster dengan senyuman manis

Mahasiswa Universitas Pertanian Sichuan jatuh dari gedung dan meninggal, polisi mengesampingkan pembunuhan