Karena operasi dan pemeliharaan yang berbahaya, Weimeng tidak aktif selama 36 jam. Bagaimana perusahaan dapat memperkuat kemampuan pencegahan risiko mereka?

Pada 25 Februari, Weimeng mengeluarkan pengumuman yang menyatakan bahwa data bisnis SAAS telah dirusak secara artifisial. Setelah penyelidikan, diketahui bahwa lingkungan produksi dan data bisnis SaaS perusahaan rusak oleh karyawan inti operasi dan pemeliharaan dari departemen operasi dan pemeliharaan pusat R&D grup, yang mengakibatkan ketidakmampuan sementara perusahaan saat ini untuk menyediakan produk SaaS kepada pelanggan ("lingkungan produksi SaaS dan pemusnahan data").

Perusahaan melaporkan kasus tersebut ke Biro Keamanan Umum Distrik Baoshan ("Biro Keamanan Umum Distrik Baoshan"), Shanghai, China pada 24 Februari 2020, dan karyawan tersebut telah ditahan secara kriminal oleh Biro Keamanan Umum Distrik Baoshan. Dalam artikel ini, InfoQ mengundang Yang Jianrong, pakar Tencent Cloud yang paling berharga dan co-sponsor komunitas dbaplus, untuk memberikan beberapa saran pencegahan risiko kepada perusahaan, dengan harapan dapat membantu para praktisi.

Berikut ini adalah teks lengkap dari jawaban Tuan Yang Jianrong:

Setiap kali kami melihat insiden data di industri, kami merasa lebih emosional, tetapi yang kami butuhkan lebih banyak adalah introspeksi, karena ini dapat membunyikan alarm kami. Tim teknis Weimob berasal dari tim wirausaha, dan secara bertahap menetapkan standar manajemen keamanan yang lebih matang. Tim ini memiliki sistem manajemen otorisasi hierarkis dan hierarkis yang jelas untuk server dan hak akses data. Meskipun kali ini terjadi kelalaian, namun sebenarnya adalah korban. Oleh.

Menurut pelacakan insiden, Tencent Cloud telah sangat mendukung Weimob sejak awal dan mengirimkan banyak pakar teknis untuk membantu Weimob dan pelanggannya terlepas dari biayanya, sehingga pemulihan dapat berjalan dengan lancar. Namun masalahnya adalah untuk memperbaiki dan memperbaiki, serangkaian proses, sistem, dan teknologi diperlukan untuk saling melengkapi, dan ini merupakan proses perbaikan yang bertahan lama. Milan Kundera pernah berkata: Jangan pernah berpikir bahwa Anda bisa lolos, karena setiap langkah menentukan hasil akhir.

Dari pemahaman pribadi, karena lingkungan yang terlibat rumit dan melibatkan banyak tim, diperlukan waktu untuk memulihkan efisiensi dan verifikasi. Dalam hal pemulihan data, ada aturan tidak tertulis bahwa data dapat hilang sampai batas tertentu, tetapi tidak dapat dikacaukan. Data yang hilang dapat diperbaiki dengan cara lain, tetapi jika datanya kacau, patokan perbaikan akan hilang. Karena ini adalah operasi yang berbahaya, maka akan lebih sulit untuk dipulihkan.

Selanjutnya, saya akan menjelaskan bagaimana meminimalkan kerugian dalam kecelakaan tersebut melalui tiga aspek: proses, teknologi, dan sistem, dengan harapan dapat membantu perusahaan.

1. Proses

1. Tingkatkan proses kegagalan bor dan selesaikan secara kolaboratif sebagai tujuan bersama, agar menjadi sibuk dan tidak kacau

Banyak perusahaan akan meragukan kegagalan bor, karena ini akan membawa beberapa potensi bahaya yang tersembunyi, semakin tidak dapat bergerak, tidak berani bergerak, ketika ada masalah, semakin rendah efisiensi perbaikan, semua orang dan tim lebih memperhatikan bagian mereka sendiri Pekerjaan jelas mengabaikan beberapa tautan terkait, sehingga kami dapat mengatur proses dan spesifikasi bor kesalahan, memilah dan memperkuat ini, dan menjadi sibuk dan tidak kacau saat menangani masalah.

2. Perbaiki proses respons kesalahan, dan orang yang bertanggung jawab akan melakukan intervensi di berbagai tingkat sistem masalah

Mengapa kemajuan perbaikan banyak masalah tidak terkendali? Di satu sisi, kerja tim diperlukan; di sisi lain, untuk sementara waktu mengkoordinasikan dan membiasakan dengan masalah. Efisiensi pemecahan masalah relatif rendah. Anda dapat mempertimbangkan untuk memperkenalkan klasifikasi kesalahan, memberi tahu tim terkait tepat waktu, dan memperlakukan beberapa masalah sebagai tautan pra-pemrosesan Akses terlebih dahulu.

3. Operasi operasi dan pemeliharaan perlu dilaporkan

Operasi dan pemeliharaan tidak melakukan operasi yang tidak dipersiapkan, jangan melakukan operasi penyumbatan (seperti sementara melengkapi beberapa skrip yang belum diuji), operasi penting dan operasi utama perlu dilaporkan dan diberitahukan tepat waktu, mengubah pasif menjadi aktif.

4. Memperkenalkan proses audit untuk mewujudkan mekanisme audit layanan independen

Tautan audit adalah tautan independen yang relatif penting, dan mekanisme audit layanan dapat diperkenalkan, dan potensi bahaya tersembunyi dapat ditemukan melalui layanan audit independen dan masalah dapat diperbaiki pada waktunya.

5. Peringatan dini kelainan bisnis, perlu menyinkronkan lapisan tautan terkait

Untuk pengecualian tingkat bisnis, peringatan dini bisnis sangat penting. Peringatan dini dan sinkronisasi ke tautan yang relevan dapat menghindari longsoran sistem.

2. Teknologi

1. Tingkatkan sistem pencadangan dan pemulihan agar pemulihan dapat dikontrol dan efisien. Misalnya, backup dasar (full backup dan incremental backup) dan hot data recovery (teknologi flashback berbasis binlog)

Pembangunan sistem pencadangan dan pemulihan adalah dasar dari konstruksi basis data dan langkah terakhir untuk mengukur ketersediaan layanan. Ini sepenuhnya menggabungkan pencadangan penuh dan pencadangan tambahan untuk meningkatkan efisiensi pemulihan.

Misalnya, berikut ini adalah skema pencadangan penuh dan pencadangan inkremental, yang menerapkan pencadangan penuh sekali dan selalu strategi implementasi inkremental, lalu menerapkan flashback berbasis binlog atas dasar ini.

2. Pemulihan lingkungan cluster adalah link lemah dari sistem

Layanan sistem bergantung satu sama lain. Ini adalah sesuatu yang sebelumnya hanya sedikit diperhatikan orang, jadi tidak ada keraguan bahwa ini adalah tulang yang keras dan kita perlu fokus padanya.

3. Gunakan teknologi recycle bin untuk mencegah penghapusan yang berbahaya / tidak disengaja

Pencadangan dapat menyelesaikan beberapa pemulihan data dalam kondisi tidak normal, tetapi efisiensinya relatif rendah Dari sudut pandang standar, bagaimana menghindari operasi yang berbahaya dan menggunakan metode pemrosesan yang lebih elegan dan terkendali adalah masalah yang perlu kita pikirkan.

Operasi Jatuhkan dikirimkan secara default dan tidak dapat diubah. Ini identik dengan melarikan diri dalam operasi basis data. Saat ini tidak ada fungsi pemulihan operasi Jatuhkan yang sesuai di tingkat MySQL, kecuali jika dipulihkan melalui cadangan, tetapi kami dapat mempertimbangkan untuk mengonversi operasi Jatuhkan menjadi satu. Operasi DDL yang dapat dibalik.

Secara default, setiap tabel di MySQL memiliki file ibd yang sesuai. Faktanya, operasi Drop dapat diubah menjadi operasi ganti nama, yaitu file dimigrasi dari testdb ke testdb_arch; dari perspektif izin, testdb_arch tidak terlihat oleh bisnis, dan operasi penggantian nama bisa lancar Untuk mencapai fungsi hapus ini, jika dipastikan dapat dibersihkan setelah jangka waktu tertentu, pembersihan data tidak terlihat oleh proses bisnis yang ada, seperti yang ditunjukkan pada gambar berikut.

Selain itu, ada dua saran tambahan, yaitu mempertimbangkan perubahan online selama periode puncak rendah sebanyak mungkin untuk perubahan tabel besar, seperti menggunakan alat pt-osc atau perubahan pada periode pemeliharaan. Saya tidak akan mengulanginya di sini.

4. Pengaturan izin layanan, perlu menentukan izin klien

Ini adalah praktik umum di industri Internet untuk mengelola database utama dan database cadangan berdasarkan bisnis. Banyak perusahaan umumnya memberikan kewenangan yang lebih besar untuk pengoperasian dan pemeliharaan, yang juga merupakan risiko potensial yang menyebabkan banyak kegagalan.

Dalam hal ini, kita dapat merujuk pada gambar desain berikut (dari guru Zhang Wenyu), yang dapat digunakan dalam banyak tautan untuk meningkatkan masalah otoritas.

3. Sistem

Sistem ini relatif ketat dan acuh tak acuh.Kita dapat menemukan beberapa titik keseimbangan antara spesifikasi teknologi dan proses untuk membantu sebagai landasan sistem. Misalnya, pengaturan tingkat keamanan kata sandi, pengenalan sistem persetujuan untuk manajemen otoritas, dll., Tidak akan diulangi di sini.

Kata penutup

Akhirnya, saya berharap semua praktisi teknis dapat mematuhi etika profesional, dan bahwa semua perusahaan dapat memiliki kesadaran pencegahan risiko dan secara efektif mengurangi kerugian dalam insiden semacam itu.

tentang Penulis:

Yang Jianrong, pakar Tencent Cloud yang paling berharga, sponsor bersama komunitas dbaplus, Oracle ACE, senior DBA dari Competitive World

Ikuti saya dan teruskan artikel ini, kirimkan saya pesan pribadi untuk "menerima informasi", Anda bisa mendapatkan buku mini InfoQ gratis senilai 4999 yuan!

Di era Aplikasi, bagaimana cara mengatasi masalah keamanan privasi pribadi dari hampir 900 juta pengguna Internet?

Sebelumnya

Istri di garis depan, suami penjaga Beijing, polisi medis keluarga pasangan: kebanyakan ingin pulang untuk melihat anak-anak mereka

Lanjut