[Lieyun.com (WeChat ID :)] Laporan 14 November (kompilasi: Zhang Lulu)
Catatan: Ivy Nguyen, penulis artikel ini, adalah investor di Zetta Venture Partners. Dia adalah asisten senior di NewGen Capital dan mengelola proyek akselerator startup di ImageH2O. Pada artikel ini, berdasarkan latar belakang era ledakan data saat ini, penulis membahas pentingnya data untuk start-up, dan menganalisis masalah biaya dari berbagai proses pengumpulan, penyimpanan, pengelolaan, dan pemodelan data, serta mengusulkan beberapa kemungkinan metode penghematan biaya. .
Saat ini, data secara bertahap telah menjadi "lonceng emas" bagi para pemula AI: semakin banyak data yang dikumpulkan, semakin baik model AI yang dapat dilatih, sehingga menyulitkan pesaing pasar baru untuk mencocokkan. Namun, data ini tidak tersedia secara gratis, dan banyak startup AI percaya bahwa biaya tambahan ini telah sangat mengikis keuntungan mereka. Seiring waktu, perusahaan ini mungkin ingin mengurangi investasi mereka dalam data, tetapi tidak jelas bagaimana memprediksi kapan situasi ini akan terjadi, dan sejauh mana, hal ini meningkatkan kemampuan perusahaan untuk memodelkan pertumbuhan di masa depan. Kesulitan.
Dalam startup perangkat lunak, biaya pengembangan produk dikaitkan dengan biaya R&D pada laporan laba rugi, sementara startup AI menggunakan biaya data sebagai bagian dari harga pokok penjualan (COGS). Pendekatan terakhir membantu perusahaan menemukan Peluang untuk memperluas skala sekaligus mengurangi biaya, sehingga meningkatkan profitabilitas.
Diagram alir rantai nilai data di bawah ini menunjukkan bagaimana sebagian besar startup AI memperoleh dan menggunakan data. Pertama, perusahaan mencatat penggalan fakta dasar sebagai data mentah. Perusahaan dapat menyimpan data asli di suatu tempat, dan kemudian menetapkan proses atau cara untuk pemeliharaan dan akses. Sebelum menerapkan model AI, perusahaan perlu memberi label pada data tersebut agar model AI dapat mengimplementasikan perilaku pemrosesan setiap titik data. Selanjutnya, model yang terlatih menerima data dan menghasilkan umpan balik, yang dapat digunakan perusahaan untuk melakukan tindakan yang mendorong perilaku tertentu dari pengguna akhir. Prosesnya dapat dibagi menjadi tiga langkah berbeda: mendapatkan data, menyimpan data, dan memberi label data untuk melatih model. Setiap langkah akan dikenakan biaya yang sesuai.
Biaya pengumpulan data
Di semua rantai nilai data, ketika sensor apa pun (baik perangkat fisik atau manusia) mengumpulkan data mentah, pertama-tama sensor tersebut perlu menangkap pengamatan atas realitas. Dalam hal ini, biaya pengumpulan data berasal dari pembuatan, distribusi, dan pengoperasian sensor. Jika sensor adalah sejenis perangkat keras, perusahaan harus mempertimbangkan biaya bahan dan pembuatan; jika sensor adalah manusia, biaya tersebut berasal dari rekrutmen personel dan alat yang mereka butuhkan untuk membuat dan mencatat pengamatan. Bergantung pada area cakupan, perusahaan mungkin perlu membayar banyak biaya untuk mendistribusikan sensor. Tidak hanya itu, dalam beberapa kasus penggunaan, pengumpulan data frekuensi tinggi mungkin diperlukan, yang juga dapat meningkatkan biaya tenaga kerja dan pemeliharaan. Misalnya, Nielsen, sebuah perusahaan pengukur penonton, perlu menanggung semua biaya di atas karena tidak hanya menyediakan kotak pengumpulan rating, tetapi juga menanggung biaya lisensi untuk mendapatkan penonton program menonton TV. Dengan cara ini, karena cakupan menjadi lebih luas dan lebih luas, data Nielsen menjadi lebih berharga, dan skala ekonomi secara alami mengurangi biaya pengumpulan data unit.
Dalam beberapa kasus penggunaan, perusahaan menyediakan alat kepada pengguna akhir untuk mengelola alur kerja (misalnya, generator respons email otomatis), menyimpan data yang mereka ambil dalam alur kerja mereka, atau mengamati interaksi mereka dengan alat dan menggunakannya Dicatat sebagai data, sehingga dapat mentransfer pekerjaan dan biaya pengumpulan data ke pengguna akhir. Jika perusahaan memilih untuk mendistribusikan alat ini secara gratis, maka biaya pengumpulan data akan menjadi biaya untuk mendapatkan pengguna. Atau perusahaan dapat memilih untuk mengenakan biaya untuk alat alur kerja. Pendekatan ini dapat memperlambat dan membatasi adopsi pelanggan, sehingga mengimbangi biaya pengumpulan data sekaligus mengurangi pengumpulan data. Pengurangan dan pembatasan spesifik akan bergantung pada perusahaan Penetapan harga.
Misalnya, salah satu portofolio investasi perusahaan kami, perusahaan data besar InsideSales, menyediakan platform bagi perwakilan penjualan untuk terhubung langsung dengan prospek penjualan. Dalam proses penggunaan oleh perwakilan penjualan, platform akan secara otomatis merekam data interaktif, seperti waktu, mode, metadata lainnya, dan apakah prospek penjualan di saluran penjualan sedang berkembang. Data ini akan digunakan untuk pelatihan model AI untuk menghitung waktu komunikasi terbaik dan metode komunikasi untuk menghubungi calon pelanggan. Dalam hal ini, karena semakin banyak pengguna yang menetap di platform, efek jaringan cenderung meningkatkan utilitas alat, sehingga mengurangi biaya untuk mendapatkan pengguna.
Cara lain adalah dengan memastikan bahwa pembentukan kemitraan strategis dapat mengurangi biaya lebih lanjut ketika entitas lain telah membentuk saluran pengumpulan data. Misalnya, perusahaan kami yang lain, Tractable, menggunakan visi komputer untuk mengotomatiskan regulator asuransi mobil. Perusahaan saat ini bekerja sama dengan beberapa perusahaan asuransi mobil terkemuka di industri untuk mengembangkan teknologi untuk mendapatkan gambar mobil rusak. Selain itu, kami tidak perlu meminta pemilik mobil mengunduh aplikasi, sehingga menghemat biaya promosi aplikasi.
Biaya penyimpanan dan manajemen
Dalam hal penyimpanan dan akses data, startup juga menghadapi masalah biaya. Selain pengumpulan data, perusahaan mungkin juga membutuhkan pelanggan untuk menyediakan data relevan lainnya untuk memperkaya model. Karena banyak industri baru-baru ini secara bertahap mencapai digitalisasi, setiap pelanggan potensial yang memiliki data yang dibutuhkan oleh perusahaan tidak boleh diremehkan. Untuk memperoleh data tersebut, perusahaan mungkin menghabiskan banyak tenaga dalam penyusunan data dengan margin keuntungan yang rendah.
Selain itu, jika data didistribusikan dalam sistem dan silo yang berbeda, maka perusahaan mungkin perlu menghabiskan banyak waktu untuk membangun setiap integrasi, sehingga model berfungsi penuh. Beberapa industri dibangun di sekitar tumpukan teknologi yang monolitik dan heterogen, membuat integrasi sulit untuk digunakan kembali di antara pelanggan. Jika penyedia layanan integrasi tidak tersedia, maka startup AI akan segera berada dalam kesulitan: Hanya dengan membangun integrasi yang disesuaikan untuk setiap pelanggan baru, sistem AI-nya dapat diterapkan. Cara data terstruktur juga dapat bervariasi dari pelanggan ke pelanggan, yang mengharuskan insinyur AI menghabiskan waktu ekstra untuk menormalkan data atau mengubahnya menjadi model standar untuk menerapkan model AI. Perusahaan dapat mengurangi biaya dengan membentuk perpustakaan terintegrasi publik karena dapat digunakan kembali pada pelanggan baru.
Biaya pelatihan
Sebagian besar metode untuk membangun model AI memerlukan anotasi data, yang merupakan salah satu biaya terbesar dan paling variabel untuk startup AI. Jika contoh-contoh ini lugas atau mudah dipahami, orang awam dapat menandainya. Misalnya, gambarkan beberapa apel di gambar, lalu buat kotak di sekeliling semua apel untuk ditandai sebagai layanan tenaga kerja outsourcing.
Namun terkadang, anotasi memerlukan lebih banyak keahlian dan pengalaman, seperti menentukan kualitas dan kematangan apel berdasarkan petunjuk visual, atau menilai apakah titik kecil berkarat di anjungan minyak berisiko. Untuk tenaga kerja yang lebih profesional ini, perusahaan mungkin perlu membentuk tim pelabelan ahli internal dengan bayaran tinggi. Bergantung pada metode pelabelan perusahaan, mungkin juga perlu untuk membangun alat alur kerja pelabelannya sendiri, meskipun perusahaan seperti Labelbox sudah mulai menyediakan alat tersebut.
Pada beberapa aplikasi AI, pengguna akhir akan menjadi pemberi tag yang paling efektif.Perusahaan dapat mendesain produk untuk mengurangi biaya penandaan sehingga pengguna dapat menandai data saat berinteraksi dengan produk. Misalnya, Pembuat menyediakan penelusuran situs web kecerdasan buatan untuk e-niaga, mengamati istilah penelusuran dari setiap produk yang benar-benar diklik dan dibeli oleh pengguna, sehingga situs web tersebut dapat mengoptimalkan hasil penelusuran untuk memperoleh penjualan yang lebih tinggi. Pelabelan semacam ini tidak dapat dilakukan secara manual melalui outsourcing atau layanan pencarian ahli, dan metode ini sangat menghemat potensi biaya pelabelan yang sangat besar dari Konstruktor.
Bahkan dengan pelatihan presisi tinggi, ketika model tidak dapat menjelaskan input baru secara akurat, model tersebut masih memerlukan intervensi manual sesekali. Menurut cara model memberikan nilai kepada pengguna akhir, pengguna dapat mengoreksi atau membuat anotasi model itu sendiri, dan perusahaan juga dapat menangani pengecualian dengan menggunakan "pengasuh AI" dari kontrol kualitas. Jika lingkungan di mana perusahaan membuat model tidak stabil dan laju perubahannya tinggi, perusahaan mungkin perlu menyimpan sekumpulan penanda dalam keadaan stabil untuk memperbarui model dengan data baru sesuai kebutuhan.
Perluas bisnis AI
Ketika perusahaan AI pertama yang sukses memasuki pasar, mereka menangkap data untuk melatih model AI dengan menyediakan alat alur kerja bebas AI, dan data tersebut pada akhirnya meningkatkan nilai alat tersebut. Perusahaan rintisan ini dapat merealisasikan keuntungan perangkat lunak pada tahap awal, karena data dan kecerdasan buatan memainkan peran sekunder dalam proposisi nilai mereka. Namun, karena pasar bergeser ke aplikasi AI yang lebih profesional, gelombang startup AI berikutnya akan menghadapi biaya awal yang lebih tinggi dan akan menghabiskan lebih banyak tenaga kerja untuk memberi pelanggan nilai awal, yang mengarah ke perusahaan layanan dengan margin rendah.
Mendapatkan sejumlah besar pelanggan dan data pada akhirnya akan mengurangi ekonomi unit dan membangun kapabilitas pertahanan gabungan yang penting, tetapi banyak perusahaan rintisan tidak mengetahui hal ini dengan tepat, juga tidak memahami tindakan apa yang perlu mereka ambil untuk mencapai tujuan mereka lebih cepat. Startup AI yang luar biasa akan mengoptimalkan trade-off dengan cara ini, berinvestasi dengan cara yang terencana, dan berkembang dengan cepat.
- Aset milik negara sebesar 6 miliar bergegas untuk membantu, dan cadangan perlindungan lingkungan yang turun 80% ini telah mencapai batas hariannya!
- Turun 6 triliun! Saham AS pada Black Monday, tetapi saham A melakukan serangan balik. Sinyal apa yang dirilis?
- Selama lebih dari sepuluh tahun, pengemudi yang baik yang bersikeras merawat dan menjemput orang dinilai sebagai teladan moral
- mengingatkan! Penyakit ini telah menjadi kelompok berisiko tinggi setelah tahun 90-an! Netizen: Beri aku istirahat ...