Halaman ini berisi istilah glosarium Model Gambar. Untuk semua istilah glosarium, klik di sini.
A
augmented reality
Teknologi yang menempatkan gambar yang dihasilkan komputer pada pandangan pengguna tentang dunia nyata, sehingga memberikan tampilan gabungan.
M
kotak pembatas
Pada gambar, koordinat (x, y) persegi panjang di sekitar area minat, misalnya pada gambar di bawah.
C
konvolusi
Dalam matematika, secara santai, gabungan dua fungsi. Dalam machine learning, konvolusi menggabungkan filter konvolusional dan matriks input untuk melatih bobot.
Istilah "konvolusi" dalam machine learning sering kali merupakan cara singkat untuk merujuk ke operasi konvolusional atau lapisan konvolusional.
Tanpa konvolusi, algoritme machine learning harus mempelajari bobot terpisah untuk setiap sel dalam tensor besar. Misalnya, pelatihan algoritme machine learning pada gambar 2K x 2K akan dipaksa untuk menemukan bobot terpisah 4 juta. Berkat konvolusi, algoritme machine learning hanya harus menemukan bobot untuk setiap sel dalam filter konvolusional, yang secara drastis mengurangi memori yang diperlukan untuk melatih model. Ketika filter konvolusional diterapkan, filter tersebut hanya akan direplikasi ke seluruh sel sehingga masing-masing dikalikan dengan filter.
filter konvolusional
Salah satu dari dua aktor dalam operasi konvolusional. (Aktor lainnya adalah bagian dari matriks masukan.) Filter konvolusional adalah matriks yang memiliki peringkat yang sama dengan matriks input, tetapi bentuknya lebih kecil. Misalnya, dengan matriks masukan 28x28, filter tersebut dapat berupa matriks 2D yang lebih kecil dari 28x28.
Dalam manipulasi fotografi, semua sel dalam filter konvolusional biasanya ditetapkan ke pola konstan satu dan nol. Dalam machine learning, filter konv. biasanya dibimbing dengan angka acak, lalu jaringan melatih nilai yang ideal.
lapisan konvolusional
Lapisan jaringan neural dalam tempat filter konvolusional diteruskan di sepanjang matriks input. Misalnya, pertimbangkan filter konvolusional 3x3 berikut:
Animasi berikut menunjukkan lapisan konvolusional yang terdiri dari 9 operasi konvolusional yang mencakup matriks masukan 5x5. Perhatikan bahwa setiap operasi konvolusional bekerja pada potongan matriks masukan 3x3 yang berbeda. Matriks 3x3 yang dihasilkan (di sebelah kanan) terdiri dari hasil 9 operasi konvolusional:
jaringan neural konvolusional
Jaringan neural yang mana setidaknya satu lapisan merupakan lapisan konvolusional. Jaringan neural konvolusional umum terdiri dari beberapa kombinasi lapisan berikut:
Jaringan neural konvolusional telah sukses besar dalam jenis masalah tertentu, seperti pengenalan gambar.
operasi konvolusional
Operasi matematika dua langkah berikut:
- Perkalian berbasis elemen dari filter konvolusional dan bagian dari matriks input. (Slice dari matriks input memiliki peringkat dan ukuran yang sama dengan filter konvolusional.)
- Penjumlahan semua nilai dalam matriks produk yang dihasilkan.
Misalnya, pertimbangkan matriks masukan 5x5 berikut:
Sekarang bayangkan filter konvolusional 2x2 berikut:
Setiap operasi konvolusi melibatkan potongan 2x2 tunggal dari matriks input. Misalnya, kita menggunakan potongan 2x2 di kiri atas matriks masukan. Jadi, operasi konvolusi pada bagian ini akan terlihat sebagai berikut:
Lapisan konvolusional terdiri dari serangkaian operasi konvolusional, masing-masing bekerja pada potongan matriks input yang berbeda.
D
pengayaan data
Meningkatkan rentang dan jumlah contoh pelatihan secara buatan dengan mengubah contoh yang ada untuk membuat contoh tambahan. Misalnya, anggap gambar adalah salah satu fitur Anda, tetapi set data Anda tidak berisi contoh gambar yang cukup bagi model untuk mempelajari asosiasi yang berguna. Idealnya, tambahkan gambar berlabel yang cukup ke set data agar model Anda dapat dilatih dengan benar. Jika itu tidak memungkinkan, pengayaan data dapat memutar, melebarkan, dan mencerminkan setiap gambar untuk menghasilkan banyak varian gambar asli, yang mungkin menghasilkan cukup data berlabel untuk memungkinkan pelatihan yang sangat baik.
jaringan neural konvolusional yang dapat dipisahkan secara mendalam (sepCNN)
Arsitektur jaringan neural konvolusional berdasarkan Inklusi, tetapi di mana modul Inception diganti dengan konvolusi yang dapat dipisahkan secara mendalam. Juga dikenal sebagai Xception.
Konvolusi yang terpisah secara mendalam (juga disingkat konvolusi yang terpisah) memfaktorkan konvolusi 3D standar menjadi dua operasi konvolusi terpisah yang lebih efisien secara komputasi: pertama, konvolusi secara mendalam, dengan kedalaman 1 (n ✕ 1, lalu kedua, panjang konvolusi yang tepat
Untuk mempelajari lebih lanjut, lihat Xception: Deep Learning dengan Konvensi Kedalaman yang Dapat Dipisahkan.
penurunan sampel
Istilah kelebihan beban yang dapat berarti salah satu dari hal berikut:
- Mengurangi jumlah informasi dalam fitur untuk melatih model secara lebih efisien. Misalnya, sebelum melatih model pengenalan gambar, turunkan sampel gambar beresolusi tinggi ke format resolusi lebih rendah.
- Pelatihan contoh class yang kurang terwakili yang rendah secara tidak proporsional untuk meningkatkan pelatihan model pada class yang kurang terwakili. Misalnya, dalam set data kelas tidak seimbang, model cenderung banyak belajar tentang kelas mayoritas dan tidak cukup tentang kelas minoritas. Downsampling membantu menyeimbangkan jumlah pelatihan di kelas mayoritas dan minoritas.
I
pengenalan gambar
Proses yang mengklasifikasikan objek, pola, atau konsep dalam gambar. Pengenalan gambar juga dikenal sebagai klasifikasi gambar.
Untuk informasi selengkapnya, lihat Praktik ML: Klasifikasi Gambar.
persimpangan di atas serikat (IoU)
Perpotongan dari dua pasang dibagi dengan gabungannya. Dalam tugas deteksi gambar machine learning, IoU digunakan untuk mengukur akurasi kotak pembatas yang diprediksi model sesuai dengan kotak pembatas ground-truth. Dalam hal ini, IoU untuk dua kotak tersebut adalah rasio antara area yang tumpang tindih dan total area, dan nilainya berkisar dari 0 (tidak ada tumpang tindih kotak pembatas yang diprediksi dan kotak pembatas kebenaran dasar) hingga 1 (kotak pembatas yang diprediksi dan kotak pembatas kebenaran dasar memiliki koordinat yang sama persis).
Misalnya, pada gambar di bawah:
- Kotak pembatas yang diprediksi (koordinat yang membatasi tempat model memprediksi tabel malam dalam lukisan berada) berwarna ungu.
- Kotak pembatas kebenaran dasar (koordinat yang membatasi tempat tabel malam dalam lukisan berada) ditandai dengan warna hijau.
Di sini, persimpangan kotak pembatas untuk prediksi dan kebenaran dasar (di bawah kiri) adalah 1, dan gabungan kotak pembatas untuk prediksi dan kebenaran dasar (di bawah kanan) adalah 7, jadi IoU-nya adalah \(\frac{1}{7}\).


K
poin utama
Koordinat fitur tertentu dalam gambar. Misalnya, untuk model pengenalan gambar yang membedakan spesies bunga, titik utama mungkin merupakan pusat setiap kelopak, batang, benang sari, dan sebagainya.
L
tempat terkenal
Sinonim untuk poin utama.
M
MNIST
Set data domain publik yang dikompilasi oleh LeCun, Cortes, dan Burges yang berisi 60.000 gambar, setiap gambar menunjukkan cara manusia secara manual menulis digit tertentu dari 0–9. Setiap gambar disimpan sebagai array bilangan bulat 28x28, dengan setiap bilangan bulat adalah nilai hitam putih antara 0 dan 255, inklusif.
MNIST adalah set data kanonis untuk machine learning, yang sering digunakan untuk menguji pendekatan machine learning baru. Untuk mengetahui detailnya, lihat Database MNIST untuk Digit Tulisan Tangan.
P
penggabungan
Mengurangi matriks (atau matriks) yang dibuat oleh lapisan konvolusional sebelumnya ke matriks yang lebih kecil. Penggabungan biasanya melibatkan pengambilan nilai maksimum atau rata-rata di seluruh area gabungan. Misalnya, kita memiliki matriks 3x3 berikut:
Operasi penggabungan, seperti operasi konvolusional, membagi matriks tersebut menjadi beberapa potongan, kemudian menggeser operasi konvolusional tersebut dengan langkah. Misalnya, operasi penggabungan membagi matriks konvolusional menjadi irisan 2x2 dengan langkah 1x1. Seperti yang digambarkan oleh diagram berikut, terjadi empat operasi penggabungan. Bayangkan bahwa setiap operasi penggabungan memilih nilai maksimum dari keempat operasi dalam bagian tersebut:
Penggabungan membantu menerapkan invariansi terjemahan dalam matriks input.
Penggabungan untuk aplikasi visi dikenal lebih formal sebagai penggabungan spasial. Aplikasi deret waktu biasanya mengacu pada penggabungan sebagai penggabungan sementara. Kurang formal, penggabungan sering disebut subsampling atau downsampling.
R
invariansi rotasi
Dalam masalah klasifikasi gambar, kemampuan algoritme agar berhasil mengklasifikasikan gambar meskipun orientasi gambar berubah. Misalnya, algoritme masih dapat mengidentifikasi raket tenis apakah mengarah ke atas, ke samping, atau ke bawah. Perhatikan bahwa invariansi rotasi tidak selalu diinginkan; misalnya, 9 terbalik tidak boleh diklasifikasikan sebagai 9.
Lihat juga invariansi terjemahan dan invariansi ukuran.
4
invariansi ukuran
Dalam masalah klasifikasi gambar, kemampuan algoritme agar berhasil mengklasifikasikan gambar meskipun ukuran gambar berubah. Misalnya, algoritme tetap dapat mengidentifikasi kucing dengan konsumsi 2 juta piksel atau 200 ribu piksel. Perhatikan bahwa algoritme klasifikasi gambar terbaik pun masih memiliki batas praktis terkait invariansi ukuran. Misalnya, algoritme (atau manusia) tidak mungkin mengklasifikasikan gambar kucing yang hanya menggunakan 20 piksel dengan benar.
Lihat juga invariansi terjemahan dan invariansi rotasi.
penggabungan spasial
Lihat pooling.
langkah
Dalam operasi konvolusional atau penggabungan, delta di setiap dimensi dari rangkaian potongan input berikutnya. Misalnya, animasi berikut menunjukkan langkah (1,1) selama operasi konvolusional. Oleh karena itu, bagian input berikutnya memulai satu posisi di sebelah kanan bagian input sebelumnya. Saat operasi mencapai tepi kanan, irisan berikutnya mengarah ke kiri, tetapi satu posisi ke bawah.
Contoh sebelumnya menunjukkan langkah dua dimensi. Jika matriks input memiliki tiga dimensi, langkah tersebut juga akan memiliki tiga dimensi.
subsampling
Lihat pooling.
T
invariansi translasi
Dalam masalah klasifikasi gambar, kemampuan algoritme agar berhasil mengklasifikasikan gambar meskipun posisi objek dalam gambar berubah. Misalnya, algoritme masih dapat mengidentifikasi, baik di tengah tengah frame maupun di ujung kiri frame.
Lihat juga invariansi ukuran dan invariansi rotasi.