Glosarium Machine Learning: Model Gambar

Halaman ini berisi istilah glosarium Model Gambar. Untuk semua istilah glosarium, klik di sini.

A

augmented reality

#image

Teknologi yang menempatkan gambar yang dihasilkan komputer pada tampilan pengguna di dunia nyata, sehingga memberikan tampilan komposit.

B

kotak pembatas

#image

Pada gambar, koordinat (x, y) persegi panjang di sekitar area minat, seperti anjing pada gambar di bawah.

Foto anjing duduk di sofa. Kotak pembatas hijau
 dengan koordinat kiri atas (275, 1271) dan koordinat kanan bawah (2954, 2761) mengelilingi tubuh anjing

C

konvolusi

#image

Dalam matematika, secara informal, campuran dua fungsi. Dalam machine learning, konvolusi mencampur filter konvolusional dan matriks input untuk melatih bobot.

Istilah "konvolusi" dalam machine learning sering kali merupakan cara singkat untuk merujuk pada operasi konvolusi atau lapisan konvolusional.

Tanpa konvolusi, algoritme machine learning harus mempelajari bobot terpisah untuk setiap sel dalam tensor besar. Misalnya, pelatihan algoritme machine learning pada gambar 2K x 2K akan dipaksa untuk menemukan bobot terpisah 4 juta. Berkat konvolusi, algoritme machine learning hanya perlu menemukan bobot untuk setiap sel dalam filter konvolusional, sehingga secara dramatis mengurangi memori yang diperlukan untuk melatih model. Ketika diterapkan, filter konvolusional hanya akan direplikasi di seluruh sel sehingga setiap sel akan dikalikan dengan filter.

filter konvolusi

#image

Salah satu dari dua aktor dalam operasi konvolusi. (Pelaku lainnya adalah bagian dari matriks input.) Filter konvolusional adalah matriks yang memiliki peringkat yang sama dengan matriks input, tetapi bentuknya lebih kecil. Misalnya, dengan matriks input 28x28, filternya dapat berupa matriks 2D yang lebih kecil dari 28x28.

Dalam manipulasi fotografi, semua sel dalam filter konvolusional biasanya ditetapkan ke pola konstan satu dan nol. Dalam machine learning, filter konvolusional biasanya diisi dengan angka acak, kemudian jaringan melatih nilai ideal.

lapisan konvolusional

#image

Lapisan jaringan neural dalam tempat filter konvolus diteruskan di sepanjang matriks input. Misalnya, pertimbangkan filter konvolusi 3x3 berikut:

Matriks 3x3 dengan nilai berikut: [[0,1,0], [1,0,1], [0,1,0]]

Animasi berikut menunjukkan lapisan konvolusional yang terdiri dari 9 operasi konvolusional yang melibatkan matriks input 5x5. Perhatikan bahwa setiap operasi konvolusional bekerja pada potongan matriks input 3x3 yang berbeda. Matriks 3x3 yang dihasilkan (di sebelah kanan) terdiri dari hasil 9 operasi konvolusional:

Animasi yang menampilkan dua matriks. Matriks pertama adalah matriks
          5x5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,482,92,175]
          Matriks kedua adalah matriks 3x3:
          [[181,303,618], [115,338,605], [169,351,560]].
          Matriks kedua dihitung dengan menerapkan filter konvolusional [[0, 1, 0], [1, 0, 1], [0, 1, 0]] di berbagai subset 3x3 matriks 5x5.

jaringan neural konvolusional

#image

Jaringan neural yang mana setidaknya satu lapisan merupakan lapisan konvolusional. Jaringan neural konvolusional umum terdiri dari beberapa kombinasi lapisan berikut:

Jaringan neural konvolusional telah sukses besar dalam jenis masalah tertentu, seperti pengenalan gambar.

operasi konvolusi

#image

Operasi matematika dua langkah berikut:

  1. Perkalian berbasis elemen dari filter konvolusi dan sepotong matriks input. (Slice dari matriks input memiliki peringkat dan ukuran yang sama dengan filter konvolusional.)
  2. Penjumlahan semua nilai dalam matriks produk yang dihasilkan.

Misalnya, pertimbangkan matriks input 5x5 berikut:

Matriks 5x5: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,40,100

Sekarang bayangkan filter konvolusi 2x2 berikut:

Matriks 2x2: [[1, 0], [0, 1]]

Setiap operasi konvolusi melibatkan sepotong matriks input 2x2. Misalnya, kita menggunakan potongan 2x2 di kiri atas matriks input. Jadi, operasi konvolusi pada potongan ini akan terlihat seperti berikut:

Menerapkan filter konvolusional [[1, 0], [0, 1]] ke bagian 2x2 kiri atas matriks input, yaitu [[128,97], [35,22]].
          Filter konvolusional meninggalkan 128 dan 22, tetapi nol dari 97 dan 35. Akibatnya, operasi konvolusi menghasilkan nilai 150 (128+22).

Lapisan konvolusional terdiri dari serangkaian operasi konvolusional, masing-masing bekerja pada potongan matriks input yang berbeda.

D

peningkatan kualitas data

#image

Secara buatan meningkatkan rentang dan jumlah contoh pelatihan dengan mengubah contoh yang ada untuk membuat contoh tambahan. Misalnya, anggap gambar adalah salah satu fitur Anda, tetapi set data Anda tidak berisi contoh gambar yang memadai bagi model untuk mempelajari pengaitan yang berguna. Idealnya, Anda menambahkan cukup gambar berlabel ke set data Anda agar model Anda dapat dilatih dengan benar. Jika hal tersebut tidak memungkinkan, augmentasi data dapat memutar, merentangkan, dan mencerminkan setiap gambar untuk menghasilkan banyak varian dari gambar aslinya, yang mungkin menghasilkan data berlabel yang cukup untuk memungkinkan pelatihan yang sangat baik.

jaringan neural konvolusional (sepCNN) yang dapat dipisahkan secara mendalam

#image

Arsitektur jaringan neural konvolusi berdasarkan Inception, tetapi dengan mengganti modul Inception dengan konvolusi yang dapat dipisahkan secara mendalam. Juga dikenal sebagai Xception.

konvolusi yang sangat mendalam (juga disingkat konvolusi yang dapat dipisahkan) menjadi konvolusi 3D standar menjadi dua operasi konvolusi terpisah yang lebih efisien secara komputasi: pertama, konvolusi kedalaman, dengan kedalaman 1 (n ಠ 1 ,1, kedua, konvolusi titik, dan lebar (1, lebar) dan lebar.

Untuk mempelajari lebih lanjut, lihat Xception: Deep Learning dengan Depthwise Separable Convoluction.

pengurangan sampel

#image

Istilah yang berlebihan yang dapat berarti salah satu dari hal berikut:

  • Mengurangi jumlah informasi dalam fitur agar melatih model secara lebih efisien. Misalnya, sebelum melatih model pengenalan gambar, lakukan drop down pada gambar resolusi tinggi ke format resolusi lebih rendah.
  • Pelatihan pada persentase yang tidak proporsional dari contoh class yang terlalu terwakili untuk meningkatkan pelatihan model pada kelas yang kurang terwakili. Misalnya, dalam set data kelas tidak seimbang, model cenderung mempelajari banyak tentang kelas minoritas dan tidak cukup tentang kelas minoritas. Downsampling membantu menyeimbangkan jumlah pelatihan di mayoritas dan minoritas.

I

pengenalan gambar

#image

Proses yang mengklasifikasikan objek, pola, atau konsep dalam gambar. Pengenalan gambar juga dikenal sebagai klasifikasi gambar.

Untuk informasi lebih lanjut, lihat Praktik Praktis: Klasifikasi Gambar.

persimpangan di atas union (IoU)

#image

Titik potong dua kumpulan dibagi dengan gabungannya. Dalam tugas deteksi gambar machine learning, IoU digunakan untuk mengukur akurasi kotak pembatas model yang diprediksi dalam kaitannya dengan kotak pembatas ground-truth. Dalam hal ini, IoU untuk dua kotak adalah rasio antara area yang tumpang-tindih dan total area, dan nilainya berkisar dari 0 (tidak tumpang-tindih antara kotak pembatas yang diprediksi dan kotak pembatas kebenaran dasar) hingga 1 (kotak pembatas yang diprediksi dan kotak pembatas kebenaran dasar memiliki koordinat yang sama persis).

Misalnya, pada gambar di bawah:

  • Kotak pembatas yang diprediksi (koordinat yang membatasi tempat model memprediksi tabel malam dalam lukisan berada) ditandai dengan warna ungu.
  • Kotak pembatas kebenaran dasar (koordinat yang membatasi tempat tabel malam dalam lukisan benar-benar berada) ditandai dengan warna hijau.

Lukisan Van Gogh 'Vincent's di Kamar Tidur Arles', dengan dua
          kotak pembatas berbeda di sekitar meja malam di samping tempat tidur. Kotak pembatas kebenaran dasar (berwarna hijau) mengelilingi meja malam dengan sempurna. Kotak
          pembatas yang diprediksi (berwarna ungu) diimbangi 50% ke bawah dan di sebelah kanan
          kotak pembatas kebenaran dasar; kotak ini menutupi kuartal kanan bawah
          tabel malam, namun tidak mencakup bagian lainnya dalam tabel.

Di sini, titik potong kotak pembatas untuk prediksi dan kebenaran dasar (di bawah kiri) adalah 1, dan gabungan kotak pembatas untuk prediksi dan kebenaran dasar (di bawah kanan) adalah 7, sehingga IoU adalah \(\frac{1}{7}\).

Gambar sama dengan di atas, tetapi dengan setiap kotak pembatas dibagi menjadi empat kuadran. Ada tujuh kuadran total, karena kuadran kanan bawah
          kotak pembatas kebenaran dasar dan kuadran kiri
          atas kotak pembatas yang diprediksi saling tumpang-tindih. Bagian yang tumpang tindih ini (disorot dengan warna hijau) mewakili persimpangan, dan memiliki area 1. Gambar sama dengan di atas, tetapi dengan setiap kotak pembatas dibagi menjadi empat kuadran. Ada tujuh kuadran total, karena kuadran kanan bawah
          kotak pembatas kebenaran dasar dan kuadran kiri
          atas kotak pembatas yang diprediksi saling tumpang-tindih.
          Seluruh interior yang diapit oleh kedua kotak pembatas
          (disorot dengan warna hijau) mewakili gabungan tersebut, dan memiliki
          area 7.

rb

poin utama

#image

Koordinat fitur tertentu pada gambar. Misalnya, untuk model pengenalan gambar yang membedakan seri bunga, keypoint mungkin menjadi pusat setiap kelopak, batang, benang sari, dan sebagainya.

L

tempat terkenal

#image

Sinonim dari keypoint.

M

MNIST

#image

Set data domain publik yang dikompilasi oleh LeCun, Cortes, dan Burges yang berisi 60.000 gambar, setiap gambar menunjukkan cara manusia menulis digit tertentu secara manual dari 0–9. Setiap gambar disimpan sebagai array bilangan bulat 28x28, yang mana setiap bilangan bulat adalah nilai hitam putih antara 0 dan 255, inklusif.

MNIST adalah set data kanonis untuk machine learning, yang sering digunakan untuk menguji pendekatan machine learning baru. Untuk mengetahui detailnya, lihat Database MNIST untuk Digit Tulisan Tangan.

P

penggabungan

#image

Mengurangi matriks (atau matriks) yang dibuat oleh lapisan konvolusi sebelumnya menjadi matriks yang lebih kecil. Penggabungan biasanya melibatkan pengambilan nilai maksimum atau rata-rata di seluruh area gabungan. Misalnya, kita memiliki matriks 3x3 berikut:

Matriks 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Operasi penggabungan, seperti operasi konvolusional, membagi matriks tersebut menjadi beberapa bagian, lalu menggeser operasi konvolusional tersebut dengan langkah. Misalnya, operasi penggabungan membagi matriks konvolusional menjadi slice 2x2 dengan langkah 1x1. Seperti yang diilustrasikan diagram berikut, empat operasi penggabungan terjadi. Bayangkan bahwa setiap operasi penggabungan memilih nilai maksimum dari keempat operasi dalam bagian tersebut:

Matriks input adalah 3x3 dengan nilai: [[5,3,1], [8,2,5], [9,4,3]].
          Submetrik 2x2 kiri atas dari matriks input adalah [[5,3], [8,2]], sehingga operasi penggabungan kiri atas menghasilkan nilai 8 (yang merupakan maksimum 5, 3, 8, dan 2). Submetrik 2x2 kanan atas dari matriks input adalah [[3,1], [2,5]], sehingga operasi penggabungan kanan atas menghasilkan nilai 5. Submetrik 2x2 kiri bawah dari matriks input adalah [[8,2], [9,4]], sehingga operasi penggabungan kiri bawah menghasilkan nilai 9.  Submetrik 2x2 kanan bawah matriks input adalah [[2,5], [4,3]], sehingga operasi penggabungan kanan bawah menghasilkan nilai 5.  Singkatnya, operasi penggabungan menghasilkan matriks 2x2 [[8,5], [9,5]].

Penggabungan membantu menerapkan invariansi terjemahan dalam matriks input.

Penggabungan untuk aplikasi visi dikenal lebih formal sebagai penggabungan spasial. Penerapan deret waktu biasanya mengacu pada penggabungan sebagai penggabungan sementara. Secara kurang formal, penggabungan biasanya disebut subsampling atau downsampling.

R

invariansi rotasional

#image

Dalam masalah klasifikasi gambar, kemampuan algoritme agar berhasil mengklasifikasikan gambar meskipun orientasi gambar berubah. Misalnya, algoritme tetap dapat mengidentifikasi raket tenis apakah mengarah ke atas, ke samping, atau ke bawah. Perhatikan bahwa invariansi rotasional tidak selalu diinginkan; misalnya, 9 terbalik tidak boleh diklasifikasikan sebagai 9.

Lihat juga invariansi terjemahan dan invariansi ukuran.

S

invariansi ukuran

#image

Dalam masalah klasifikasi gambar, kemampuan algoritme agar berhasil mengklasifikasikan gambar meskipun ukuran gambar berubah. Misalnya, algoritme tetap dapat mengidentifikasi gambar kucing apakah gambar tersebut menggunakan 2 juta piksel atau 200 ribu piksel. Perhatikan bahwa algoritme klasifikasi gambar terbaik pun masih memiliki batas praktis terkait invariansi ukuran. Misalnya, algoritme (atau manusia) cenderung tidak mengklasifikasikan dengan benar gambar kucing yang hanya menggunakan 20 piksel.

Lihat juga invariansi terjemahan dan invariansi rotasi.

penggabungan spasial

#image

Lihat penggabungan.

langkah

#image

Dalam operasi konvolusional atau penggabungan, delta di setiap dimensi dari rangkaian irisan input berikutnya. Misalnya, animasi berikut menunjukkan langkah (1,1) selama operasi konvolusional. Oleh karena itu, slice input berikutnya memulai satu posisi di sebelah kanan slice input sebelumnya. Saat operasi mencapai tepi kanan, potongan berikutnya berpindah ke kiri, tetapi satu posisi ke bawah.

Matriks 5x5 input dan filter konvolusi 3x3. Karena
     langkahnya adalah (1,1), filter konvolusional akan diterapkan 9 kali. Slice konvolusional pertama mengevaluasi submatriks 3x3 kiri atas dari matriks input. Slice kedua mengevaluasi submatriks 3x3 bagian tengah atas. Slice konvolusi ketiga mengevaluasi submatriks 3x3 kanan atas.  Slice keempat mengevaluasi submatriks 3x3 kiri tengah.
     Slice kelima mengevaluasi submatriks 3x3 tengah. Slice keenam mengevaluasi submatriks 3x3 yang ada di sebelah kanan tengah. Slice ketujuh mengevaluasi
     submatriks 3x3 kiri bawah.  Slice kedelapan mengevaluasi submetrik 3x3 tengah bawah. Slice kesembilan mengevaluasi submetrik 3x3
     kanan bawah.

Contoh sebelumnya menunjukkan langkah dua dimensi. Jika matriks input memiliki tiga dimensi, jangkanya juga akan memiliki tiga dimensi.

subsampel

#image

Lihat penggabungan.

T

invariansi translasi

#image

Dalam masalah klasifikasi gambar, kemampuan algoritme agar berhasil mengklasifikasikan gambar meskipun posisi objek dalam gambar berubah. Misalnya, algoritme tetap dapat mengidentifikasi anjing, baik yang berada di tengah frame atau di ujung kiri frame.

Lihat juga invariansi ukuran dan invariansi rotasi.