Bảng thuật ngữ về máy học: Mô hình hình ảnh

Trang này chứa các thuật ngữ trong bảng thuật ngữ về Mô hình hình ảnh. Để biết tất cả các thuật ngữ trong bảng thuật ngữ, hãy nhấp vào đây.

A

thực tế tăng cường

#image

Công nghệ xếp chồng một hình ảnh do máy tính tạo lên khung nhìn thế giới thực của người dùng, nhờ đó tạo ra một khung hiển thị tổng hợp.

bộ mã hoá tự động

#language
#image

Một hệ thống học cách trích xuất thông tin quan trọng nhất từ dữ liệu đầu vào. Bộ mã hoá tự động là sự kết hợp giữa bộ mã hoábộ giải mã. Bộ mã hoá tự động hoạt động dựa trên quy trình 2 bước sau:

  1. Bộ mã hoá sẽ ánh xạ dữ liệu đầu vào sang một định dạng chiều thấp (trung gian) có tổn hao (thường) có tổn hao.
  2. Bộ giải mã tạo phiên bản có tổn hao của dữ liệu đầu vào ban đầu bằng cách ánh xạ định dạng chiều thấp với định dạng đầu vào chiều cao ban đầu.

Bộ mã hoá tự động được huấn luyện toàn diện bằng cách yêu cầu bộ giải mã cố gắng tạo lại dữ liệu đầu vào ban đầu từ định dạng trung gian của bộ mã hoá một cách chặt chẽ nhất có thể. Do định dạng trung gian nhỏ hơn (chiều thấp hơn) so với định dạng gốc, nên bộ mã hoá tự động buộc phải tìm hiểu thông tin nào trong dữ liệu đầu vào là cần thiết và đầu ra sẽ không hoàn toàn giống với thông tin đầu vào.

Ví dụ:

  • Nếu dữ liệu đầu vào là hình ảnh đồ hoạ, thì bản sao không chính xác sẽ tương tự như hình ảnh đồ hoạ gốc, nhưng có chút sửa đổi. Có thể bản sao không chính xác sẽ loại bỏ nhiễu khỏi đồ hoạ gốc hoặc điền một số pixel bị thiếu.
  • Nếu dữ liệu đầu vào là văn bản, thì bộ mã hoá tự động sẽ tạo văn bản mới bắt chước (nhưng không giống với) văn bản gốc.

Xem thêm về trình mã hoá tự động biến thiên.

mô hình hồi quy tự động

#language
#image
#generativeAI (AI tạo sinh)

model dự đoán thông tin dự đoán dựa trên các dự đoán trước đó của riêng nó. Ví dụ: các mô hình ngôn ngữ tự động hồi quy sẽ dự đoán mã thông báo tiếp theo dựa trên mã thông báo dự đoán trước đó. Tất cả mô hình ngôn ngữ lớn dựa trên Transformer đều có tính hồi quy tự động.

Ngược lại, các mô hình hình ảnh dựa trên GAN thường không tự động hồi quy vì các mô hình này tạo hình ảnh trong một lần chuyển tiếp và không lặp lại trong các bước. Tuy nhiên, một số mô hình tạo hình ảnh tự động hồi quy vì các mô hình đó tạo hình ảnh theo các bước.

B

hộp giới hạn

#image

Trong hình ảnh, toạ độ (x, y) của một hình chữ nhật xung quanh một khu vực quan tâm, chẳng hạn như chú chó trong hình dưới đây.

Ảnh chụp một chú chó đang ngồi trên ghế sofa. Hộp giới hạn màu xanh lục có toạ độ trên cùng bên trái là (275, 1271) và toạ độ dưới cùng bên phải là (2954, 2761) bao quanh cơ thể chú chó

C

tích chập

#image

Trong toán học, nói một cách ngẫu nhiên, kết hợp của hai hàm. Trong công nghệ học máy, phép chập sẽ kết hợp bộ lọc tích chập và ma trận đầu vào để huấn luyện trọng số.

Thuật ngữ "tích chập" trong công nghệ học máy thường là một cách viết tắt để đề cập đến toán tử tích chập hoặc lớp tích chập.

Nếu không có tích chập, thuật toán máy học sẽ phải học trọng số riêng cho mỗi ô trong một tensor lớn. Ví dụ: một thuật toán máy học huấn luyện các hình ảnh có độ phân giải 2K x 2K sẽ buộc phải tìm các trọng số riêng biệt 4M. Nhờ có các phép chập, thuật toán học máy chỉ phải tìm trọng số cho mọi ô trong bộ lọc tích chập, qua đó làm giảm đáng kể bộ nhớ cần thiết để huấn luyện mô hình. Khi áp dụng bộ lọc tích chập, bộ lọc chỉ cần được sao chép trên các ô sao cho mỗi ô được nhân với bộ lọc.

bộ lọc chập

#image

Một trong hai diễn viên trong toán tử tích chập. (Tác nhân còn lại là một lát của ma trận đầu vào.) Bộ lọc tích chập là một ma trận có cùng hạng với ma trận đầu vào, nhưng có hình dạng nhỏ hơn. Ví dụ: với ma trận đầu vào 28x28, bộ lọc có thể là bất kỳ ma trận 2D nào nhỏ hơn 28x28.

Trong thao tác chụp ảnh, tất cả các ô trong bộ lọc tích chập thường được đặt thành một mẫu không đổi gồm một và 0. Trong công nghệ học máy, các bộ lọc tích chập thường được ghép bằng các số ngẫu nhiên, sau đó mạng huấn luyện các giá trị lý tưởng.

lớp chập

#image

Một lớp của mạng nơron sâu, trong đó bộ lọc tích chập truyền dọc theo ma trận đầu vào. Ví dụ: hãy xem xét bộ lọc tích chập 3x3 sau:

Một ma trận 3x3 có các giá trị sau: [[0,1,0], [1,0,1], [0,1,0]]

Ảnh động sau đây cho thấy một lớp chập bao gồm 9 phép toán tích chập liên quan đến ma trận đầu vào 5x5. Xin lưu ý rằng mỗi toán tử tích chập hoạt động trên một lát cắt 3x3 khác của ma trận đầu vào. Ma trận 3x3 thu được (ở bên phải) bao gồm kết quả của 9 phép toán chập:

Ảnh động minh hoạ hai ma trận. Ma trận đầu tiên là ma trận 5x5: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179,0],
          Ma trận thứ hai là ma trận 3x3:
          [[181,303,618], [115,338,605], [169,351,560]].
          Ma trận thứ hai được tính bằng cách áp dụng bộ lọc tích chập [[0, 1, 0], [1, 0, 1], [0, 1, 0]] trên các tập con 3x3 khác nhau của ma trận 5x5.

mạng nơron tích chập

#image

Một mạng nơron, trong đó ít nhất một lớp là lớp tích chập. Một mạng nơron tích chập điển hình bao gồm một số tổ hợp các lớp sau:

Mạng nơron tích chập đã thành công lớn trong một số vấn đề, chẳng hạn như nhận dạng hình ảnh.

toán tử tích chập

#image

Phép toán gồm 2 bước sau đây:

  1. Phép nhân theo phần tử của bộ lọc tích chập và một lát của ma trận đầu vào. (Lát cắt của ma trận đầu vào có cùng thứ hạng và kích thước với bộ lọc tích chập.)
  2. Tổng của tất cả giá trị trong ma trận tích thu được.

Ví dụ: hãy xem xét ma trận đầu vào 5x5 sau:

Ma trận 5x5: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [30,4]

Bây giờ, hãy tưởng tượng bộ lọc tích chập 2x2 sau:

Ma trận 2x2: [[1, 0], [0, 1]]

Mỗi thao tác tích chập liên quan đến một lát cắt 2x2 duy nhất của ma trận đầu vào. Ví dụ: giả sử chúng ta sử dụng lát cắt 2x2 ở trên cùng bên trái của ma trận đầu vào. Vì vậy, thao tác tích chập trên lát cắt này sẽ có dạng như sau:

Áp dụng bộ lọc tích chập [[1, 0], [0, 1]] cho phần 2x2 trên cùng bên trái của ma trận đầu vào, là [[128,97], [35,22]].
          Bộ lọc tích chập sẽ giữ nguyên giá trị cho 128 và 22, nhưng giá trị 97 và 35 sẽ là 0. Do đó, toán tử tích chập tạo ra giá trị 150 (128+22).

Lớp tích chập bao gồm một chuỗi các phép toán chập, mỗi phép toán chập hoạt động trên một phần khác nhau của ma trận đầu vào.

D

tăng cường dữ liệu

#image

Mở rộng phạm vi và số lượng ví dụ đào tạo một cách giả tạo bằng cách biến đổi ví dụ hiện có để tạo thêm ví dụ. Ví dụ: giả sử hình ảnh là một trong các tính năng của bạn, nhưng tập dữ liệu của bạn không chứa đủ ví dụ về hình ảnh để mô hình tìm hiểu các mối liên kết hữu ích. Tốt nhất là bạn nên thêm đủ hình ảnh được gắn nhãn vào tập dữ liệu để giúp mô hình của bạn huấn luyện đúng cách. Nếu không thể làm như vậy, tính năng tăng cường dữ liệu có thể xoay, kéo giãn và phản ánh từng hình ảnh để tạo ra nhiều biến thể của hình ảnh gốc, nhờ đó có thể tạo ra đủ dữ liệu được gắn nhãn để cho phép huấn luyện hiệu quả.

mạng nơron tích chập phân tách theo chiều sâu (sepCNN)

#image

Cấu trúc mạng nơron tích chập dựa trên Instarttion, nhưng trong đó các mô-đun Inception được thay thế bằng các phép chập có thể phân tách theo chiều sâu. Còn được gọi là Xception.

Phép chập phân tách theo chiều sâu (còn viết tắt là tích chập phân tách 3D) chia tích chập 3D chuẩn thành hai phép tích chập riêng biệt hiệu quả hơn: thứ nhất là tích chập theo chiều sâu với độ sâu 1 (n x n x 1), và cuối cùng là tích chập 1 x n (chiều dài và chiều rộng).

Để tìm hiểu thêm, hãy xem bài viết Xception: Học sâu với chuyển đổi phân tách theo chiều sâu.

giảm tần số lấy mẫu

#image

Thuật ngữ quá tải có thể có nghĩa là một trong các trường hợp sau:

  • Giảm lượng thông tin trong một tính năng để huấn luyện một mô hình hiệu quả hơn. Ví dụ: trước khi huấn luyện một mô hình nhận dạng hình ảnh, hãy giảm tần số lấy mẫu hình ảnh có độ phân giải cao xuống định dạng có độ phân giải thấp hơn.
  • Đào tạo về một tỷ lệ thấp các ví dụ về lớp được tham gia quá mức nhằm cải thiện quá trình huấn luyện mô hình cho các lớp chưa được đại diện. Ví dụ: trong tập dữ liệu không cân bằng về lớp, các mô hình có xu hướng tìm hiểu nhiều về lớp đa số và không có đủ thông tin về lớp thiểu số. Việc giảm tần số lấy mẫu giúp cân bằng lượng nội dung đào tạo cho các lớp đa số và thiểu số.

F

tinh chỉnh

#language
#image
#generativeAI (AI tạo sinh)

Lượt truyền huấn luyện thứ hai theo nhiệm vụ cụ thể được thực hiện trên một mô hình luyện sẵn để tinh chỉnh các tham số của mô hình đó cho một trường hợp sử dụng cụ thể. Ví dụ: trình tự huấn luyện đầy đủ cho một số mô hình ngôn ngữ lớn như sau:

  1. Đào tạo trước: Đào tạo một mô hình ngôn ngữ lớn trên một tập dữ liệu chung rộng lớn, chẳng hạn như tất cả các trang Wikipedia bằng tiếng Anh.
  2. Điều chỉnh tinh chỉnh: Huấn luyện mô hình đã luyện tập sẵn để thực hiện một nhiệm vụ cụ thể, chẳng hạn như phản hồi các thắc mắc y tế. Việc tinh chỉnh thường bao gồm hàng trăm hoặc hàng nghìn ví dụ tập trung vào một nhiệm vụ cụ thể.

Một ví dụ khác là trình tự huấn luyện đầy đủ cho một mô hình hình ảnh lớn như sau:

  1. Huấn luyện trước: Đào tạo một mô hình hình ảnh lớn trên một tập dữ liệu hình ảnh chung rộng lớn, chẳng hạn như tất cả hình ảnh trong Wikimedia common.
  2. Điều chỉnh tinh chỉnh: Huấn luyện mô hình đã luyện sẵn để thực hiện một nhiệm vụ cụ thể, chẳng hạn như tạo hình ảnh của cá voi sát thủ.

Việc tinh chỉnh có thể cần đến bất kỳ kết hợp nào của các chiến lược sau đây:

  • Sửa đổi tất cả các tham số hiện có của mô hình luyện sẵn. Quá trình này đôi khi gọi là điều chỉnh toàn bộ.
  • Chỉ sửa đổi một số tham số hiện có của mô hình luyện sẵn (thường là các lớp gần nhất với lớp đầu ra), trong khi giữ nguyên các tham số hiện có khác (thường là các lớp gần nhất với lớp đầu vào). Xem phần điều chỉnh hiệu quả thông số.
  • Thêm các lớp khác, thường là trên các lớp hiện có gần lớp đầu ra nhất.

Tinh chỉnh là một hình thức học tập chuyển giao. Do đó, quá trình tinh chỉnh có thể sử dụng một hàm mất dữ liệu khác hoặc một loại mô hình khác với các hàm dùng để huấn luyện mô hình đã huấn luyện trước. Ví dụ: bạn có thể tinh chỉnh mô hình hình ảnh lớn đã được huấn luyện trước để tạo mô hình hồi quy trả về số lượng chim trong hình ảnh đầu vào.

So sánh và đối chiếu tinh chỉnh với các thuật ngữ sau:

G

AI tạo sinh

#language
#image
#generativeAI (AI tạo sinh)

Một trường biến đổi mới nổi chưa có định nghĩa chính thức. Tuy nhiên, hầu hết các chuyên gia đều đồng ý rằng mô hình AI tạo sinh có thể tạo ra nội dung đáp ứng tất cả những điều kiện sau:

  • phức tạp
  • nhất quán
  • gốc

Ví dụ: một mô hình AI tạo sinh có thể tạo ra những bài tiểu luận hoặc hình ảnh phức tạp.

Một số công nghệ trước đây, trong đó có LSTMRNN, cũng có thể tạo ra nội dung nguyên gốc và nhất quán. Một số chuyên gia coi những công nghệ trước đây là AI tạo sinh, trong khi một số khác cảm thấy rằng AI tạo sinh thực sự cần đầu ra phức tạp hơn so với những công nghệ trước đó có thể tạo ra.

Trái ngược với công nghệ công nghệ học máy dự đoán.

I

nhận dạng hình ảnh

#image

Một quá trình phân loại đối tượng, mẫu hoặc khái niệm trong hình ảnh. Tính năng nhận dạng hình ảnh còn được gọi là phân loại hình ảnh.

Để biết thêm thông tin, hãy xem bài viết Thực hành học máy: Phân loại hình ảnh.

giao lộ trên giao nhau (IoU)

#image

Giao điểm của hai tập hợp chia cho hợp nhất của chúng. Trong các nhiệm vụ phát hiện hình ảnh trong công nghệ học máy, IoU được dùng để đo lường độ chính xác của hộp giới hạn được dự đoán của mô hình liên quan đến hộp giới hạn thực tế. Trong trường hợp này, IoU cho hai hộp là tỷ lệ giữa diện tích chồng chéo và tổng diện tích, đồng thời giá trị của nó nằm trong khoảng từ 0 (không trùng lặp hộp giới hạn dự đoán và hộp giới hạn chân thực) đến 1 (hộp giới hạn dự đoán và hộp giới hạn chân thực có cùng toạ độ).

Ví dụ như trong hình dưới đây:

  • Hộp giới hạn dự đoán (tọa độ phân định vị trí đặt mô hình dự đoán bảng đêm trong tranh) được tô màu tím.
  • Hộp giới hạn chân thực (tọa độ phân định vị trí thực sự của bảng đêm trong tranh) được tô màu xanh lục.

Bức tranh "Phòng ngủ của Vincent ở Arles" của Van Gogh, có hai
          hộp bao quanh khác nhau xung quanh bàn đêm bên cạnh giường. Hộp giới hạn chân thực (màu xanh lục) bao quanh bàn đêm một cách hoàn hảo. Hộp giới hạn dự đoán (màu tím) được bù trừ 50% xuống dưới và ở bên phải của hộp giới hạn chân thực; hộp này bao quanh một phần tư dưới cùng bên phải của bảng ban đêm, nhưng bỏ lỡ phần còn lại của bảng.

Ở đây, giao điểm của các hộp giới hạn cho dự đoán và thực tế thực tế (bên dưới bên trái) là 1, và tổng các hộp giới hạn cho dự đoán và sự thật thực tế (ở dưới bên phải) là 7, vì vậy IoU là \(\frac{1}{7}\).

Hình ảnh tương tự như trên, nhưng với mỗi hộp giới hạn được chia thành 4 góc phần tư. Có tổng cộng 7 góc phần tư, vì góc phần tư dưới cùng bên phải của hộp giới hạn dựa trên thực tế và góc phần tư trên cùng bên trái của hộp giới hạn theo dự đoán chồng lên nhau. Phần chồng chéo này (được đánh dấu bằng màu xanh lục) đại diện cho giao điểm và có diện tích là 1. Hình ảnh tương tự như trên, nhưng với mỗi hộp giới hạn được chia thành 4 góc phần tư. Có tổng cộng 7 góc phần tư, vì góc phần tư dưới cùng bên phải của hộp giới hạn dựa trên thực tế và góc phần tư trên cùng bên trái của hộp giới hạn theo dự đoán chồng lên nhau.
          Toàn bộ phần bên trong được bao quanh bởi cả hai hộp giới hạn (được đánh dấu bằng màu xanh lục) đại diện cho sự hợp nhất và có diện tích là 7.

nghìn

điểm chính

#image

Toạ độ của các đối tượng cụ thể trong một hình ảnh. Ví dụ: đối với mô hình nhận dạng hình ảnh giúp phân biệt các loài hoa, điểm chính có thể là tâm của mỗi cánh hoa, thân, nhị hoa, v.v.

L

mốc

#image

Từ đồng nghĩa với keypoints.

M

MNIST

#image

Một tập dữ liệu thuộc phạm vi công cộng do LeCun, Cortes và Burges biên soạn, chứa 60.000 hình ảnh, mỗi hình ảnh cho thấy cách con người viết một chữ số cụ thể từ 0 đến 9 theo cách thủ công. Mỗi hình ảnh được lưu trữ dưới dạng một mảng số nguyên có kích thước 28x28, trong đó mỗi số nguyên là một giá trị thang màu xám từ 0 đến 255.

MNIST là một tập dữ liệu chính tắc cho công nghệ học máy, thường được dùng để kiểm tra các phương pháp học máy mới. Để biết thông tin chi tiết, hãy xem phần Cơ sở dữ liệu của MNIST về các chữ số viết tay.

Điểm

gộp

#image

Giảm ma trận (hoặc ma trận) do lớp tích chập trước đó tạo thành một ma trận nhỏ hơn. Việc gộp nhóm thường liên quan đến việc lấy giá trị tối đa hoặc trung bình trong khu vực gộp. Ví dụ: giả sử chúng ta có ma trận 3x3 như sau:

Ma trận 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Phép toán gộp, giống như toán tử tích chập, chia ma trận đó thành các lát rồi trượt phép tính tích chập đó bằng bước tiến. Ví dụ: giả sử thao tác gộp chia ma trận tích chập thành các lát 2x2 với sải chân 1x1. Như biểu đồ dưới đây minh hoạ, có 4 hoạt động gộp diễn ra. Hãy tưởng tượng mỗi hoạt động gộp chọn giá trị tối đa là 4 trong lát cắt đó:

Ma trận đầu vào là 3x3 với các giá trị: [[5,3,1], [8,2,5], [9,4,3]].
          Ma trận con 2x2 trên cùng bên trái của ma trận đầu vào là [[5,3], [8,2]], vì vậy, thao tác gộp ở trên cùng bên trái sẽ tạo ra giá trị 8 (tối đa là 5, 3, 8 và 2). Ma trận con 2x2 trên cùng bên phải của ma trận đầu vào là [[3,1], [2,5]], vì vậy thao tác gộp trên cùng bên phải sẽ tạo ra giá trị 5. Ma trận con 2x2 dưới cùng bên trái của ma trận đầu vào là [[8,2], [9,4]], vì vậy, thao tác gộp từ dưới cùng bên trái sẽ tạo ra giá trị 9. Ma trận con 2x2 dưới cùng bên phải của ma trận đầu vào là [[2,5], [4,3]], vì vậy thao tác gộp dưới cùng bên phải sẽ tạo ra giá trị 5. Tóm lại, thao tác gộp sẽ tạo ra ma trận 2x2 [[8,5], [9,5]].

Việc gộp nhóm giúp thực thi phương sai dịch mã trong ma trận đầu vào.

Hoạt động gộp cho các ứng dụng liên quan đến thị giác thường được gọi là nhóm không gian. Các ứng dụng chuỗi thời gian thường gọi là nhóm thời gian. Nói một cách đơn giản hơn, gộp nhóm thường được gọi là lấy mẫu phụ hoặc giảm tần số lấy mẫu.

mô hình luyện sẵn

#language
#image
#generativeAI (AI tạo sinh)

Các mô hình hoặc thành phần mô hình (chẳng hạn như vectơ nhúng) đã được huấn luyện. Đôi khi, bạn sẽ cung cấp các vectơ nhúng đã được huấn luyện trước vào mạng nơron. Những lúc khác, mô hình của bạn sẽ tự huấn luyện các vectơ nhúng thay vì dựa vào các vectơ nhúng đã được huấn luyện trước.

Thuật ngữ mô hình ngôn ngữ luyện trước dùng để chỉ một mô hình ngôn ngữ lớn đã trải qua quá trình đào tạo trước.

huấn luyện trước

#language
#image
#generativeAI (AI tạo sinh)

Huấn luyện ban đầu của một mô hình trên một tập dữ liệu lớn. Một số mô hình đã huấn luyện trước là những mô hình khổng lồ và thường phải được tinh chỉnh thông qua việc huấn luyện bổ sung. Ví dụ: các chuyên gia học máy có thể huấn luyện trước một mô hình ngôn ngữ lớn trên một tập dữ liệu văn bản khổng lồ, chẳng hạn như mọi trang tiếng Anh trên Wikipedia. Sau khi qua quá trình huấn luyện trước, mô hình kết quả có thể được tinh chỉnh thêm thông qua bất kỳ kỹ thuật nào sau đây:

R

bất biến xoay

#image

Trong một vấn đề về phân loại hình ảnh, thuật toán có thể phân loại thành công hình ảnh ngay cả khi hướng của hình ảnh thay đổi. Ví dụ: thuật toán vẫn có thể xác định một cây vợt tennis cho dù cây vợt đó hướng lên trên, xoay nghiêng hay hướng xuống. Lưu ý rằng bất biến xoay không phải lúc nào cũng mong muốn; ví dụ: số 9 lộn ngược không nên được phân loại là số 9.

Xem thêm về biến số dịchbiến sai kích thước.

S

biến thiên kích thước

#image

Trong một vấn đề về phân loại hình ảnh, thuật toán có thể phân loại thành công hình ảnh ngay cả khi kích thước hình ảnh thay đổi. Ví dụ: thuật toán vẫn có thể xác định một con mèo cho dù nó tiêu thụ 2 triệu pixel hay 200 nghìn pixel. Xin lưu ý rằng ngay cả các thuật toán phân loại hình ảnh tốt nhất vẫn có các giới hạn thực tế về biến thiên kích thước. Ví dụ: một thuật toán (hoặc con người) khó có thể phân loại chính xác một hình ảnh mèo chỉ tiêu thụ 20 pixel.

Xem thêm về biến số dịchbiến số xoay.

gộp nhóm không gian

#image

Xem nội dung về pooling.

sải chân

#image

Trong một phép tính tích chập hoặc gộp, delta trong mỗi chiều của loạt lát đầu vào tiếp theo. Ví dụ: ảnh động sau đây minh hoạ sải chân (1,1) trong một toán tử tích chập. Do đó, lát đầu vào tiếp theo bắt đầu một vị trí ở bên phải của lát đầu vào trước đó. Khi thao tác đạt đến cạnh phải, lát cắt tiếp theo sẽ di chuyển sang trái nhưng vẫn ở dưới một vị trí.

Một ma trận 5x5 đầu vào và một bộ lọc tích chập 3x3. Vì sải chân là (1,1), nên bộ lọc tích chập sẽ được áp dụng 9 lần. Lát cắt chập đầu tiên đánh giá ma trận con 3x3 trên cùng bên trái của ma trận đầu vào. Lát cắt thứ hai đánh giá ma trận con 3x3 ở giữa trên cùng. Lát cắt chập thứ ba đánh giá ma trận con 3x3 trên cùng bên phải.  Lát cắt thứ tư đánh giá ma trận con 3x3 ở giữa bên trái.
     Lát cắt thứ năm đánh giá ma trận con 3x3 ở giữa. Lát cắt thứ sáu đánh giá ma trận con 3x3 ở giữa bên phải. Lát cắt thứ bảy đánh giá ma trận con 3x3 dưới cùng bên trái.  Lát cắt thứ 8 đánh giá ma trận con 3x3 ở giữa dưới cùng. Lát cắt thứ 9 đánh giá ma trận con 3x3 dưới cùng bên phải.

Ví dụ trước minh hoạ sải chân hai chiều. Nếu ma trận đầu vào là ma trận ba chiều, sải chân cũng sẽ là ba chiều.

lấy mẫu phụ

#image

Xem nội dung về pooling.

T

nhiệt độ

#language
#image
#generativeAI (AI tạo sinh)

Siêu tham số kiểm soát mức độ ngẫu nhiên của dữ liệu đầu ra của mô hình. Nhiệt độ cao hơn dẫn đến kết quả ngẫu nhiên nhiều hơn, trong khi nhiệt độ thấp hơn dẫn đến kết quả ngẫu nhiên ít hơn.

Việc chọn nhiệt độ tốt nhất phụ thuộc vào ứng dụng cụ thể và các thuộc tính mong muốn của đầu ra của mô hình. Ví dụ: bạn có thể tăng nhiệt độ khi tạo một ứng dụng tạo đầu ra mẫu quảng cáo. Ngược lại, bạn có thể giảm nhiệt độ khi xây dựng một mô hình phân loại hình ảnh hoặc văn bản để cải thiện độ chính xác và tính nhất quán của mô hình.

Nhiệt độ thường được dùng với softmax.

biến thiên tịnh tiến

#image

Trong một vấn đề về phân loại hình ảnh, thuật toán có thể phân loại thành công hình ảnh ngay cả khi vị trí của các đối tượng trong hình ảnh thay đổi. Ví dụ: thuật toán vẫn có thể xác định một chú chó, cho dù chú chó ở chính giữa khung hình hay ở đầu bên trái khung hình.

Xem thêm về biến số kích thướcbiến số xoay.