Bảng thuật ngữ về máy học: Mô hình hình ảnh

Trang này chứa các thuật ngữ trong từ điển về Mô hình hình ảnh. Để xem tất cả các thuật ngữ trong từ điển, hãy nhấp vào đây.

A

thực tế tăng cường

#image

Công nghệ phủ hình ảnh do máy tính tạo lên chế độ xem của người dùng về thế giới thực, từ đó cung cấp chế độ xem tổng hợp.

bộ tự mã hoá

#language
#image

Một hệ thống học cách trích xuất thông tin quan trọng nhất từ dữ liệu đầu vào. Bộ tự mã hoá là sự kết hợp giữa bộ mã hoábộ giải mã. Bộ tự mã hoá dựa trên quy trình hai bước sau:

  1. Bộ mã hoá ánh xạ đầu vào đến một định dạng (thường) có kích thước thấp hơn (trung gian) bị mất dữ liệu.
  2. Bộ giải mã tạo một phiên bản có tổn hao của dữ liệu đầu vào ban đầu bằng cách ánh xạ định dạng chiều thấp hơn với định dạng đầu vào chiều cao hơn ban đầu.

Bộ tự mã hoá được huấn luyện toàn diện bằng cách yêu cầu bộ giải mã cố gắng tái tạo dữ liệu đầu vào ban đầu từ định dạng trung gian của bộ mã hoá gần nhất có thể. Vì định dạng trung gian nhỏ hơn (có kích thước thấp hơn) so với định dạng ban đầu, nên bộ tự mã hoá buộc phải tìm hiểu thông tin nào trong dữ liệu đầu vào là cần thiết và dữ liệu đầu ra sẽ không giống hệt với dữ liệu đầu vào.

Ví dụ:

  • Nếu dữ liệu đầu vào là đồ hoạ, thì bản sao không chính xác sẽ tương tự như đồ hoạ gốc, nhưng có một chút sửa đổi. Có thể bản sao không chính xác sẽ loại bỏ nhiễu khỏi đồ hoạ gốc hoặc lấp đầy một số pixel bị thiếu.
  • Nếu dữ liệu đầu vào là văn bản, thì bộ tự mã hoá sẽ tạo văn bản mới mô phỏng (nhưng không giống với) văn bản gốc.

Xem thêm tự mã hoá biến thiên.

mô hình tự hồi quy

#language
#image
#generativeAI

Mô hình suy luận một dự đoán dựa trên các dự đoán trước đó của chính mô hình đó. Ví dụ: mô hình ngôn ngữ tự hồi quy dự đoán mã thông báo tiếp theo dựa trên các mã thông báo đã dự đoán trước đó. Tất cả mô hình ngôn ngữ lớn dựa trên Transformer đều tự hồi quy.

Ngược lại, các mô hình hình ảnh dựa trên GAN thường không tự động hồi quy vì các mô hình này tạo hình ảnh trong một lượt truyền tới và không lặp lại theo các bước. Tuy nhiên, một số mô hình tạo hình ảnh tự hồi quy vì tạo hình ảnh theo từng bước.

B

hộp giới hạn

#image

Trong một hình ảnh, tọa độ (x, y) của một hình chữ nhật xung quanh một khu vực quan tâm, chẳng hạn như chú chó trong hình ảnh bên dưới.

Ảnh chụp một chú chó ngồi trên ghế sofa. Một hộp giới hạn màu xanh lục với toạ độ trên cùng bên trái là (275, 1271) và toạ độ dưới cùng bên phải là (2954, 2761) bao quanh cơ thể của chú chó

C

tích chập

#image

Trong toán học, nói một cách đơn giản, đây là sự kết hợp của hai hàm. Trong học máy, phép tích chập kết hợp bộ lọc tích chập và ma trận đầu vào để huấn luyện hệ số trọng số.

Thuật ngữ "convolution" (phương pháp tích chập) trong học máy thường là cách viết tắt để tham chiếu đến toán tử tích chập hoặc lớp tích chập.

Nếu không có phép tích chập, thuật toán học máy sẽ phải học một trọng số riêng biệt cho mỗi ô trong một tensor lớn. Ví dụ: một thuật toán học máy được huấn luyện trên hình ảnh 2K x 2K sẽ buộc phải tìm 4 triệu trọng số riêng biệt. Nhờ phép tích chập, thuật toán học máy chỉ cần tìm trọng số cho mọi ô trong bộ lọc tích chập, giúp giảm đáng kể bộ nhớ cần thiết để huấn luyện mô hình. Khi áp dụng bộ lọc tích chập, bộ lọc này chỉ được sao chép trên các ô sao cho mỗi ô được nhân với bộ lọc.

Hãy xem phần Giới thiệu về mạng nơron xoáy trong khoá học Phân loại hình ảnh để biết thêm thông tin.

bộ lọc tích chập

#image

Một trong hai thành phần trong một toán tử tích chập. (Thành phần khác là một lát cắt của ma trận đầu vào.) Bộ lọc tích chập là một ma trận có cùng hạng với ma trận đầu vào, nhưng có hình dạng nhỏ hơn. Ví dụ: với ma trận đầu vào 28x28, bộ lọc có thể là bất kỳ ma trận 2D nào nhỏ hơn 28x28.

Trong quá trình xử lý ảnh, tất cả các ô trong bộ lọc tích chập thường được đặt thành một mẫu không đổi gồm các số 1 và 0. Trong học máy, các bộ lọc tích chập thường được tạo bằng số ngẫu nhiên, sau đó mạng huấn luyện các giá trị lý tưởng.

Hãy xem phần Convolution (Trường hợp tích chập) trong khoá học Phân loại hình ảnh để biết thêm thông tin.

lớp tích chập

#image

Một lớp của mạng nơron sâu, trong đó bộ lọc tích chập truyền dọc theo một ma trận đầu vào. Ví dụ: hãy xem xét bộ lọc tích chập 3x3 sau đây:

Một ma trận 3x3 có các giá trị sau: [[0,1,0], [1,0,1], [0,1,0]]

Ảnh động sau đây cho thấy một lớp convolutional bao gồm 9 phép toán convolutional liên quan đến ma trận đầu vào 5x5. Lưu ý rằng mỗi phép tính tích chập hoạt động trên một lát cắt 3x3 khác nhau của ma trận đầu vào. Ma trận 3x3 thu được (ở bên phải) bao gồm kết quả của 9 phép tích chập:

Ảnh động hiển thị hai ma trận. Ma trận đầu tiên là ma trận 5x5: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].
          Ma trận thứ hai là ma trận 3x3:
          [[181,303,618], [115,338,605], [169,351,560]].
          Ma trận thứ hai được tính bằng cách áp dụng bộ lọc tích luỹ [[0, 1, 0], [1, 0, 1], [0, 1, 0]] trên các tập hợp con 3x3 khác nhau của ma trận 5x5.

Hãy xem phần Lớp kết nối đầy đủ trong khoá học Phân loại hình ảnh để biết thêm thông tin.

mạng nơron tích chập

#image

Mạng nơron trong đó ít nhất một lớp là lớp tích chập. Một mạng nơron tích luỹ điển hình bao gồm một số tổ hợp của các lớp sau:

Mạng nơron tích chập đã đạt được thành công lớn trong một số loại vấn đề, chẳng hạn như nhận dạng hình ảnh.

phép tích chập

#image

Phép toán hai bước sau đây:

  1. Nhân theo phần tử của bộ lọc tích chập và một lát cắt của ma trận đầu vào. (Lát cắt của ma trận đầu vào có cùng thứ hạng và kích thước với bộ lọc tích chập.)
  2. Tổng của tất cả các giá trị trong ma trận tích thu được.

Ví dụ: hãy xem xét ma trận đầu vào 5x5 sau:

Ma trận 5x5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

Bây giờ, hãy tưởng tượng bộ lọc tích chập 2x2 sau:

Ma trận 2x2: [[1, 0], [0, 1]]

Mỗi phép toán tích chập bao gồm một lát cắt 2x2 của ma trận đầu vào. Ví dụ: giả sử chúng ta sử dụng lát cắt 2x2 ở góc trên bên trái của ma trận đầu vào. Do đó, phép tích chập trên lát cắt này sẽ có dạng như sau:

Áp dụng bộ lọc tích chập [[1, 0], [0, 1]] cho phần 2x2 ở trên cùng bên trái của ma trận đầu vào, tức là [[128,97], [35,22]].
          Bộ lọc tích chập giữ nguyên 128 và 22, nhưng đặt giá trị 0 cho 97 và 35. Do đó, phép tích chập sẽ trả về giá trị 150 (128+22).

Lớp tích chập bao gồm một loạt các phép toán tích chập, mỗi phép toán tác động lên một lát cắt khác nhau của ma trận đầu vào.

D

tăng cường dữ liệu

#image

Tăng phạm vi và số lượng ví dụ huấn luyện một cách nhân tạo bằng cách biến đổi các ví dụ hiện có để tạo thêm ví dụ. Ví dụ: giả sử hình ảnh là một trong các tính năng, nhưng tập dữ liệu của bạn không chứa đủ ví dụ về hình ảnh để mô hình học được các mối liên kết hữu ích. Tốt nhất là bạn nên thêm đủ hình ảnh được gắn nhãn vào tập dữ liệu để mô hình của bạn có thể huấn luyện đúng cách. Nếu không thể, tính năng tăng cường dữ liệu có thể xoay, kéo giãn và phản chiếu từng hình ảnh để tạo ra nhiều biến thể của hình ảnh ban đầu, có thể tạo ra đủ dữ liệu được gắn nhãn để cho phép huấn luyện hiệu quả.

mạng nơron tích chập có thể tách theo chiều sâu (sepCNN)

#image

Cấu trúc mạng nơron tích chập dựa trên Inception, nhưng các mô-đun Inception được thay thế bằng các phép tích chập có thể tách biệt theo chiều sâu. Còn gọi là Xception.

Một phép tích chập có thể tách theo chiều sâu (còn được viết tắt là phép tích chập có thể tách) phân tích một phép tích chập 3D chuẩn thành hai phép tích chập riêng biệt hiệu quả hơn về mặt tính toán: trước tiên là phép tích chập theo chiều sâu, với chiều sâu là 1 (n ✕ n ✕ 1), sau đó là phép tích chập theo điểm, với chiều dài và chiều rộng là 1 (1 ✕ 1 ✕ n).

Để tìm hiểu thêm, hãy xem bài viết Xception: Học sâu bằng phép tích chập có thể tách biệt theo chiều sâu.

lấy mẫu giảm

#image

Thuật ngữ nạp chồng có thể có một trong những ý nghĩa sau:

  • Giảm lượng thông tin trong một tính năng để huấn luyện mô hình hiệu quả hơn. Ví dụ: trước khi huấn luyện mô hình nhận dạng hình ảnh, hãy giảm mẫu hình ảnh có độ phân giải cao xuống định dạng có độ phân giải thấp hơn.
  • Huấn luyện trên tỷ lệ phần trăm thấp không tương xứng của các ví dụ về lớp được trình bày quá mức để cải thiện việc huấn luyện mô hình trên các lớp được trình bày không đầy đủ. Ví dụ: trong một tập dữ liệu không cân bằng về lớp, các mô hình có xu hướng học nhiều về lớp đa số và không đủ về lớp thiểu số. Việc lấy mẫu giảm giúp cân bằng lượng dữ liệu huấn luyện trên các lớp đa số và thiểu số.

Hãy xem phần Tập dữ liệu: Tập dữ liệu bất cân đối trong Khoá học học máy ứng dụng để biết thêm thông tin.

F

tinh chỉnh

#language
#image
#generativeAI

Lần truyền huấn luyện thứ hai, dành riêng cho tác vụ, được thực hiện trên một mô hình được huấn luyện trước để tinh chỉnh các tham số của mô hình cho một trường hợp sử dụng cụ thể. Ví dụ: trình tự huấn luyện đầy đủ cho một số mô hình ngôn ngữ lớn như sau:

  1. Huấn luyện trước: Huấn luyện một mô hình ngôn ngữ lớn trên một tập dữ liệu chung khổng lồ, chẳng hạn như tất cả các trang Wikipedia bằng tiếng Anh.
  2. Điều chỉnh chi tiết: Huấn luyện mô hình đã huấn luyện trước để thực hiện một nhiệm vụ cụ thể, chẳng hạn như phản hồi các truy vấn y tế. Việc tinh chỉnh thường liên quan đến hàng trăm hoặc hàng nghìn ví dụ tập trung vào một nhiệm vụ cụ thể.

Ví dụ khác: trình tự huấn luyện đầy đủ cho mô hình hình ảnh lớn như sau:

  1. Huấn luyện trước: Huấn luyện một mô hình hình ảnh lớn trên một tập dữ liệu hình ảnh chung rộng lớn, chẳng hạn như tất cả hình ảnh trong Wikimedia Commons.
  2. Điều chỉnh chi tiết: Huấn luyện mô hình đã huấn luyện trước để thực hiện một nhiệm vụ cụ thể, chẳng hạn như tạo hình ảnh cá voi sát thủ.

Việc tinh chỉnh có thể bao gồm bất kỳ tổ hợp nào của các chiến lược sau:

  • Sửa đổi tất cả tham số hiện có của mô hình được huấn luyện trước. Đôi khi, quá trình này được gọi là điều chỉnh chi tiết đầy đủ.
  • Chỉ sửa đổi một số tham số hiện có của mô hình được huấn luyện trước (thường là các lớp gần nhất với lớp đầu ra), trong khi giữ nguyên các tham số hiện có khác (thường là các lớp gần nhất với lớp đầu vào). Xem phần chỉnh sửa hiệu quả thông số.
  • Thêm các lớp khác, thường là trên các lớp hiện có gần nhất với lớp đầu ra.

Điều chỉnh chi tiết là một hình thức học chuyển đổi. Do đó, việc tinh chỉnh có thể sử dụng một hàm tổn thất hoặc loại mô hình khác với những hàm và loại mô hình dùng để huấn luyện mô hình được huấn luyện trước. Ví dụ: bạn có thể điều chỉnh mô hình hình ảnh lớn được huấn luyện trước để tạo mô hình hồi quy trả về số lượng chim trong hình ảnh đầu vào.

So sánh và đối chiếu việc tinh chỉnh với các thuật ngữ sau:

Hãy xem phần Chỉnh sửa chi tiết trong Khoá học học máy ứng dụng để biết thêm thông tin.

G

Gemini

#language
#image
#generativeAI

Hệ sinh thái bao gồm AI tiên tiến nhất của Google. Các thành phần của hệ sinh thái này bao gồm:

  • Nhiều mô hình Gemini.
  • Giao diện trò chuyện tương tác với mô hình Gemini. Người dùng nhập câu lệnh và Gemini sẽ phản hồi các câu lệnh đó.
  • Nhiều API Gemini.
  • Nhiều sản phẩm dành cho doanh nghiệp dựa trên các mô hình Gemini; ví dụ: Gemini cho Google Cloud.

Mô hình Gemini

#language
#image
#generativeAI

Các mô hình đa phương thức dựa trên Transformer tiên tiến của Google. Các mô hình Gemini được thiết kế riêng để tích hợp với các tác nhân.

Người dùng có thể tương tác với các mô hình Gemini theo nhiều cách, bao gồm cả thông qua giao diện hộp thoại tương tác và thông qua SDK.

AI tạo sinh

#language
#image
#generativeAI

Một lĩnh vực chuyển đổi mới nổi không có định nghĩa chính thức. Tuy nhiên, hầu hết các chuyên gia đều đồng ý rằng các mô hình AI tạo sinh có thể tạo ("tạo") nội dung đáp ứng tất cả các yêu cầu sau:

  • phức tạp
  • nhất quán
  • gốc

Ví dụ: mô hình AI tạo sinh có thể tạo các bài tiểu luận hoặc hình ảnh phức tạp.

Một số công nghệ trước đây, bao gồm cả LSTMRNN, cũng có thể tạo nội dung nguyên gốc và nhất quán. Một số chuyên gia xem những công nghệ trước đây này là AI tạo sinh, trong khi những người khác lại cho rằng AI tạo sinh thực sự đòi hỏi đầu ra phức tạp hơn so với những công nghệ trước đó có thể tạo ra.

Trái ngược với máy học dự đoán.

I

nhận dạng hình ảnh

#image

Một quy trình phân loại(các) đối tượng, (các) mẫu hoặc(các) khái niệm trong một hình ảnh. Nhận dạng hình ảnh còn được gọi là phân loại hình ảnh.

Để biết thêm thông tin, hãy xem bài viết Lớp học thực hành về học máy: Phân loại hình ảnh.

Hãy xem khoá học Thực hành về học máy: Phân loại hình ảnh để biết thêm thông tin.

giao điểm trên liên kết (IoU)

#image

Giao của hai tập hợp chia cho hợp của chúng. Trong các nhiệm vụ phát hiện hình ảnh bằng máy học, IoU được dùng để đo lường độ chính xác của hộp giới hạn dự đoán của mô hình so với hộp giới hạn đầu ra thực sự. Trong trường hợp này, IoU cho hai hộp là tỷ lệ giữa diện tích trùng lặp và tổng diện tích, và giá trị của nó nằm trong khoảng từ 0 (không có sự trùng lặp giữa hộp giới hạn dự đoán và hộp giới hạn thực tế) đến 1 (hộp giới hạn dự đoán và hộp giới hạn thực tế có cùng toạ độ).

Ví dụ: trong hình ảnh bên dưới:

  • Hộp giới hạn được dự đoán (tọa độ xác định vị trí mà mô hình dự đoán là chiếc bàn đêm trong bức tranh) được viền màu tím.
  • Hộp giới hạn thực tế (các toạ độ xác định vị trí thực tế của bàn đêm trong bức tranh) được viền màu xanh lục.

Bức tranh của Van Gogh có tên Phòng ngủ của Vincent ở Arles, với hai hộp giới hạn khác nhau xung quanh chiếc bàn cạnh giường. Hộp giới hạn thực tế (màu xanh lục) bao quanh hoàn hảo chiếc bàn ban đêm. Hộp giới hạn dự đoán (màu tím) bị dịch chuyển xuống 50% và sang phải hộp giới hạn thực tế; hộp này bao gồm phần tư dưới cùng bên phải của bàn đêm, nhưng bỏ lỡ phần còn lại của bàn.

Ở đây, giao của các hộp giới hạn cho kết quả dự đoán và giá trị thực tế (dưới bên trái) là 1 và hợp của các hộp giới hạn cho kết quả dự đoán và giá trị thực tế (dưới bên phải) là 7, do đó, IoU là \(\frac{1}{7}\).

Hình ảnh giống như trên, nhưng mỗi hộp giới hạn được chia thành bốn góc phần tư. Tổng cộng có 7 góc phần tư, vì góc phần tư dưới cùng bên phải của hộp giới hạn thực tế và góc phần tư trên cùng bên trái của hộp giới hạn dự đoán chồng chéo lên nhau. Phần chồng chéo này (được đánh dấu màu xanh lục) biểu thị giao điểm và có diện tích là 1. Hình ảnh giống như trên, nhưng mỗi hộp giới hạn được chia thành bốn góc phần tư. Tổng cộng có 7 góc phần tư, vì góc phần tư dưới cùng bên phải của hộp giới hạn thực tế và góc phần tư trên cùng bên trái của hộp giới hạn dự đoán chồng chéo lên nhau.
          Toàn bộ phần bên trong được bao quanh bởi cả hai hộp giới hạn (được làm nổi bật bằng màu xanh lục) đại diện cho tập hợp hợp nhất và có diện tích là 7.

nghìn

điểm chính

#image

Toạ độ của các đặc điểm cụ thể trong hình ảnh. Ví dụ: đối với mô hình nhận dạng hình ảnh giúp phân biệt các loài hoa, các điểm chính có thể là tâm của mỗi cánh hoa, thân cây, nhị hoa, v.v.

L

địa danh

#image

Từ đồng nghĩa với điểm chính.

M

MMIT

#language
#image
#generativeAI

Viết tắt của được điều chỉnh theo hướng dẫn đa phương thức.

MNIST

#image

Một tập dữ liệu thuộc phạm vi công cộng do LeCun, Cortes và Burges biên soạn, chứa 60.000 hình ảnh, mỗi hình ảnh cho thấy cách một người viết một chữ số cụ thể từ 0 đến 9 theo cách thủ công. Mỗi hình ảnh được lưu trữ dưới dạng một mảng 28x28 gồm các số nguyên, trong đó mỗi số nguyên là một giá trị thang màu xám từ 0 đến 255.

MNIST là một tập dữ liệu chuẩn hoá cho học máy, thường được dùng để kiểm thử các phương pháp học máy mới. Để biết thông tin chi tiết, hãy xem bài viết Cơ sở dữ liệu MNIST về chữ số viết tay.

MOE

#language
#image
#generativeAI

Viết tắt của nhóm chuyên gia.

Điểm

gộp

#image

Giảm một ma trận (hoặc các ma trận) do một lớp tích chập trước đó tạo thành một ma trận nhỏ hơn. Việc gộp thường liên quan đến việc lấy giá trị tối đa hoặc trung bình trên khu vực được gộp. Ví dụ: giả sử chúng ta có ma trận 3x3 sau:

Ma trận 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Một phép hợp nhất, giống như phép tích chập, chia ma trận đó thành các lát cắt, sau đó trượt phép tích chập đó theo bước. Ví dụ: giả sử phép hợp nhất chia ma trận tích chập thành các lát cắt 2x2 với bước 1x1. Như sơ đồ sau đây minh hoạ, 4 phép hợp nhất sẽ diễn ra. Hãy tưởng tượng rằng mỗi phép hợp nhất chọn giá trị tối đa trong số bốn giá trị trong lát cắt đó:

Ma trận đầu vào có kích thước 3x3 với các giá trị: [[5,3,1], [8,2,5], [9,4,3]].
          Ma trận con 2x2 trên cùng bên trái của ma trận đầu vào là [[5,3], [8,2]], vì vậy, phép hợp nhất trên cùng bên trái sẽ trả về giá trị 8 (là giá trị tối đa của 5, 3, 8 và 2). Ma trận con 2x2 ở trên cùng bên phải của ma trận đầu vào là [[3,1], [2,5]], vì vậy, phép hợp nhất ở trên cùng bên phải sẽ trả về giá trị 5. Ma trận con 2x2 ở dưới cùng bên trái của ma trận đầu vào là [[8,2], [9,4]], vì vậy, phép hợp nhất ở dưới cùng bên trái sẽ trả về giá trị 9. Ma trận con 2x2 ở dưới cùng bên phải của ma trận đầu vào là [[2,5], [4,3]], do đó, phép hợp nhất ở dưới cùng bên phải sẽ trả về giá trị 5. Tóm lại, phép gộp sẽ tạo ra ma trận 2x2
          [[8,5], [9,5]].

Tính năng gộp giúp thực thi bất biến dịch chuyển trong ma trận đầu vào.

Việc gộp dữ liệu cho các ứng dụng thị giác được gọi chính thức là gộp không gian. Các ứng dụng chuỗi thời gian thường gọi việc gộp dữ liệu là gộp dữ liệu theo thời gian. Không chính thức, việc gộp thường được gọi là lấy mẫu phụ hoặc lấy mẫu giảm.

mô hình sau khi huấn luyện

#language
#image
#generativeAI

Thuật ngữ được xác định không rõ ràng, thường đề cập đến một mô hình được huấn luyện trước đã trải qua một số quy trình xử lý sau, chẳng hạn như một hoặc nhiều quy trình sau:

mô hình được huấn luyện sẵn

#language
#image
#generativeAI

Thông thường, một mô hình đã được huấn luyện. Thuật ngữ này cũng có thể có nghĩa là một vectơ nhúng đã được huấn luyện trước đó.

Thuật ngữ mô hình ngôn ngữ được huấn luyện trước thường đề cập đến một mô hình ngôn ngữ lớn đã được huấn luyện.

huấn luyện trước

#language
#image
#generativeAI

Quá trình huấn luyện ban đầu của một mô hình trên một tập dữ liệu lớn. Một số mô hình được huấn luyện trước là những gã khổng lồ vụng về và thường phải được tinh chỉnh thông qua quá trình huấn luyện bổ sung. Ví dụ: các chuyên gia về học máy có thể huấn luyện trước một mô hình ngôn ngữ lớn trên một tập dữ liệu văn bản khổng lồ, chẳng hạn như tất cả các trang tiếng Anh trong Wikipedia. Sau khi huấn luyện trước, mô hình thu được có thể được tinh chỉnh thêm thông qua bất kỳ kỹ thuật nào sau đây:

Điểm

bất biến khi xoay

#image

Trong một vấn đề phân loại hình ảnh, khả năng của thuật toán để phân loại thành công hình ảnh ngay cả khi hướng của hình ảnh thay đổi. Ví dụ: Dù vợt tennis hướng lên, sang ngang hay hướng xuống, thuật toán vẫn có thể xác định được. Xin lưu ý rằng không phải lúc nào tính bất biến đối với phép xoay cũng là mong muốn; ví dụ: số 9 lộn ngược không được phân loại là số 9.

Xem thêm về bất biến theo phép dịchbất biến theo kích thước.

S

bất biến khi thay đổi kích thước

#image

Trong một vấn đề phân loại hình ảnh, khả năng của thuật toán để phân loại thành công hình ảnh ngay cả khi kích thước của hình ảnh thay đổi. Ví dụ: Dù hình ảnh có tiêu thụ 2 triệu pixel hay 200 nghìn pixel, thuật toán vẫn có thể xác định được hình ảnh đó là một con mèo. Xin lưu ý rằng ngay cả các thuật toán phân loại hình ảnh tốt nhất vẫn có những giới hạn thực tế về tính bất biến về kích thước. Ví dụ: một thuật toán (hoặc con người) khó có thể phân loại chính xác một hình ảnh con mèo chỉ có 20 pixel.

Xem thêm bất biến theo phép dịchbất biến khi xoay.

gộp không gian

#image

Xem phần gộp.

sải chân

#image

Trong một phép toán tích chập hoặc hợp nhất, delta trong mỗi phương diện của loạt lát cắt đầu vào tiếp theo. Ví dụ: ảnh động sau đây minh hoạ bước (1,1) trong một phép toán tích chập. Do đó, lát cắt đầu vào tiếp theo bắt đầu ở vị trí bên phải lát cắt đầu vào trước đó. Khi thao tác này đạt đến cạnh phải, lát cắt tiếp theo sẽ nằm ở bên trái nhưng thấp hơn một vị trí.

Một ma trận đầu vào 5x5 và một bộ lọc tích chập 3x3. Vì bước là (1,1), nên bộ lọc tích chập sẽ được áp dụng 9 lần. Lát cắt tích chập đầu tiên đánh giá ma trận con 3x3 ở trên cùng bên trái của ma trận đầu vào. Lát cắt thứ hai đánh giá ma trận con 3x3 ở giữa trên cùng. Lát cắt tích chập thứ ba đánh giá ma trận con 3x3 ở trên cùng bên phải.  Lát cắt thứ tư đánh giá ma trận con 3x3 ở giữa bên trái.
     Lát cắt thứ năm đánh giá ma trận con 3x3 ở giữa. Lát cắt thứ sáu đánh giá ma trận con 3x3 ở giữa bên phải. Lát cắt thứ bảy đánh giá ma trận con 3x3 ở dưới cùng bên trái.  Lát cắt thứ tám đánh giá ma trận con 3x3 ở giữa dưới cùng. Lát cắt thứ chín đánh giá ma trận con 3x3 ở dưới cùng bên phải.

Ví dụ trước minh hoạ một bước hai chiều. Nếu ma trận đầu vào là ba chiều, thì bước cũng sẽ là ba chiều.

lấy mẫu phụ

#image

Xem phần gộp.

T

nhiệt độ

#language
#image
#generativeAI

Thông số siêu dữ liệu kiểm soát mức độ ngẫu nhiên của đầu ra của mô hình. Nhiệt độ càng cao thì đầu ra càng ngẫu nhiên, còn nhiệt độ càng thấp thì đầu ra càng ít ngẫu nhiên.

Việc chọn nhiệt độ tốt nhất phụ thuộc vào ứng dụng cụ thể và các thuộc tính ưu tiên của đầu ra của mô hình. Ví dụ: bạn có thể tăng nhiệt độ khi tạo một ứng dụng tạo ra đầu ra mẫu quảng cáo. Ngược lại, bạn có thể giảm nhiệt độ khi xây dựng mô hình phân loại hình ảnh hoặc văn bản để cải thiện độ chính xác và tính nhất quán của mô hình.

Nhiệt độ thường được sử dụng với softmax.

bất biến theo phép dịch

#image

Trong một vấn đề phân loại hình ảnh, khả năng của thuật toán để phân loại thành công hình ảnh ngay cả khi vị trí của các đối tượng trong hình ảnh thay đổi. Ví dụ: thuật toán vẫn có thể xác định một con chó, cho dù nó ở giữa khung hay ở cuối khung bên trái.

Xem thêm về bất biến theo kích thướcbất biến theo độ xoay.