Trang này chứa các thuật ngữ trong bảng thuật ngữ về Mô hình hình ảnh. Để biết tất cả các thuật ngữ trong bảng thuật ngữ, hãy nhấp vào đây.
Đáp
thực tế tăng cường
Công nghệ xếp chồng hình ảnh do máy tính tạo lên khung hiển thị thế giới thực của người dùng, do đó tạo ra khung hiển thị tổng hợp.
bộ mã hoá tự động
Một hệ thống học cách trích xuất thông tin quan trọng nhất từ đầu vào. Bộ mã hoá tự động là sự kết hợp giữa bộ mã hoá và bộ giải mã. Bộ mã hoá tự động dựa trên quy trình 2 bước sau đây:
- Bộ mã hoá ánh xạ dữ liệu đầu vào sang một định dạng chiều dưới (thường) có tổn hao (thường) với chiều thấp hơn (trung gian).
- Bộ giải mã tạo một phiên bản có tổn hao của đầu vào ban đầu bằng cách ánh xạ định dạng chiều thấp với định dạng đầu vào có chiều cao hơn ban đầu.
Các bộ mã hoá tự động được huấn luyện từ đầu đến cuối bằng cách yêu cầu bộ giải mã cố gắng tạo lại dữ liệu đầu vào ban đầu từ định dạng trung gian của bộ mã hoá một cách chặt chẽ nhất có thể. Vì định dạng trung gian nhỏ hơn (chiều thấp hơn) so với định dạng ban đầu, nên bộ mã hoá tự động buộc phải tìm hiểu thông tin nào trong đầu vào là cần thiết và đầu ra sẽ không hoàn toàn giống với đầu vào.
Ví dụ:
- Nếu dữ liệu đầu vào là một hình ảnh đồ hoạ, bản sao không chính xác sẽ tương tự như hình ảnh đồ hoạ gốc nhưng được sửa đổi một chút. Có thể bản sao không chính xác sẽ loại bỏ nhiễu khỏi hình ảnh gốc hoặc lấp đầy một số pixel bị thiếu.
- Nếu dữ liệu đầu vào là văn bản, thì bộ mã hoá tự động sẽ tạo văn bản mới mô phỏng (nhưng không giống với) văn bản gốc.
Xem thêm về bộ mã hoá tự động biến thiên.
mô hình hồi quy tự động
Một model dự đoán nội dung dự đoán dựa trên các dự đoán trước đó của chính nó. Ví dụ: các mô hình ngôn ngữ tự động hồi quy sẽ dự đoán mã thông báo tiếp theo dựa trên các mã thông báo dự đoán trước đó. Tất cả mô hình ngôn ngữ lớn dựa trên Transformer đều tự động hồi quy.
Ngược lại, các mô hình hình ảnh dựa trên GAN thường không tự động hồi quy vì các mô hình này tạo hình ảnh trong một lượt chuyển tiếp chứ không lặp lại trong các bước. Tuy nhiên, một số mô hình tạo hình ảnh nhất định có tự động hồi quy vì các mô hình này tạo hình ảnh theo các bước.
B
hộp giới hạn
Trong hình ảnh, toạ độ (x, y) của một hình chữ nhật xung quanh một khu vực quan tâm, chẳng hạn như chú chó trong hình ảnh dưới đây.
C
tích chập
Trong toán học, nói một cách tình cờ, đó là cả hai hàm số. Trong công nghệ học máy, phép tích chập sẽ kết hợp bộ lọc tích chập và ma trận đầu vào để huấn luyện trọng số.
Thuật ngữ "tích chập" trong công nghệ học máy thường là cách viết tắt để đề cập đến toán tử tích chập hoặc lớp tích chập.
Nếu không có tích chập, thuật toán học máy sẽ phải tìm hiểu trọng số riêng cho mỗi ô trong một tensor lớn. Ví dụ: Khi huấn luyện thuật toán học máy để huấn luyện các hình ảnh có kích thước 2K x 2K, chúng tôi sẽ buộc phải tìm các trọng số riêng biệt 4 triệu. Nhờ có tích chập, thuật toán học máy chỉ phải tìm trọng số cho mọi ô trong bộ lọc tích chập, giúp giảm đáng kể bộ nhớ cần thiết để huấn luyện mô hình. Khi áp dụng bộ lọc tích chập, bộ lọc này chỉ được sao chép trên các ô sao cho mỗi ô nhân với bộ lọc.
bộ lọc tích chập
Một trong hai diễn viên trong toán tử tích chập. (Tác nhân còn lại là một lát của ma trận đầu vào.) Bộ lọc tích chập là một ma trận có cùng thứ hạng với ma trận đầu vào nhưng có hình dạng nhỏ hơn. Ví dụ: với một ma trận đầu vào có kích thước 28x28, bộ lọc có thể là bất kỳ ma trận 2D nào nhỏ hơn 28x28.
Trong thao tác chụp ảnh, tất cả các ô trong bộ lọc tích chập thường được đặt thành một mẫu không đổi gồm số một và số 0. Trong công nghệ học máy, bộ lọc tích chập thường được chèn các số ngẫu nhiên, sau đó mạng đào tạo các giá trị lý tưởng.
lớp tích chập
Một lớp của mạng nơron sâu, trong đó bộ lọc tích chập truyền dọc theo một ma trận đầu vào. Ví dụ: hãy xem xét bộ lọc tích chập 3x3 sau đây:
Ảnh động sau đây cho thấy một lớp tích chập bao gồm 9 phép toán tích chập liên quan đến ma trận đầu vào 5x5. Lưu ý rằng mỗi phép tích chập hoạt động trên một lát 3x3 khác nhau của ma trận đầu vào. Ma trận 3x3 thu được (ở bên phải) bao gồm kết quả của 9 phép toán tích chập:
mạng nơron tích chập
Một mạng nơron, trong đó ít nhất một lớp là lớp chập. Một mạng nơron tích chập điển hình bao gồm một số tổ hợp các lớp sau:
Mạng nơron tích chập đã đạt được thành công lớn trong một số loại vấn đề, chẳng hạn như nhận dạng hình ảnh.
phép tích chập
Phép toán gồm hai bước sau đây:
- Phép nhân theo phần tử của bộ lọc tích chập và một lát của ma trận đầu vào. (Lát cắt của ma trận đầu vào có cùng thứ hạng và kích thước với bộ lọc tích chập.)
- Tổng của tất cả giá trị trong ma trận sản phẩm thu được.
Ví dụ: hãy xem xét ma trận đầu vào 5x5 sau:
Bây giờ, hãy tưởng tượng bộ lọc tích chập 2x2 sau:
Mỗi phép tích chập liên quan đến một lát 2x2 của ma trận đầu vào. Ví dụ: giả sử chúng ta sử dụng lát cắt 2x2 ở trên cùng bên trái của ma trận đầu vào. Vì vậy, phép tích chập trên lát cắt này sẽ có dạng như sau:
Lớp tích chập bao gồm một loạt các phép tính tích chập, mỗi phép tính hoạt động trên một phần khác nhau của ma trận đầu vào.
D
tăng cường dữ liệu
Tăng cường phạm vi và số lượng ví dụ đào tạo một cách giả tạo bằng cách chuyển đổi ví dụ hiện có để tạo thêm ví dụ. Ví dụ: giả sử hình ảnh là một trong các tính năng của bạn, nhưng tập dữ liệu không chứa đủ ví dụ hình ảnh để mô hình tìm hiểu các mối liên kết hữu ích. Tốt nhất là bạn nên thêm đủ hình ảnh có gắn nhãn vào tập dữ liệu để mô hình có thể huấn luyện đúng cách. Nếu không thể, tính năng tăng cường dữ liệu có thể xoay, kéo giãn và phản ánh từng hình ảnh để tạo ra nhiều biến thể của hình ảnh gốc, có thể mang lại đủ dữ liệu được gắn nhãn để cho phép huấn luyện hiệu quả.
mạng nơron tích chập phân tách được theo chiều sâu (sepCNN)
Cấu trúc mạng nơron tích chập dựa trên Inception, nhưng trong đó các mô-đun Inception được thay thế bằng quyền tích chập có thể phân tách theo chiều sâu. Còn được gọi là Xception.
Phép tích chập có thể phân tách theo chiều sâu (còn viết tắt là tích chập 3D chuẩn) chia tích chập 3D chuẩn thành hai phép tích chập riêng biệt hiệu quả hơn: thứ nhất là tích chập theo chiều sâu, với độ sâu 1 (n x n x 1), sau đó là tích chập 3x với độ dài và chiều rộng x x.
Để tìm hiểu thêm, hãy xem bài viết XTiếp theo: Học sâu với tách dữ liệu chuyên sâu để phân tách.
giảm tần số lấy mẫu
Thuật ngữ bị quá tải có thể có nghĩa là một trong những trường hợp sau:
- Giảm lượng thông tin trong một tính năng để huấn luyện mô hình hiệu quả hơn. Ví dụ: trước khi huấn luyện một mô hình nhận dạng hình ảnh, hãy giảm tần số lấy mẫu hình ảnh có độ phân giải cao xuống định dạng có độ phân giải thấp hơn.
- Đào tạo về một tỷ lệ không cân đối thấp các ví dụ về lớp có quá nhiều đại diện để cải thiện quy trình huấn luyện mô hình trên các lớp học có ít người đại diện. Ví dụ: trong một tập dữ liệu không cân bằng giữa lớp, các mô hình có xu hướng tìm hiểu nhiều về lớp đa số và không đủ thông tin về lớp phần phụ thuộc. Việc giảm tần số lấy mẫu giúp cân bằng thời lượng huấn luyện cho các lớp đa số và thiểu số.
F
tinh chỉnh
Lượt huấn luyện thứ hai, dành riêng cho từng tác vụ được thực hiện trên một mô hình luyện sẵn để tinh chỉnh các tham số cho một trường hợp sử dụng cụ thể. Ví dụ: trình tự huấn luyện đầy đủ cho một số mô hình ngôn ngữ lớn như sau:
- Đào tạo trước: Đào tạo một mô hình ngôn ngữ lớn trên một tập dữ liệu chung rộng lớn, chẳng hạn như tất cả các trang Wikipedia bằng tiếng Anh.
- Tinh chỉnh: Huấn luyện mô hình đã được huấn luyện trước để thực hiện một tác vụ cụ thể, chẳng hạn như phản hồi các truy vấn y tế. Việc tinh chỉnh thường bao gồm hàng trăm hoặc hàng nghìn ví dụ tập trung vào tác vụ cụ thể.
Một ví dụ khác về trình tự huấn luyện đầy đủ cho một mô hình hình ảnh lớn như sau:
- Đào tạo trước: Đào tạo một mô hình hình ảnh lớn trên một tập dữ liệu hình ảnh chung rộng lớn, chẳng hạn như tất cả hình ảnh trong Wikimedia commons.
- Tinh chỉnh: Huấn luyện mô hình được huấn luyện trước để thực hiện một tác vụ cụ thể, chẳng hạn như tạo hình ảnh cá voi sát thủ.
Việc tinh chỉnh có thể đòi hỏi bất kỳ tổ hợp nào của các chiến lược sau:
- Sửa đổi tất cả tham số hiện có của mô hình luyện sẵn. Quá trình này đôi khi được gọi là tinh chỉnh đầy đủ.
- Chỉ sửa đổi một số tham số hiện có của mô hình luyện sẵn (thường là các lớp gần nhất với lớp đầu ra), trong khi giữ nguyên các tham số hiện có khác (thường là các lớp gần nhất với lớp đầu vào). Xem phần điều chỉnh hiệu quả tham số.
- Thêm các lớp khác, thường là ở trên các lớp hiện có gần với lớp đầu ra nhất.
Tinh chỉnh là một hình thức học tập chuyển giao. Do đó, tính năng tinh chỉnh có thể sử dụng một hàm tổn hao khác hoặc một loại mô hình khác với các hàm dùng để huấn luyện mô hình được huấn luyện trước. Ví dụ: bạn có thể tinh chỉnh một mô hình hình ảnh lớn đã được huấn luyện trước để tạo một mô hình hồi quy trả về số lượng chim trong một hình ảnh đầu vào.
So sánh và đối chiếu tính năng tinh chỉnh với các thuật ngữ sau:
G
AI tạo sinh
Một trường biến đổi mới nổi chưa có định nghĩa chính thức. Tuy nhiên, hầu hết các chuyên gia đều đồng ý rằng mô hình AI tạo sinh có thể tạo ra nội dung đáp ứng tất cả những điều sau:
- phức tạp
- mạch lạc
- gốc
Ví dụ: Một mô hình AI tạo sinh có thể tạo các bài tiểu luận hoặc hình ảnh phức tạp.
Một số công nghệ trước đây, bao gồm cả LSTM và RNN, cũng có thể tạo nội dung nguyên gốc và nhất quán. Một số chuyên gia xem những công nghệ cũ này là AI tạo sinh, trong khi một số khác cho rằng AI tạo sinh thực sự đòi hỏi đầu ra phức tạp hơn so với những công nghệ trước đó có thể tạo ra.
Trái ngược với công nghệ học máy dự đoán.
I
nhận dạng hình ảnh
Một quy trình phân loại (các) đối tượng, mẫu hoặc khái niệm trong một hình ảnh. Tính năng nhận dạng hình ảnh còn được gọi là phân loại hình ảnh.
Để biết thêm thông tin, hãy xem Thực hành học máy: Phân loại hình ảnh.
giao điểm qua phần giao nhau (IoU)
Giao điểm của hai tập hợp được chia cho hợp của chúng. Trong các tác vụ phát hiện hình ảnh trong công nghệ học máy, IoU được dùng để đo lường độ chính xác của hộp giới hạn được dự đoán của mô hình đối với hộp giới hạn thực tế. Trong trường hợp này, IoU cho hai hộp là tỷ lệ giữa diện tích chồng chéo và tổng diện tích, đồng thời giá trị của nó dao động từ 0 (không chồng chéo hộp giới hạn dự đoán và hộp giới hạn thực tế) đến 1 (hộp giới hạn dự đoán và hộp giới hạn thực tế có cùng toạ độ).
Ví dụ như trong hình dưới đây:
- Hộp giới hạn dự đoán (các toạ độ phân định vị trí của mô hình dự đoán bảng ban đêm trong tranh) được vẽ màu tím.
- Hộp giới hạn dữ liệu thực (các toạ độ phân định vị trí thực sự của bảng đêm trong tranh) được vẽ bằng màu xanh lục.
Ở đây, giao điểm của các hộp giới hạn cho việc dự đoán và dữ liệu mặt đất (bên dưới bên trái) là 1, và sự hợp nhất của các hộp giới hạn cho việc dự đoán và dữ liệu mặt đất (ở dưới bên phải) là 7, vì vậy IoU là \(\frac{1}{7}\).
nghìn
điểm chính
Toạ độ của các đối tượng cụ thể trong một hình ảnh. Ví dụ: đối với mô hình nhận dạng hình ảnh giúp phân biệt các loài hoa, điểm chính có thể là tâm của mỗi cánh hoa, thân, nhị hoa, v.v.
L
điểm mốc
Từ đồng nghĩa với keypoints.
M
MNIST
Một tập dữ liệu thuộc phạm vi công cộng do LeCun, Cortes và Burges biên dịch, chứa 60.000 hình ảnh, mỗi hình ảnh cho thấy cách một người viết thủ công một chữ số cụ thể từ 0 đến 9. Mỗi hình ảnh được lưu trữ dưới dạng một mảng số nguyên có kích thước 28x28, trong đó mỗi số nguyên là một giá trị thang màu xám từ 0 đến 255.
MNIST là một tập dữ liệu chuẩn hoá cho công nghệ học máy, thường được dùng để thử nghiệm các phương pháp học máy mới. Để biết thông tin chi tiết, hãy xem Cơ sở dữ liệu MNIST về Chữ số viết tay.
Điểm
gộp
Giảm một ma trận (hoặc ma trận) do lớp tích chập tạo ra trước đó thành một ma trận nhỏ hơn. Phương pháp gộp thường liên quan đến việc lấy giá trị tối đa hoặc trung bình trong vùng gộp. Ví dụ, giả sử chúng ta có ma trận 3x3 sau:
Phép toán gộp, cũng giống như phép tích chập, chia ma trận đó thành nhiều phần rồi trượt phép tích chập đó qua bước tiến. Ví dụ: giả sử thao tác gộp chia ma trận tích chập thành các lát 2x2 với sải chân 1x1. Như minh hoạ trong sơ đồ dưới đây, 4 hoạt động gộp sẽ diễn ra. Hãy tưởng tượng rằng mỗi thao tác gộp chọn giá trị tối đa là 4 trong lát cắt đó:
Phương pháp gộp giúp thực thi bất biến dịch thuật trong ma trận đầu vào.
Quy trình gộp cho các ứng dụng liên quan đến thị giác được gọi chính thức hơn là gộp không gian. Ứng dụng chuỗi thời gian thường gọi quy trình gộp là tổng hợp thời gian. Nói một cách đơn giản hơn, việc gộp chung thường được gọi là lấy mẫu phụ hoặc giảm tần số lấy mẫu.
mô hình luyện sẵn
Các mô hình hoặc thành phần của mô hình (chẳng hạn như vectơ nhúng) đã được huấn luyện. Đôi khi, bạn sẽ đưa các vectơ nhúng đã qua huấn luyện vào một mạng nơron. Vào những lúc khác, mô hình của bạn sẽ tự huấn luyện các vectơ nhúng thay vì dựa vào các thành phần nhúng đã huấn luyện trước.
Thuật ngữ mô hình ngôn ngữ được huấn luyện trước đề cập đến một mô hình ngôn ngữ lớn đã trải qua quá trình đào tạo trước.
huấn luyện trước
Huấn luyện ban đầu của mô hình trên một tập dữ liệu lớn. Một số mô hình huấn luyện trước là những gã khổng lồ vụng về và thường phải được tinh chỉnh thông qua việc huấn luyện thêm. Ví dụ: các chuyên gia học máy có thể huấn luyện trước một mô hình ngôn ngữ lớn trên một tập dữ liệu văn bản khổng lồ, chẳng hạn như mọi trang tiếng Anh trên Wikipedia. Sau khi huấn luyện trước, mô hình thu được có thể được tinh chỉnh thêm thông qua bất kỳ kỹ thuật nào sau đây:
R
bất biến quay
Trong một bài toán phân loại hình ảnh, thuật toán có thể phân loại hình ảnh thành công ngay cả khi hướng của hình ảnh thay đổi. Ví dụ: thuật toán vẫn có thể xác định một cây vợt tennis hướng lên trên, sang bên hay hướng xuống. Lưu ý rằng bất biến khi xoay không phải lúc nào cũng mong muốn; ví dụ: không nên phân loại số 9 lộn ngược là 9.
Xem thêm về biến số dịch và biến thiên kích thước.
S
bất biến kích thước
Trong một bài toán phân loại hình ảnh, thuật toán có thể phân loại hình ảnh thành công ngay cả khi kích thước của hình ảnh thay đổi. Ví dụ: thuật toán vẫn có thể xác định một con mèo cho dù nó tiêu thụ 2 triệu pixel hay 200 nghìn pixel. Xin lưu ý rằng ngay cả các thuật toán phân loại hình ảnh tốt nhất vẫn có các giới hạn thực tế về bất biến kích thước. Ví dụ: một thuật toán (hoặc con người) khó có thể phân loại chính xác hình ảnh mèo chỉ tiêu thụ 20 pixel.
Hãy xem thêm về bất biến dịch thuật và bất biến xoay vòng.
gộp không gian
Xem tính năng nhóm.
sải chân
Trong một phép tích chập hoặc gộp, delta trong mỗi chiều của loạt lát đầu vào tiếp theo. Ví dụ: ảnh động sau đây minh hoạ một sải chân (1,1) trong một phép tích chập. Do đó, lát đầu vào tiếp theo sẽ bắt đầu một vị trí ở bên phải của lát đầu vào trước đó. Khi thao tác đạt đến cạnh phải, lát cắt tiếp theo sẽ vượt hoàn toàn sang trái nhưng chỉ còn một vị trí hướng xuống dưới.
Ví dụ trước minh hoạ sải chân hai chiều. Nếu ma trận đầu vào là ma trận ba chiều, thì sải chân cũng sẽ là ba chiều.
lấy mẫu phụ
Xem tính năng nhóm.
T
nhiệt độ
Một siêu tham số kiểm soát mức độ ngẫu nhiên của dữ liệu đầu ra của mô hình. Nhiệt độ cao hơn dẫn đến kết quả đầu ra ngẫu nhiên nhiều hơn, trong khi nhiệt độ thấp hơn dẫn đến kết quả ngẫu nhiên ít hơn.
Việc chọn nhiệt độ tốt nhất phụ thuộc vào ứng dụng cụ thể và các thuộc tính ưu tiên của đầu ra của mô hình. Ví dụ: bạn có thể sẽ tăng nhiệt độ khi tạo một ứng dụng tạo đầu ra mẫu quảng cáo. Ngược lại, bạn có thể giảm nhiệt độ khi xây dựng một mô hình phân loại hình ảnh hoặc văn bản để cải thiện độ chính xác và tính nhất quán của mô hình.
Nhiệt độ thường được sử dụng với chiến lược softmax.
bất biến thuận dịch
Trong một bài toán phân loại hình ảnh, thuật toán có thể phân loại hình ảnh thành công ngay cả khi vị trí của các đối tượng trong hình ảnh thay đổi. Ví dụ: thuật toán vẫn có thể xác định một chú chó, cho dù chú chó nằm ở giữa khung hình hay ở cuối bên trái khung hình.
Hãy xem thêm về biến thiên kích thước và biến thiên xoay.