Trang này được dịch bởi Cloud Translation API.

Bảng thuật ngữ về công nghệ máy học: Kiến thức cơ bản về công nghệ học máy

Trang này chứa các thuật ngữ trong bảng chú giải Kiến thức cơ bản về học máy. Để xem tất cả các thuật ngữ trong bảng chú giải, hãy nhấp vào đây.

A

độ chính xác

#fundamentals

#Chỉ số

Số lượng dự đoán phân loại chính xác chia cho tổng số dự đoán. Đó là:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ví dụ: một mô hình đưa ra 40 dự đoán chính xác và 10 dự đoán không chính xác sẽ có độ chính xác là:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Phân loại nhị phân cung cấp tên cụ thể cho các danh mục khác nhau của dự đoán chính xác và dự đoán không chính xác. Vì vậy, công thức tính độ chính xác cho phân loại nhị phân như sau:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

trong đó:

TP là số lượng dương tính thật (dự đoán chính xác).
TN là số lượng âm tính thật (dự đoán chính xác).
FP là số lượng kết quả dương tính giả (dự đoán không chính xác).
FN là số lượng âm tính giả (dự đoán không chính xác).

So sánh và đối chiếu độ chính xác với độ đo lường chính xác và khả năng thu hồi.

Nhấp vào biểu tượng để biết thông tin chi tiết về độ chính xác và tập dữ liệu không cân bằng theo lớp.

Mặc dù là một chỉ số có giá trị trong một số trường hợp, nhưng độ chính xác lại rất dễ gây hiểu lầm trong những trường hợp khác. Đáng chú ý là độ chính xác thường là một chỉ số kém để đánh giá các mô hình phân loại xử lý các tập dữ liệu mất cân bằng lớp.

Ví dụ: giả sử tuyết chỉ rơi 25 ngày mỗi thế kỷ ở một thành phố cận nhiệt đới nào đó. Vì số ngày không có tuyết (lớp âm) nhiều hơn hẳn số ngày có tuyết (lớp dương), nên tập dữ liệu về tuyết của thành phố này là tập dữ liệu bất cân đối về loại. Hãy tưởng tượng một mô hình phân loại nhị phân được cho là dự đoán có tuyết hay không có tuyết mỗi ngày nhưng chỉ dự đoán "không có tuyết" mỗi ngày. Mô hình này có độ chính xác cao nhưng không có khả năng dự đoán. Bảng sau đây tóm tắt kết quả của một thế kỷ dự đoán:

Danh mục	Số
TP	0
TN (Tunisia)	36499
FP	0
FN	25

Do đó, độ chính xác của mô hình này là:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

Mặc dù độ chính xác 99,93% có vẻ là một tỷ lệ rất ấn tượng, nhưng mô hình này thực sự không có khả năng dự đoán.

Độ chính xác và khả năng thu hồi thường là những chỉ số hữu ích hơn so với độ chính xác để đánh giá các mô hình được huấn luyện trên tập dữ liệu không cân bằng theo lớp.

Hãy xem phần Phân loại: Độ chính xác, khả năng thu hồi, độ đo và các chỉ số liên quan trong Khoá học cấp tốc về học máy để biết thêm thông tin.

hàm kích hoạt

#fundamentals

Một hàm cho phép mạng nơ-ron học các mối quan hệ phi tuyến tính (phức tạp) giữa các đặc điểm và nhãn.

Các hàm kích hoạt phổ biến bao gồm:

ReLU
Sigmoid

Đồ thị của các hàm kích hoạt không bao giờ là đường thẳng đơn lẻ. Ví dụ: biểu đồ của hàm kích hoạt ReLU bao gồm 2 đường thẳng:

Một biểu đồ Descartes gồm 2 đường. Đường thẳng đầu tiên có giá trị y không đổi là 0, chạy dọc theo trục x từ -vô cùng,0 đến 0,-0.
Đường thứ hai bắt đầu tại 0,0. Đường thẳng này có độ dốc là +1, nên đường thẳng này chạy từ 0,0 đến +vô cực,+vô cực.

Biểu đồ của hàm kích hoạt sigmoid có dạng như sau:

Một biểu đồ cong hai chiều với các giá trị x trải dài trên miền vô cực âm đến vô cực dương, trong khi các giá trị y trải dài trong phạm vi gần 0 đến gần 1. Khi x là 0, y là 0,5. Độ dốc của đường cong luôn dương, với độ dốc cao nhất ở 0,0,5 và độ dốc giảm dần khi giá trị tuyệt đối của x tăng lên.

Nhấp vào biểu tượng để xem ví dụ.

Trong mạng nơ-ron, các hàm kích hoạt sẽ thao tác tổng có trọng số của tất cả các đầu vào cho một nơ-ron. Để tính tổng có trọng số, nơ-ron sẽ cộng các tích của các giá trị và trọng số có liên quan. Ví dụ: giả sử đầu vào liên quan đến một nơ-ron bao gồm những nội dung sau:

giá trị đầu vào	trọng số đầu vào
2	-1,3
-1	0,6
3	0,4

Do đó, tổng có trọng số là:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Giả sử nhà thiết kế mạng nơ-ron này chọn hàm sigmoid làm hàm kích hoạt. Trong trường hợp đó, nơ-ron sẽ tính toán hàm sigmoid của -2,0, tức là khoảng 0,12. Do đó, nơ-ron sẽ truyền 0,12 (thay vì -2) đến lớp tiếp theo trong mạng nơ-ron. Hình sau đây minh hoạ phần liên quan của quy trình:

Hãy xem phần Mạng nơ-ron: Hàm kích hoạt trong Khoá học cấp tốc về học máy để biết thêm thông tin.

trí tuệ nhân tạo

#fundamentals

Một chương trình hoặc mô hình không phải do con người tạo ra, có thể giải quyết các nhiệm vụ phức tạp. Ví dụ: một chương trình hoặc mô hình dịch văn bản hoặc một chương trình hoặc mô hình xác định bệnh từ hình ảnh chụp X-quang đều thể hiện trí tuệ nhân tạo.

Về mặt chính thức, học máy là một lĩnh vực con của trí tuệ nhân tạo. Tuy nhiên, trong những năm gần đây, một số tổ chức đã bắt đầu sử dụng các thuật ngữ trí tuệ nhân tạo và học máy thay thế cho nhau.

AUC (Diện tích dưới đường cong ROC)

#fundamentals

#Chỉ số

Một số từ 0,0 đến 1,0 biểu thị khả năng của mô hình phân loại nhị phân trong việc tách các lớp dương khỏi các lớp âm. AUC càng gần 1.0 thì khả năng tách các lớp của mô hình càng tốt.

Ví dụ: hình minh hoạ sau đây cho thấy một mô hình phân loại tách biệt hoàn toàn các lớp dương (hình bầu dục màu xanh lục) với các lớp âm (hình chữ nhật màu tím). Mô hình hoàn hảo một cách phi thực tế này có AUC là 1.0:

Một trục số có 8 ví dụ dương ở một bên và 9 ví dụ âm ở bên còn lại.

Ngược lại, hình minh hoạ sau đây cho thấy kết quả của một mô hình phân loại đã tạo ra kết quả ngẫu nhiên. Mô hình này có AUC là 0,5:

Một trục số có 6 ví dụ dương và 6 ví dụ âm.
Trình tự của các ví dụ là dương tính, âm tính, dương tính, âm tính, dương tính, âm tính, dương tính, âm tính, dương tính, âm tính, dương tính, âm tính.

Có, mô hình trước đó có AUC là 0, 5 chứ không phải 0.

Hầu hết các mô hình đều nằm ở khoảng giữa hai thái cực này. Ví dụ: mô hình sau đây tách biệt phần nào các giá trị dương với giá trị âm, do đó có AUC nằm trong khoảng từ 0, 5 đến 1.0:

Một trục số có 6 ví dụ dương và 6 ví dụ âm.
Trình tự của các ví dụ là tiêu cực, tiêu cực, tiêu cực, tiêu cực, tích cực, tiêu cực, tích cực, tích cực, tiêu cực, tích cực, tích cực, tích cực.

AUC bỏ qua mọi giá trị mà bạn đặt cho ngưỡng phân loại. Thay vào đó, AUC sẽ xem xét tất cả các ngưỡng phân loại có thể có.

Nhấp vào biểu tượng này để tìm hiểu về mối quan hệ giữa đường cong AUC và ROC.

AUC biểu thị diện tích dưới đường cong ROC. Ví dụ: đường cong ROC cho một mô hình phân tách hoàn hảo các giá trị dương với các giá trị âm sẽ có dạng như sau:

AUC là diện tích của vùng màu xám trong hình minh hoạ trước đó. Trong trường hợp bất thường này, diện tích chỉ đơn giản là chiều dài của vùng màu xám (1.0) nhân với chiều rộng của vùng màu xám (1.0). Vì vậy, tích của 1.0 và 1.0 sẽ cho ra AUC chính xác là 1.0, đây là điểm AUC cao nhất có thể.

Ngược lại, đường cong ROC cho một mô hình phân loại hoàn toàn không thể tách các lớp như sau. Diện tích của vùng màu xám này là 0,5.

Đường cong ROC điển hình hơn sẽ có dạng gần như sau:

Việc tính toán diện tích dưới đường cong này theo cách thủ công sẽ rất khó khăn. Đó là lý do tại sao một chương trình thường tính toán hầu hết các giá trị AUC.

Nhấp vào biểu tượng để xem định nghĩa chính thức hơn về AUC.

AUC là xác suất mà mô hình phân loại sẽ tin tưởng hơn rằng một ví dụ dương được chọn ngẫu nhiên thực sự là dương so với một ví dụ âm được chọn ngẫu nhiên là dương.

Hãy xem phần Phân loại: ROC và AUC trong Khoá học học máy ứng dụng để biết thêm thông tin.

B

lan truyền ngược

#fundamentals

Thuật toán triển khai phương pháp hạ độ dốc trong mạng nơron.

Việc huấn luyện mạng nơ-ron bao gồm nhiều lần lặp lại của chu kỳ hai lượt sau đây:

Trong quá trình truyền xuôi, hệ thống sẽ xử lý một lô gồm ví dụ để đưa ra(các) dự đoán. Hệ thống so sánh từng dự đoán với từng giá trị nhãn. Khoảng chênh lệch giữa giá trị dự đoán và giá trị nhãn là mất mát cho ví dụ đó. Hệ thống tổng hợp các tổn thất cho tất cả các ví dụ để tính toán tổng tổn thất cho lô hiện tại.
Trong lượt truyền ngược (lan truyền ngược), hệ thống sẽ giảm tổn thất bằng cách điều chỉnh trọng số của tất cả các nơ-ron trong tất cả (các) lớp ẩn.

Mạng nơ-ron thường chứa nhiều nơ-ron trên nhiều lớp ẩn. Mỗi nơ-ron trong số đó đóng góp vào tổn thất tổng thể theo những cách khác nhau. Thuật toán lan truyền ngược xác định xem có nên tăng hay giảm trọng số được áp dụng cho các nơ-ron cụ thể hay không.

Tốc độ học tập là một hệ số nhân kiểm soát mức độ mà mỗi lượt truyền ngược tăng hoặc giảm mỗi trọng số. Tốc độ học tập lớn sẽ tăng hoặc giảm mỗi trọng số nhiều hơn tốc độ học tập nhỏ.

Theo thuật ngữ giải tích, phương pháp lan truyền ngược triển khai quy tắc chuỗi từ giải tích. Tức là quá trình truyền ngược sẽ tính toán đạo hàm riêng phần của sai số đối với từng tham số.

Nhiều năm trước, các chuyên gia về học máy phải viết mã để triển khai phương pháp lan truyền ngược. Các API ML hiện đại như Keras hiện triển khai phương pháp lan truyền ngược cho bạn. Chà!

Hãy xem phần Mạng nơ-ron trong Khoá học học máy ứng dụng để biết thêm thông tin.

lô

#fundamentals

Tập hợp ví dụ được dùng trong một lần lặp lại quá trình huấn luyện. Kích thước lô xác định số lượng ví dụ trong một lô.

Hãy xem epoch để biết nội dung giải thích về mối quan hệ giữa một lô và một epoch.

Hãy xem phần Hồi quy tuyến tính: Siêu tham số trong Khoá học cấp tốc về học máy để biết thêm thông tin.

kích thước lô

#fundamentals

Số lượng ví dụ trong một lô. Ví dụ: nếu kích thước lô là 100, thì mô hình sẽ xử lý 100 ví dụ cho mỗi lần lặp lại.

Sau đây là các chiến lược kích thước lô phổ biến:

Phương pháp giảm độ dốc ngẫu nhiên (SGD), trong đó kích thước lô là 1.
Kích thước lô đầy đủ, trong đó kích thước lô là số lượng ví dụ trong toàn bộ tập huấn luyện. Ví dụ: nếu tập huấn luyện chứa một triệu ví dụ, thì kích thước lô sẽ là một triệu ví dụ. Xử lý theo lô đầy đủ thường là một chiến lược không hiệu quả.
Tiểu lô, trong đó kích thước lô thường nằm trong khoảng từ 10 đến 1.000. Mini-batch thường là chiến lược hiệu quả nhất.

Hãy xem phần sau đây để biết thêm thông tin:

Hệ thống học máy trong sản xuất: Suy luận tĩnh so với suy luận động trong Khoá học học máy ứng dụng.
Cẩm nang điều chỉnh học sâu.

thiên kiến (đạo đức/tính công bằng)

#responsible

#fundamentals

1. Định kiến, thành kiến hoặc thiên vị đối với một số sự vật, con người hoặc nhóm người so với những người khác. Những thiên kiến này có thể ảnh hưởng đến việc thu thập và diễn giải dữ liệu, thiết kế của một hệ thống và cách người dùng tương tác với hệ thống. Các dạng thiên kiến thuộc loại này bao gồm:

2. Lỗi hệ thống do quy trình lấy mẫu hoặc báo cáo gây ra. Các dạng thiên kiến thuộc loại này bao gồm:

Không nhầm lẫn với hệ số thiên vị trong các mô hình học máy hoặc độ thiên lệch dự đoán.

Hãy xem phần Tính công bằng: Các loại thành kiến trong Khoá học cấp tốc về học máy để biết thêm thông tin.

độ lệch (toán học) hoặc hệ số thiên lệch

#fundamentals

Một điểm cắt hoặc độ lệch so với điểm gốc. Độ lệch là một tham số trong các mô hình học máy, được biểu thị bằng một trong những tham số sau:

b
w₀

Ví dụ: độ lệch là b trong công thức sau:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Trong một đường thẳng hai chiều đơn giản, độ lệch chỉ có nghĩa là "giao điểm với trục y". Ví dụ: độ lệch của đường thẳng trong hình minh hoạ sau đây là 2.

Đồ thị của một đường thẳng có độ dốc là 0,5 và độ lệch (giao điểm với trục y) là 2.

Sai số tồn tại vì không phải tất cả các mô hình đều bắt đầu từ điểm gốc (0,0). Ví dụ: giả sử một công viên giải trí có giá vé vào cửa là 2 EUR và khách hàng phải trả thêm 0,5 EUR cho mỗi giờ ở lại. Do đó, một mô hình ánh xạ tổng chi phí có độ lệch là 2 vì chi phí thấp nhất là 2 EUR.

Không nên nhầm lẫn thiên kiến với thiên kiến về đạo đức và sự công bằng hoặc thiên kiến dự đoán.

Hãy xem phần Hồi quy tuyến tính trong Khoá học học máy ứng dụng để biết thêm thông tin.

phân loại nhị phân

#fundamentals

Một loại tác vụ phân loại dự đoán một trong hai lớp loại trừ lẫn nhau:

hạng mục dương
lớp âm

Ví dụ: mỗi mô hình học máy sau đây đều thực hiện phân loại nhị phân:

Một mô hình xác định xem thư điện tử có phải là thư rác (lớp dương tính) hay không phải thư rác (lớp âm tính).
Một mô hình đánh giá các triệu chứng y tế để xác định xem một người có mắc một bệnh cụ thể (lớp dương tính) hay không mắc bệnh đó (lớp âm tính).

Tương phản với phân loại đa mục.

Xem thêm hồi quy logistic và ngưỡng phân loại.

Hãy xem phần Phân loại trong Khoá học học máy ứng dụng để biết thêm thông tin.

phân giỏ

#fundamentals

Chuyển đổi một đối tượng duy nhất thành nhiều đối tượng nhị phân được gọi là nhóm hoặc thùng, thường dựa trên một dải giá trị. Tính năng bị cắt thường là một tính năng liên tục.

Ví dụ: thay vì biểu thị nhiệt độ dưới dạng một đặc điểm liên tục duy nhất có dấu phẩy động, bạn có thể chia các phạm vi nhiệt độ thành các nhóm rời rạc, chẳng hạn như:

<= 10 độ C sẽ là nhóm "lạnh".
11 – 24 độ C sẽ là nhóm "ôn hoà".
>= 25 độ C sẽ là nhóm "ấm".

Mô hình sẽ xử lý mọi giá trị trong cùng một nhóm theo cách giống nhau. Ví dụ: giá trị 13 và 22 đều nằm trong nhóm nhiệt độ vừa phải, nên mô hình sẽ xử lý hai giá trị này giống nhau.

Nhấp vào biểu tượng để xem thêm ghi chú.

Nếu bạn biểu thị nhiệt độ dưới dạng một đặc điểm liên tục, thì mô hình sẽ coi nhiệt độ là một đặc điểm duy nhất. Nếu bạn biểu thị nhiệt độ dưới dạng 3 nhóm, thì mô hình sẽ coi mỗi nhóm là một đặc điểm riêng biệt. Tức là mô hình có thể tìm hiểu các mối quan hệ riêng biệt của từng nhóm với nhãn. Ví dụ: mô hình hồi quy tuyến tính có thể tìm hiểu trọng số riêng biệt cho từng nhóm.

Việc tăng số lượng nhóm sẽ khiến mô hình của bạn phức tạp hơn bằng cách tăng số lượng mối quan hệ mà mô hình phải học. Ví dụ: các nhóm lạnh, ôn hoà và ấm áp về cơ bản là 3 đặc điểm riêng biệt để mô hình của bạn huấn luyện. Nếu bạn quyết định thêm 2 nhóm nữa (ví dụ: đóng băng và nóng), thì mô hình của bạn giờ đây sẽ phải huấn luyện trên 5 tính năng riêng biệt.

Làm cách nào để biết bạn nên tạo bao nhiêu nhóm hoặc phạm vi cho từng nhóm là bao nhiêu? Câu trả lời thường đòi hỏi một lượng lớn thử nghiệm.

Hãy xem phần Dữ liệu dạng số: Phân nhóm trong Khoá học cấp tốc về học máy để biết thêm thông tin.

C

dữ liệu phân loại

#fundamentals

Tính năng có một nhóm giá trị có thể có cụ thể. Ví dụ: hãy xem xét một đặc điểm phân loại có tên là traffic-light-state, chỉ có thể có một trong 3 giá trị có thể có sau đây:

red
yellow
green

Bằng cách biểu thị traffic-light-state dưới dạng một đặc điểm phân loại, mô hình có thể tìm hiểu những tác động khác nhau của red, green và yellow đối với hành vi của người lái xe.

Các đặc điểm phân loại đôi khi được gọi là đặc điểm rời rạc.

Tương phản với dữ liệu dạng số.

Hãy xem bài viết Làm việc với dữ liệu phân loại trong Khoá học cấp tốc về học máy để biết thêm thông tin.

lớp

#fundamentals

Một danh mục mà nhãn có thể thuộc về. Ví dụ:

Trong mô hình phân loại nhị phân phát hiện thư rác, hai lớp có thể là thư rác và không phải thư rác.
Trong mô hình phân loại nhiều lớp xác định giống chó, các lớp có thể là chó poodle, chó beagle, chó pug, v.v.

Mô hình phân loại dự đoán một lớp. Ngược lại, mô hình hồi quy dự đoán một số thay vì một lớp.

Hãy xem phần Phân loại trong Khoá học học máy ứng dụng để biết thêm thông tin.

mô hình phân loại

#fundamentals

Một mô hình có dự đoán là một lớp. Ví dụ: sau đây là tất cả các mô hình phân loại:

Một mô hình dự đoán ngôn ngữ của câu đầu vào (tiếng Pháp? Tiếng Tây Ban Nha? Tiếng Ý).
Một mô hình dự đoán các loài cây (Cây phong? Oak? Bao báp?).
Một mô hình dự đoán lớp dương tính hoặc âm tính cho một tình trạng bệnh cụ thể.

Ngược lại, mô hình hồi quy dự đoán các con số thay vì các lớp.

Hai loại mô hình phân loại phổ biến là:

phân loại nhị phân
phân loại đa mục

ngưỡng phân loại

#fundamentals

Trong phân loại nhị phân, một số từ 0 đến 1 sẽ chuyển đổi đầu ra thô của mô hình hồi quy logistic thành dự đoán về lớp dương tính hoặc lớp âm tính. Xin lưu ý rằng ngưỡng phân loại là giá trị do con người chọn, chứ không phải giá trị do quá trình huấn luyện mô hình chọn.

Mô hình hồi quy logistic xuất ra một giá trị thô trong khoảng từ 0 đến 1. Sau đó:

Nếu giá trị thô này lớn hơn ngưỡng phân loại, thì lớp dương tính sẽ được dự đoán.
Nếu giá trị thô này nhỏ hơn ngưỡng phân loại, thì lớp âm tính sẽ được dự đoán.

Ví dụ: giả sử ngưỡng phân loại là 0, 8. Nếu giá trị thô là 0,9, thì mô hình sẽ dự đoán lớp dương. Nếu giá trị thô là 0,7, thì mô hình sẽ dự đoán lớp âm.

Lựa chọn ngưỡng phân loại ảnh hưởng lớn đến số lượng kết quả dương tính giả và kết quả âm tính giả.

Nhấp vào biểu tượng để xem thêm ghi chú.

Khi các mô hình hoặc tập dữ liệu phát triển, đôi khi các kỹ sư cũng thay đổi ngưỡng phân loại. Khi ngưỡng phân loại thay đổi, các dự đoán về lớp dương tính có thể đột ngột trở thành lớp âm tính và ngược lại.

Ví dụ: hãy xem xét một mô hình dự đoán bệnh phân loại nhị phân. Giả sử khi hệ thống chạy trong năm đầu tiên:

Giá trị thô của một bệnh nhân cụ thể là 0,95.
Ngưỡng phân loại là 0,94.

Do đó, hệ thống chẩn đoán lớp dương tính. (Bệnh nhân thở dốc, "Ôi không! Tôi bị ốm!")

Một năm sau, có lẽ các giá trị hiện tại sẽ như sau:

Giá trị thô cho cùng một bệnh nhân vẫn là 0,95.
Ngưỡng phân loại thay đổi thành 0,97.

Do đó, hệ thống hiện phân loại lại bệnh nhân đó là lớp âm tính. ("Chúc bạn một ngày vui vẻ! Tôi không bị bệnh.") Cùng một bệnh nhân. Chẩn đoán khác.

Hãy xem phần Ngưỡng và ma trận nhầm lẫn trong Khoá học học máy ứng dụng để biết thêm thông tin.

thuật toán phân loại

#fundamentals

Một thuật ngữ thông thường cho mô hình phân loại.

tập dữ liệu bất cân đối về loại

#fundamentals

Một tập dữ liệu cho một phân loại trong đó tổng số nhãn của mỗi lớp khác biệt đáng kể. Ví dụ: hãy xem xét một tập dữ liệu phân loại nhị phân có 2 nhãn được chia như sau:

1.000.000 nhãn phủ định
10 nhãn cho cột giá trị dương

Tỷ lệ nhãn âm tính so với nhãn dương tính là 100.000 trên 1, vì vậy đây là một tập dữ liệu bất cân đối về loại.

Ngược lại, tập dữ liệu sau đây là cân bằng theo lớp vì tỷ lệ nhãn tiêu cực so với nhãn tích cực tương đối gần với 1:

517 nhãn phủ định
483 nhãn dương

Tập dữ liệu nhiều lớp cũng có thể bất cân đối về lớp. Ví dụ: tập dữ liệu phân loại nhiều lớp sau đây cũng bất cân đối về lớp vì một nhãn có nhiều ví dụ hơn hẳn so với hai nhãn còn lại:

1.000.000 nhãn có lớp "xanh lục"
200 nhãn có lớp "tím"
350 nhãn có lớp "orange"

Việc huấn luyện tập dữ liệu bất cân đối về loại có thể gây ra những thách thức đặc biệt. Hãy xem phần Tập dữ liệu không cân bằng trong Khoá học học máy ứng dụng để biết thông tin chi tiết.

Xem thêm entropy, majority class và minority class.

cắt

#fundamentals

Một kỹ thuật xử lý giá trị ngoại lệ bằng cách thực hiện một hoặc cả hai thao tác sau:

Giảm các giá trị tính năng lớn hơn ngưỡng tối đa xuống ngưỡng tối đa đó.
Tăng các giá trị của đối tượng nhỏ hơn ngưỡng tối thiểu lên đến ngưỡng tối thiểu đó.

Ví dụ: giả sử <0, 5% giá trị của một tính năng cụ thể nằm ngoài phạm vi 40–60. Trong trường hợp này, bạn có thể làm như sau:

Cắt tất cả các giá trị trên 60 (ngưỡng tối đa) thành chính xác 60.
Cắt tất cả các giá trị dưới 40 (ngưỡng tối thiểu) thành chính xác 40.

Giá trị ngoại lệ có thể làm hỏng các mô hình, đôi khi khiến trọng số tràn trong quá trình huấn luyện. Một số giá trị ngoại lệ cũng có thể làm hỏng đáng kể các chỉ số như độ chính xác. Cắt bớt là một kỹ thuật phổ biến để hạn chế thiệt hại.

Giới hạn độ dốc buộc các giá trị độ dốc nằm trong một dải ô được chỉ định trong quá trình huấn luyện.

Hãy xem phần Dữ liệu dạng số: Chuẩn hoá trong Khoá học cấp tốc về học máy để biết thêm thông tin.

ma trận nhầm lẫn

#fundamentals

Một bảng NxN tóm tắt số lượng dự đoán chính xác và không chính xác mà mô hình phân loại đã thực hiện. Ví dụ: hãy xem xét ma trận nhầm lẫn sau đây cho mô hình phân loại nhị phân:

	Khối u (dự đoán)	Không phải khối u (dự đoán)
Khối u (thông tin thực tế)	18 (TP)	1 (FN)
Không phải khối u (thông tin thực tế)	6 (FP)	452 (TN)

Ma trận nhầm lẫn ở trên cho thấy những điều sau:

Trong số 19 dự đoán mà dữ liệu thực tế là U bướu, mô hình đã phân loại chính xác 18 và phân loại không chính xác 1.
Trong số 458 dự đoán có dữ liệu thực tế là Không phải khối u, mô hình đã phân loại chính xác 452 và phân loại không chính xác 6.

Ma trận nhầm lẫn cho vấn đề phân loại nhiều lớp có thể giúp bạn xác định các mẫu lỗi. Ví dụ: hãy xem xét ma trận nhầm lẫn sau đây cho một mô hình phân loại nhiều lớp có 3 lớp, phân loại 3 loại hoa diên vĩ khác nhau (Virginica, Versicolor và Setosa). Khi thông tin thực tế là Virginica, ma trận nhầm lẫn cho thấy mô hình có nhiều khả năng dự đoán nhầm Versicolor hơn Setosa:

	Setosa (dự đoán)	Versicolor (dự đoán)	Virginica (dự đoán)
Setosa (thông tin thực tế)	88	12	0
Versicolor (thông tin thực tế)	6	141	7
Virginica (thông tin thực tế)	2	27	109

Một ví dụ khác là ma trận nhầm lẫn có thể cho thấy rằng một mô hình được huấn luyện để nhận dạng chữ số viết tay có xu hướng dự đoán nhầm 9 thay vì 4 hoặc dự đoán nhầm 1 thay vì 7.

Ma trận nhầm lẫn chứa đủ thông tin để tính toán nhiều chỉ số hiệu suất, bao gồm cả độ chính xác và khả năng thu hồi.

đối tượng liên tục

#fundamentals

Một đặc điểm dấu phẩy động với vô số giá trị có thể có, chẳng hạn như nhiệt độ hoặc trọng lượng.

Tương phản với đối tượng rời rạc.

hội tụ

#fundamentals

Một trạng thái đạt được khi các giá trị mất mát thay đổi rất ít hoặc không thay đổi gì trong mỗi lần lặp lại. Ví dụ: đường cong tổn thất sau đây cho thấy sự hội tụ ở khoảng 700 lần lặp:

Biểu đồ Đề-các. Trục X bị mất. Trục y là số lần lặp lại quá trình huấn luyện. Mất mát rất cao trong vài lần lặp lại đầu tiên, nhưng giảm mạnh. Sau khoảng 100 lần lặp lại, mức hao hụt vẫn giảm nhưng giảm chậm hơn nhiều. Sau khoảng 700 lần lặp lại, mức tổn thất vẫn giữ nguyên.

Một mô hình hội tụ khi việc huấn luyện thêm sẽ không cải thiện mô hình.

Trong học sâu, đôi khi các giá trị tổn thất vẫn giữ nguyên hoặc gần như vậy trong nhiều lần lặp lại trước khi giảm xuống. Trong một khoảng thời gian dài có các giá trị tổn thất không đổi, bạn có thể tạm thời có cảm giác sai lầm về sự hội tụ.

Xem thêm dừng sớm.

Hãy xem phần Đường cong hội tụ và tổn thất của mô hình trong Khoá học cấp tốc về học máy để biết thêm thông tin.

D

DataFrame

#fundamentals

Một kiểu dữ liệu pandas phổ biến để biểu thị tập dữ liệu trong bộ nhớ.

DataFrame tương tự như một bảng hoặc bảng tính. Mỗi cột của DataFrame có một tên (tiêu đề) và mỗi hàng được xác định bằng một số duy nhất.

Mỗi cột trong DataFrame có cấu trúc giống như một mảng 2D, ngoại trừ việc mỗi cột có thể được chỉ định kiểu dữ liệu riêng.

Bạn cũng có thể xem trang tham chiếu pandas.DataFrame chính thức.

tập dữ liệu hoặc tập dữ liệu

#fundamentals

Một tập hợp dữ liệu thô, thường (nhưng không chỉ) được sắp xếp theo một trong các định dạng sau:

bảng tính
một tệp ở định dạng CSV (giá trị được phân tách bằng dấu phẩy)

mô hình sâu

#fundamentals

Một mạng nơ-ron chứa nhiều lớp ẩn.

Mô hình sâu còn được gọi là mạng nơron sâu.

Tương phản với mô hình rộng.

tính chất dày đặc

#fundamentals

Một đặc điểm trong đó hầu hết hoặc tất cả các giá trị đều khác 0, thường là một Tensor gồm các giá trị dấu phẩy động. Ví dụ: Tensor gồm 10 phần tử sau đây là Tensor dày đặc vì 9 trong số các giá trị của Tensor này khác 0:

Tương phản với tính năng thưa.

chiều sâu

#fundamentals

Tổng của những nội dung sau trong mạng nơron:

số lượng lớp ẩn
số lượng các lớp đầu ra, thường là 1
số lượng lớp nhúng bất kỳ

Ví dụ: một mạng nơ-ron có 5 lớp ẩn và 1 lớp đầu ra có độ sâu là 6.

Xin lưu ý rằng lớp đầu vào không ảnh hưởng đến độ sâu.

tính chất rời rạc

#fundamentals

Một đặc điểm có một tập hợp hữu hạn các giá trị có thể có. Ví dụ: một đối tượng có các giá trị chỉ có thể là động vật, thực vật hoặc khoáng chất là một đối tượng rời rạc (hoặc phân loại).

Tương phản với tính năng liên tục.

linh động

#fundamentals

Một việc được thực hiện thường xuyên hoặc liên tục. Các thuật ngữ động và trực tuyến là từ đồng nghĩa trong học máy. Sau đây là những cách sử dụng phổ biến của động và trực tuyến trong học máy:

Mô hình động (hoặc mô hình trực tuyến) là mô hình được đào tạo lại thường xuyên hoặc liên tục.
Đào tạo linh hoạt (hoặc đào tạo trực tuyến) là quy trình đào tạo thường xuyên hoặc liên tục.
Suy luận động (hoặc suy luận trực tuyến) là quy trình tạo ra các dự đoán theo yêu cầu.

mô hình động

#fundamentals

Một mô hình thường xuyên (thậm chí có thể liên tục) được huấn luyện lại. Mô hình động là một "người học tập suốt đời" không ngừng thích ứng với dữ liệu đang phát triển. Mô hình động còn được gọi là mô hình trực tuyến.

Tương phản với mô hình tĩnh.

E

dừng sớm

#fundamentals

Một phương pháp điều chỉnh liên quan đến việc kết thúc đào tạo trước khi quá trình giảm tổn thất đào tạo kết thúc. Trong tính năng dừng sớm, bạn cố ý dừng huấn luyện mô hình khi mức tổn thất trên tập dữ liệu xác thực bắt đầu tăng; tức là khi hiệu suất khái quát hoá giảm.

Nhấp vào biểu tượng để xem thêm ghi chú.

Việc dừng sớm có vẻ không hợp lý. Sau cùng, việc yêu cầu một mô hình dừng huấn luyện trong khi mức tổn thất vẫn đang giảm có thể giống như việc yêu cầu đầu bếp ngừng nấu ăn trước khi món tráng miệng nướng xong. Tuy nhiên, việc huấn luyện mô hình quá lâu có thể dẫn đến tình trạng quá khớp. Tức là nếu bạn huấn luyện mô hình quá lâu, mô hình có thể phù hợp với dữ liệu huấn luyện quá chặt chẽ đến mức mô hình không đưa ra dự đoán chính xác về các ví dụ mới.

Tương phản với lối thoát sớm.

lớp nhúng

#fundamentals

Một lớp ẩn đặc biệt huấn luyện trên một đặc điểm phân loại có nhiều chiều để dần dần tìm hiểu một vectơ nhúng có ít chiều hơn. Lớp nhúng cho phép mạng nơ-ron huấn luyện hiệu quả hơn nhiều so với chỉ huấn luyện trên tính năng phân loại nhiều chiều.

Ví dụ: Earth hiện hỗ trợ khoảng 73.000 loài cây. Giả sử loài cây là một đối tượng trong mô hình của bạn, vì vậy,lớp đầu vào của mô hình sẽ bao gồm một vectơ một lần mã hoá có độ dài 73.000 phần tử. Ví dụ: có lẽ baobab sẽ được biểu thị như sau:

Một mảng gồm 73.000 phần tử. 6.232 phần tử đầu tiên có giá trị 0. Phần tử tiếp theo giữ giá trị 1. 66.767 phần tử cuối cùng giữ giá trị bằng 0.

Mảng gồm 73.000 phần tử là rất dài. Nếu bạn không thêm một lớp nhúng vào mô hình, quá trình huấn luyện sẽ mất rất nhiều thời gian do nhân 72.999 số 0. Có thể bạn chọn lớp nhúng bao gồm 12 phương diện. Do đó, lớp nhúng sẽ dần học được một vectơ nhúng mới cho mỗi loài cây.

Trong một số trường hợp, băm là một giải pháp thay thế hợp lý cho lớp nhúng.

Hãy xem bài viết Nhúng trong Khoá học học máy ứng dụng để biết thêm thông tin.

thời gian bắt đầu của hệ thống

#fundamentals

Một lượt huấn luyện đầy đủ trên toàn bộ tập huấn luyện sao cho mỗi ví dụ đã được xử lý một lần.

Một epoch biểu thị N/kích thước lô số lần lặp lại huấn luyện, trong đó N là tổng số ví dụ.

Ví dụ: giả sử như sau:

Tập dữ liệu này bao gồm 1.000 ví dụ.
Kích thước lô là 50 ví dụ.

Do đó, một giai đoạn duy nhất yêu cầu 20 lần lặp:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Hãy xem phần Hồi quy tuyến tính: Siêu tham số trong Khoá học cấp tốc về học máy để biết thêm thông tin.

ví dụ

#fundamentals

Giá trị của một hàng đặc_trưng và có thể là một nhãn. Các ví dụ về học có giám sát thuộc 2 danh mục chung:

Một ví dụ được gắn nhãn bao gồm một hoặc nhiều đối tượng và một nhãn. Các ví dụ được gắn nhãn được dùng trong quá trình huấn luyện.
Một ví dụ không được gắn nhãn bao gồm một hoặc nhiều đối tượng nhưng không có nhãn. Các ví dụ không được gắn nhãn sẽ được dùng trong quá trình suy luận.

Ví dụ: giả sử bạn đang huấn luyện một mô hình để xác định mức độ ảnh hưởng của điều kiện thời tiết đến điểm kiểm tra của học viên. Sau đây là 3 ví dụ được gắn nhãn:

Tính năng			Hãng nhạc
Nhiệt độ	Độ ẩm	Áp lực	Điểm kiểm tra
15	47	998	Tốt
19	34	1020	Rất tốt
18	92	1012	Kém

Sau đây là 3 ví dụ không được gắn nhãn:

Nhiệt độ	Độ ẩm	Áp lực
12	62	1014
21	47	1017
19	41	1021

Hàng của một tập dữ liệu thường là nguồn thô cho một ví dụ. Tức là một ví dụ thường bao gồm một tập hợp con của các cột trong tập dữ liệu. Ngoài ra, các đối tượng trong một ví dụ cũng có thể bao gồm đối tượng tổng hợp, chẳng hạn như đối tượng kết hợp.

Hãy xem phần Học có giám sát trong khoá học Giới thiệu về học máy để biết thêm thông tin.

F

âm tính giả (FN)

#fundamentals

#Chỉ số

Ví dụ về trường hợp mô hình dự đoán nhầm lớp âm tính. Ví dụ: mô hình dự đoán rằng một thư email cụ thể không phải là thư rác (lớp âm tính), nhưng thư email đó thực sự là thư rác.

dương tính giả (FP)

#fundamentals

#Chỉ số

Ví dụ trong đó mô hình dự đoán nhầm lớp dương tính. Ví dụ: mô hình dự đoán rằng một thư email cụ thể là thư rác (lớp dương tính), nhưng thư email đó thực sự không phải là thư rác.

Hãy xem phần Ngưỡng và ma trận nhầm lẫn trong Khoá học học máy ứng dụng để biết thêm thông tin.

tỷ lệ dương tính giả (FPR)

#fundamentals

#Chỉ số

Tỷ lệ ví dụ thực tế có kết quả âm tính mà mô hình dự đoán nhầm thành lớp dương tính. Công thức sau đây dùng để tính tỷ lệ dương tính giả:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Tỷ lệ dương tính giả là trục x trong đường cong ROC.

Hãy xem phần Phân loại: ROC và AUC trong Khoá học học máy ứng dụng để biết thêm thông tin.

tính năng

#fundamentals

Một biến đầu vào cho mô hình học máy. Một ví dụ bao gồm một hoặc nhiều đối tượng. Ví dụ: giả sử bạn đang huấn luyện một mô hình để xác định mức độ ảnh hưởng của điều kiện thời tiết đến điểm kiểm tra của học viên. Bảng sau đây cho thấy 3 ví dụ, mỗi ví dụ chứa 3 đối tượng và 1 nhãn:

Tính năng			Hãng nhạc
Nhiệt độ	Độ ẩm	Áp lực	Điểm kiểm tra
15	47	998	92
19	34	1020	84
18	92	1012	87

Độ tương phản với nhãn.

Hãy xem phần Học có giám sát trong khoá học Giới thiệu về học máy để biết thêm thông tin.

nhân chéo tính năng

#fundamentals

Một đặc điểm tổng hợp được hình thành bằng cách "kết hợp" các đặc điểm theo danh mục hoặc theo nhóm.

Ví dụ: hãy xem xét một mô hình "dự báo tâm trạng" biểu thị nhiệt độ trong một trong 4 nhóm sau:

freezing
chilly
temperate
warm

Đồng thời biểu thị tốc độ gió theo một trong 3 mức sau:

still
light
windy

Nếu không có tính năng kết hợp, mô hình tuyến tính sẽ huấn luyện độc lập trên từng trong số 7 nhóm khác nhau trước đó. Vì vậy, mô hình sẽ huấn luyện trên freezing (ví dụ) một cách độc lập với việc huấn luyện trên windy (ví dụ).

Ngoài ra, bạn có thể tạo một tổ hợp chéo của nhiệt độ và tốc độ gió. Tính năng tổng hợp này sẽ có 12 giá trị có thể có sau đây:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Nhờ tính năng kết hợp, mô hình có thể tìm hiểu sự khác biệt về tâm trạng giữa một ngày freezing-windy và một ngày freezing-still.

Nếu bạn tạo một đặc điểm tổng hợp từ 2 đặc điểm, mỗi đặc điểm có nhiều nhóm khác nhau, thì đặc điểm kết hợp thu được sẽ có vô số tổ hợp có thể. Ví dụ: nếu một tính năng có 1.000 bộ chứa và tính năng kia có 2.000 bộ chứa, thì tính năng kết hợp thu được sẽ có 2.000.000 bộ chứa.

Về mặt hình thức, dấu thập là một tích Đề các.

Tương tác giữa các đặc điểm chủ yếu được dùng với các mô hình tuyến tính và hiếm khi được dùng với mạng nơ-ron.

Hãy xem phần Dữ liệu phân loại: Tương tác giữa các đối tượng trong Khoá học cấp tốc về học máy để biết thêm thông tin.

kỹ thuật trích xuất tính chất

#fundamentals

#TensorFlow

Một quy trình bao gồm các bước sau:

Xác định những đặc điểm có thể hữu ích trong việc huấn luyện một mô hình.
Chuyển đổi dữ liệu thô từ tập dữ liệu thành các phiên bản hiệu quả của những tính năng đó.

Ví dụ: bạn có thể xác định rằng temperature có thể là một tính năng hữu ích. Sau đó, bạn có thể thử nghiệm với phân nhóm để tối ưu hoá những gì mô hình có thể học được từ các dải temperature khác nhau.

Kỹ thuật đặc trưng đôi khi được gọi là trích xuất đặc trưng hoặc tạo đặc trưng.

Nhấp vào biểu tượng để xem thêm ghi chú về TensorFlow.

Trong TensorFlow, kỹ thuật trích xuất đặc trưng thường có nghĩa là chuyển đổi các mục trong tệp nhật ký thô thành các vùng đệm giao thức tf.Example. Xem thêm tf.Transform.

Hãy xem phần Dữ liệu dạng số: Cách một mô hình tiếp nhận dữ liệu bằng cách sử dụng vectơ đặc trưng trong Khoá học cấp tốc về học máy để biết thêm thông tin.

tập hợp tính năng

#fundamentals

Nhóm các tính năng mà mô hình học máy của bạn huấn luyện. Ví dụ: một bộ tính năng đơn giản cho mô hình dự đoán giá nhà có thể bao gồm mã bưu chính, quy mô tài sản và tình trạng tài sản.

vectơ đặc trưng

#fundamentals

Mảng giá trị feature bao gồm một example. Vectơ đặc trưng được nhập trong quá trình huấn luyện và trong quá trình suy luận. Ví dụ: vectơ đặc trưng cho một mô hình có 2 đặc trưng rời rạc có thể là:

[0.92, 0.56]

4 lớp: một lớp đầu vào, 2 lớp ẩn và một lớp đầu ra.
Lớp đầu vào chứa hai nút, một nút chứa giá trị 0,92 và nút còn lại chứa giá trị 0,56.

Mỗi ví dụ cung cấp các giá trị khác nhau cho vectơ đặc trưng, vì vậy, vectơ đặc trưng cho ví dụ tiếp theo có thể là:

[0.73, 0.49]

Thiết kế đặc điểm xác định cách biểu thị các đặc điểm trong vectơ đặc điểm. Ví dụ: một đặc điểm phân loại nhị phân có 5 giá trị có thể được biểu thị bằng mã hoá một lần nóng. Trong trường hợp này, phần của vectơ đối tượng cho một ví dụ cụ thể sẽ bao gồm 4 số 0 và một số 1.0 ở vị trí thứ ba, như sau:

[0.0, 0.0, 1.0, 0.0, 0.0]

Một ví dụ khác, giả sử mô hình của bạn bao gồm 3 đặc điểm:

một đặc điểm phân loại nhị phân có năm giá trị có thể được biểu thị bằng phương pháp mã hoá một lần nóng; ví dụ: [0.0, 1.0, 0.0, 0.0, 0.0]
một đặc điểm phân loại nhị phân khác có 3 giá trị có thể được biểu thị bằng mã hoá one-hot; ví dụ: [0.0, 0.0, 1.0]
một đối tượng dấu phẩy động; ví dụ: 8.3.

Trong trường hợp này, vectơ đặc trưng cho mỗi ví dụ sẽ được biểu thị bằng 9 giá trị. Với các giá trị mẫu trong danh sách trước đó, vectơ đối tượng sẽ là:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

vòng hồi tiếp

#fundamentals

Trong học máy, đây là trường hợp mà các dự đoán của một mô hình ảnh hưởng đến dữ liệu huấn luyện cho cùng một mô hình hoặc một mô hình khác. Ví dụ: một mô hình đề xuất phim sẽ ảnh hưởng đến những bộ phim mà mọi người xem, sau đó sẽ ảnh hưởng đến các mô hình đề xuất phim tiếp theo.

Hãy xem phần Hệ thống học máy trong sản xuất: Những câu hỏi cần đặt ra trong Khoá học cấp tốc về học máy để biết thêm thông tin.

G

khái quát hoá

#fundamentals

Khả năng của mô hình trong việc đưa ra dự đoán chính xác về dữ liệu mới mà trước đây chưa từng thấy. Một mô hình có thể khái quát hoá là mô hình ngược lại với mô hình khớp quá mức.

Nhấp vào biểu tượng để xem thêm ghi chú.

Bạn huấn luyện một mô hình dựa trên các ví dụ trong tập huấn luyện. Do đó, mô hình sẽ tìm hiểu những điểm đặc biệt của dữ liệu trong tập huấn luyện. Khái quát hoá về cơ bản là hỏi liệu mô hình của bạn có thể đưa ra dự đoán chính xác về những ví dụ không có trong tập huấn luyện hay không.

Để khuyến khích khái quát hoá, điều chỉnh giúp mô hình huấn luyện ít chính xác hơn đối với những đặc điểm của dữ liệu trong tập huấn luyện.

Hãy xem phần Khái quát hoá trong Khoá học học máy ứng dụng để biết thêm thông tin.

đường cong tổng quát hoá

#fundamentals

Biểu đồ về cả mất mát khi huấn luyện và mất mát khi xác thực dưới dạng một hàm của số lần lặp lại.

Đường cong khái quát hoá có thể giúp bạn phát hiện hiện tượng khớp quá mức. Ví dụ: đường cong khái quát hoá sau đây cho thấy tình trạng khớp quá mức vì tổn thất xác thực cuối cùng cao hơn đáng kể so với tổn thất huấn luyện.

Một biểu đồ Đề-các trong đó trục y được gắn nhãn là tổn thất và trục x được gắn nhãn là số lần lặp. Hai biểu đồ sẽ xuất hiện. Một biểu đồ cho thấy tổn thất huấn luyện và biểu đồ còn lại cho thấy tổn thất xác thực.
Hai biểu đồ bắt đầu tương tự nhau, nhưng tổn thất trong quá trình huấn luyện cuối cùng sẽ giảm xuống thấp hơn nhiều so với tổn thất trong quá trình xác thực.

Hãy xem phần Khái quát hoá trong Khoá học học máy ứng dụng để biết thêm thông tin.

phương pháp giảm độ dốc

#fundamentals

Một kỹ thuật toán học để giảm thiểu mất mát. Phương pháp hạ dốc điều chỉnh lặp đi lặp lại trọng số và độ lệch, dần dần tìm ra sự kết hợp tốt nhất để giảm thiểu tổn thất.

Phương pháp hạ độ dốc ra đời trước công nghệ học máy rất lâu.

Hãy xem phần Hồi quy tuyến tính: Phương pháp hạ độ dốc trong Khoá học cấp tốc về học máy để biết thêm thông tin.

dữ liệu thực tế

#fundamentals

Thực tế.

Điều thực sự đã xảy ra.

Ví dụ: hãy xem xét một mô hình phân loại nhị phân dự đoán xem một sinh viên năm nhất có tốt nghiệp trong vòng 6 năm hay không. Đầu ra thực sự cho mô hình này là việc học viên đó có thực sự tốt nghiệp trong vòng 6 năm hay không.

Nhấp vào biểu tượng để xem thêm ghi chú.

Chúng tôi đánh giá chất lượng mô hình dựa trên sự thật cơ bản. Tuy nhiên, thông tin thực tế không phải lúc nào cũng hoàn toàn chính xác. Ví dụ: hãy xem xét các ví dụ sau về những điểm không hoàn hảo tiềm ẩn trong dữ liệu thực tế:

Trong ví dụ về việc tốt nghiệp, chúng ta có chắc chắn rằng hồ sơ tốt nghiệp của mỗi học viên luôn chính xác không? Hồ sơ của trường đại học có hoàn hảo không?
Giả sử nhãn là một giá trị dấu phẩy động do các thiết bị đo (ví dụ: khí áp kế) đo được. Làm cách nào để đảm bảo rằng mỗi thiết bị đều được hiệu chỉnh giống nhau hoặc mỗi chỉ số đều được đo trong cùng một điều kiện?
Nếu nhãn là vấn đề về ý kiến của con người, làm sao chúng ta có thể chắc chắn rằng mỗi người đánh giá đều đánh giá các sự kiện theo cùng một cách? Để cải thiện tính nhất quán, đôi khi nhân viên đánh giá là chuyên gia sẽ can thiệp.

Cao

lớp ẩn

#fundamentals

Một lớp trong mạng nơ-ron giữa lớp đầu vào (các đối tượng) và lớp đầu ra (dự đoán). Mỗi lớp ẩn bao gồm một hoặc nhiều nơ-ron. Ví dụ: mạng nơ-ron sau đây chứa hai lớp ẩn, lớp đầu tiên có 3 nơ-ron và lớp thứ hai có 2 nơ-ron:

Một mạng nơ-ron sâu chứa nhiều lớp ẩn. Ví dụ: hình minh hoạ trước đó là một mạng nơ-ron sâu vì mô hình này có 2 lớp ẩn.

Hãy xem phần Mạng nơ-ron: Các nút và lớp ẩn trong Khoá học cấp tốc về học máy để biết thêm thông tin.

siêu tham số

#fundamentals

Các biến mà bạn hoặc dịch vụ điều chỉnh siêu tham sốđiều chỉnh trong các lần chạy liên tiếp của việc huấn luyện một mô hình. Ví dụ: tốc độ học tập là một siêu tham số. Bạn có thể đặt tốc độ học thành 0,01 trước một phiên huấn luyện. Nếu xác định rằng 0,01 là quá cao, bạn có thể đặt tốc độ học thành 0,003 cho phiên đào tạo tiếp theo.

Ngược lại, tham số là nhiều trọng số và độ lệch mà mô hình học được trong quá trình huấn luyện.

Hãy xem phần Hồi quy tuyến tính: Siêu tham số trong Khoá học cấp tốc về học máy để biết thêm thông tin.

I

phân phối độc lập và đồng nhất (i.i.d)

#fundamentals

Dữ liệu được lấy từ một phân phối không thay đổi và trong đó mỗi giá trị được lấy không phụ thuộc vào các giá trị đã được lấy trước đó. i.i.d. là khí lý tưởng của học máy – một cấu trúc toán học hữu ích nhưng hầu như không bao giờ xuất hiện chính xác trong thế giới thực. Ví dụ: việc phân phối khách truy cập vào một trang web có thể là i.i.d. trong một khoảng thời gian ngắn; tức là việc phân phối không thay đổi trong khoảng thời gian ngắn đó và lượt truy cập của một người thường độc lập với lượt truy cập của người khác. Tuy nhiên, nếu bạn mở rộng khoảng thời gian đó, thì sự khác biệt theo mùa về khách truy cập trang web có thể xuất hiện.

Xem thêm nonstationarity.

suy luận

#fundamentals

#generativeAI

Trong công nghệ học máy truyền thống, quy trình đưa ra dự đoán bằng cách áp dụng một mô hình đã được huấn luyện cho các ví dụ chưa được gắn nhãn. Hãy xem phần Học có giám sát trong khoá học Giới thiệu về học máy để tìm hiểu thêm.

Trong mô hình ngôn ngữ lớn, suy luận là quá trình sử dụng một mô hình đã được huấn luyện để tạo ra một phản hồi cho một câu lệnh đầu vào.

Suy luận có một ý nghĩa khác trong thống kê. Hãy xem bài viết trên Wikipedia về suy luận thống kê để biết thông tin chi tiết.

lớp đầu vào

#fundamentals

Lớp của một mạng nơron chứa vectơ đặc trưng. Tức là lớp đầu vào cung cấp ví dụ cho đào tạo hoặc suy luận. Ví dụ: lớp đầu vào trong mạng nơ-ron sau đây bao gồm 2 đặc điểm:

Bốn lớp: một lớp đầu vào, hai lớp ẩn và một lớp đầu ra.

khả năng diễn giải

#fundamentals

Khả năng giải thích hoặc trình bày lý do của mô hình học máy bằng những thuật ngữ dễ hiểu cho con người.

Ví dụ: Hầu hết các mô hình hồi quy tuyến tính đều có khả năng diễn giải cao. (Bạn chỉ cần xem xét trọng số đã được huấn luyện cho từng đối tượng.) Rừng quyết định cũng có khả năng diễn giải cao. Tuy nhiên, một số mô hình yêu cầu hình ảnh trực quan phức tạp để có thể diễn giải.

Bạn có thể sử dụng Công cụ diễn giải việc học (LIT) để diễn giải các mô hình học máy.

lặp lại

#fundamentals

Một lần cập nhật các tham số của mô hình – trọng số và độ lệch của mô hình – trong quá trình huấn luyện. Kích thước lô xác định số lượng ví dụ mà mô hình xử lý trong một lần lặp. Ví dụ: nếu kích thước lô là 20, thì mô hình sẽ xử lý 20 ví dụ trước khi điều chỉnh các tham số.

Khi huấn luyện một mạng nơron, một lần lặp lại duy nhất sẽ bao gồm 2 lượt truyền sau:

Một đường chuyền chuyển tiếp để đánh giá tổn thất trên một lô duy nhất.
Một đường truyền ngược (lan truyền ngược) để điều chỉnh các tham số của mô hình dựa trên mức tổn thất và tốc độ học.

Hãy xem phần Hạ độ dốc trong Khoá học học máy ứng dụng để biết thêm thông tin.

L

Điều hoà L₀

#fundamentals

Một loại điều chỉnh sẽ phạt tổng số trọng số khác 0 trong một mô hình. Ví dụ: một mô hình có 11 trọng số khác 0 sẽ bị phạt nhiều hơn một mô hình tương tự có 10 trọng số khác 0.

Điều chuẩn L₀ đôi khi được gọi là điều chuẩn L0-norm.

Nhấp vào biểu tượng để xem thêm ghi chú.

Việc điều chỉnh L₀ thường không thực tế trong các mô hình lớn vì việc điều chỉnh L₀ sẽ biến quá trình huấn luyện thành một vấn đề tối ưu hoá lồi.

Tổn thất L₁

#fundamentals

#Chỉ số

Một hàm tổn thất tính toán giá trị tuyệt đối của mức chênh lệch giữa các giá trị nhãn thực tế và các giá trị mà một mô hình dự đoán. Ví dụ: sau đây là cách tính tổn thất L₁ cho một lô gồm 5 ví dụ:

Giá trị thực tế của ví dụ	Giá trị dự đoán của mô hình	Giá trị tuyệt đối của delta
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = tổn thất L₁

Mất mát L₁ ít nhạy cảm với giá trị ngoại lệ hơn mất mát L₂.

Sai số tuyệt đối trung bình là mức tổn thất L₁ trung bình trên mỗi ví dụ.

Nhấp vào biểu tượng để xem công thức toán học chính thức.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

trong đó:

$n$ là số lượng ví dụ.
$y$ là giá trị thực tế của nhãn.
$\hat{y}$ là giá trị mà mô hình dự đoán cho $y$.

Hãy xem phần Hồi quy tuyến tính: Mất mát trong Khoá học cấp tốc về học máy để biết thêm thông tin.

Điều hoà L₁

#fundamentals

Một loại điều chỉnh sẽ phạt trọng số theo tỷ lệ với tổng giá trị tuyệt đối của trọng số. Việc điều chỉnh L₁ giúp giảm trọng số của các đặc điểm không liên quan hoặc hầu như không liên quan xuống chính xác bằng 0. Một đặc điểm có trọng số bằng 0 sẽ bị loại bỏ khỏi mô hình.

Tương phản với điều hoà _L2.

Tổn thất L₂

#fundamentals

#Chỉ số

Một hàm tổn thất tính bình phương của sự khác biệt giữa các giá trị nhãn thực tế và các giá trị mà một mô hình dự đoán. Ví dụ: sau đây là cách tính tổn thất L₂ cho một lô gồm 5 ví dụ:

Giá trị thực tế của ví dụ	Giá trị dự đoán của mô hình	Bình phương của delta
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = tổn thất L₂

Do bình phương, tổn thất L₂ sẽ khuếch đại ảnh hưởng của các giá trị ngoại lai. Tức là tổn thất L₂ phản ứng mạnh hơn với các dự đoán không chính xác so với tổn thất L₁. Ví dụ: tổn thất L₁ cho lô trước đó sẽ là 8 thay vì 16. Xin lưu ý rằng một giá trị ngoại lệ duy nhất chiếm 9 trong số 16 giá trị.

Mô hình hồi quy thường sử dụng tổn thất L₂ làm hàm tổn thất.

Sai số bình phương trung bình là tổn thất L₂ trung bình trên mỗi ví dụ. Tổn thất bình phương là một tên khác của tổn thất L₂.

Nhấp vào biểu tượng để xem công thức toán học chính thức.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

trong đó:

$n$ là số lượng ví dụ.
$y$ là giá trị thực tế của nhãn.
$\hat{y}$ là giá trị mà mô hình dự đoán cho $y$.

Hãy xem phần Hồi quy logistic: Hàm mất mát và điều chuẩn trong Khoá học cấp tốc về học máy để biết thêm thông tin.

Điều hoà L₂

#fundamentals

Một loại điều chuẩn sẽ phạt trọng số theo tỷ lệ với tổng bình phương của trọng số. Việc điều chỉnh L₂ giúp đẩy các trọng số ngoại lai (những trọng số có giá trị dương cao hoặc giá trị âm thấp) gần bằng 0 hơn nhưng không hoàn toàn bằng 0. Các đối tượng có giá trị rất gần với 0 vẫn nằm trong mô hình nhưng không ảnh hưởng nhiều đến dự đoán của mô hình.

Việc điều chỉnh L₂ luôn cải thiện khả năng khái quát hoá trong các mô hình tuyến tính.

Tương phản với điều hoà L₁.

Hãy xem phần Trang bị quá khớp: Điều chỉnh L2 trong Khoá học học máy ứng dụng để biết thêm thông tin.

nhãn

#fundamentals

Trong học máy có giám sát, phần "câu trả lời" hoặc "kết quả" của một ví dụ.

Mỗi ví dụ được gắn nhãn bao gồm một hoặc nhiều đặc điểm và một nhãn. Ví dụ: trong một tập dữ liệu phát hiện thư rác, nhãn có thể là "thư rác" hoặc "không phải thư rác". Trong một tập dữ liệu về lượng mưa, nhãn có thể là lượng mưa trong một khoảng thời gian nhất định.

Hãy xem phần Học có giám sát trong bài viết Giới thiệu về học máy để biết thêm thông tin.

ví dụ được gắn nhãn

#fundamentals

Một ví dụ chứa một hoặc nhiều đối tượng và một nhãn. Ví dụ: bảng sau đây cho thấy 3 ví dụ được gắn nhãn từ một mô hình định giá nhà, mỗi ví dụ có 3 đối tượng và 1 nhãn:

Số lượng phòng ngủ	Số lượng phòng tắm	Tuổi của nhà	Giá nhà (nhãn)
3	2	15	345.000 USD
2	1	72	$179.000
4	2	34	392.000 USD

Trong công nghệ học máy có giám sát, các mô hình sẽ được huấn luyện dựa trên các ví dụ được gắn nhãn và đưa ra dự đoán về các ví dụ chưa được gắn nhãn.

So sánh ví dụ có nhãn với ví dụ không có nhãn.

Hãy xem phần Học có giám sát trong bài viết Giới thiệu về học máy để biết thêm thông tin.

lambda

#fundamentals

Từ đồng nghĩa với hệ số điều hoà.

Lambda là một thuật ngữ được nạp chồng. Ở đây, chúng ta sẽ tập trung vào định nghĩa của thuật ngữ trong quy trình chuẩn hoá.

lớp

#fundamentals

Một nhóm nơron trong mạng nơron. Sau đây là 3 loại lớp phổ biến:

lớp đầu vào, cung cấp các giá trị cho tất cả đối tượng.
Một hoặc nhiều lớp ẩn, tìm ra các mối quan hệ phi tuyến tính giữa các đối tượng và nhãn.
lớp đầu ra, cung cấp thông tin dự đoán.

Ví dụ: hình minh hoạ sau đây cho thấy một mạng nơ-ron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra:

Một mạng nơ-ron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra. Lớp đầu vào bao gồm 2 đối tượng. Lớp ẩn đầu tiên bao gồm 3 nơ-ron và lớp ẩn thứ hai bao gồm 2 nơ-ron. Lớp đầu ra bao gồm một nút duy nhất.

Trong TensorFlow, các lớp cũng là những hàm Python nhận Tensor và các lựa chọn cấu hình làm dữ liệu đầu vào và tạo ra các tensor khác làm dữ liệu đầu ra.

tốc độ học

#fundamentals

Một số thực cho biết thuật toán hạ độ dốc điều chỉnh trọng số và độ lệch mạnh đến mức nào trên mỗi lần lặp lại. Ví dụ: tốc độ học tập là 0,3 sẽ điều chỉnh trọng số và độ lệch mạnh hơn gấp 3 lần so với tốc độ học tập là 0,1.

Tốc độ học tập là một siêu tham số quan trọng. Nếu bạn đặt tốc độ học quá thấp, quá trình huấn luyện sẽ mất quá nhiều thời gian. Nếu bạn đặt tốc độ học tập quá cao, thì quá trình giảm độ dốc thường gặp khó khăn trong việc đạt được sự hội tụ.

Nhấp vào biểu tượng để xem giải thích mang tính toán học hơn.

Trong mỗi lần lặp lại, thuật toán hạ độ dốc sẽ nhân tốc độ học với độ dốc. Sản phẩm thu được được gọi là bước chuyển màu.

Hãy xem phần Hồi quy tuyến tính: Siêu tham số trong Khoá học cấp tốc về học máy để biết thêm thông tin.

tuyến tính

#fundamentals

Mối quan hệ giữa hai hoặc nhiều biến chỉ có thể được biểu thị thông qua phép cộng và phép nhân.

Đồ thị của mối quan hệ tuyến tính là một đường thẳng.

Tương phản với phi tuyến tính.

mô hình tuyến tính

#fundamentals

Một mô hình chỉ định một trọng số cho mỗi đặc điểm để đưa ra dự đoán. (Mô hình tuyến tính cũng kết hợp độ lệch.) Ngược lại, mối quan hệ giữa các đặc điểm với dự đoán trong các mô hình sâu thường là phi tuyến tính.

Các mô hình tuyến tính thường dễ huấn luyện và dễ diễn giải hơn so với các mô hình sâu. Tuy nhiên, các mô hình sâu có thể học được các mối quan hệ phức tạp giữa các đặc điểm.

Hồi quy tuyến tính và hồi quy logistic là hai loại mô hình tuyến tính.

Nhấp vào biểu tượng để xem phép tính.

Mô hình tuyến tính tuân theo công thức sau:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

trong đó:

y' là giá trị dự đoán thô. (Trong một số loại mô hình tuyến tính, dự đoán thô này sẽ được sửa đổi thêm. Ví dụ: xem hồi quy logistic.)
b là độ lệch.
w là trọng số, vì vậy w₁ là trọng số của đặc điểm đầu tiên, w₂ là trọng số của đặc điểm thứ hai, v.v.
x là một đặc điểm, vì vậy x₁ là giá trị của đặc điểm đầu tiên, x₂ là giá trị của đặc điểm thứ hai, v.v.

Ví dụ: giả sử một mô hình tuyến tính cho 3 đặc điểm học được độ lệch và trọng số sau đây:

b = 7
w₁ = -2,5
w₂ = -1,2
w₃ = 1,4

Do đó, với 3 đặc điểm (x₁, x₂ và x₃), mô hình tuyến tính sử dụng phương trình sau để tạo từng giá trị dự đoán:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Giả sử một ví dụ cụ thể chứa các giá trị sau:

x₁ = 4
x₂ = -10
x₃ = 5

Khi bạn nhập các giá trị đó vào công thức, kết quả dự đoán cho ví dụ này sẽ là:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

Mô hình tuyến tính không chỉ bao gồm những mô hình chỉ sử dụng phương trình tuyến tính để đưa ra dự đoán mà còn bao gồm một nhóm mô hình rộng hơn sử dụng phương trình tuyến tính chỉ là một thành phần của công thức đưa ra dự đoán. Ví dụ: hồi quy logistic xử lý sau dự đoán thô (y') để tạo ra giá trị dự đoán cuối cùng từ 0 đến 1, một cách độc quyền.

hồi quy tuyến tính

#fundamentals

Một loại mô hình học máy mà cả hai điều kiện sau đều đúng:

Mô hình này là một mô hình tuyến tính.
Giá trị dự đoán là giá trị dấu phẩy động. (Đây là phần hồi quy của hồi quy tuyến tính.)

So sánh hồi quy tuyến tính với hồi quy logistic. Ngoài ra, hãy so sánh hồi quy với phân loại.

Hãy xem phần Hồi quy tuyến tính trong Khoá học học máy ứng dụng để biết thêm thông tin.

hồi quy logistic

#fundamentals

Một loại mô hình hồi quy dự đoán xác suất. Mô hình hồi quy logistic có các đặc điểm sau:

Nhãn này là phân loại. Thuật ngữ hồi quy logistic thường đề cập đến hồi quy logistic nhị phân, tức là một mô hình tính toán xác suất cho các nhãn có 2 giá trị có thể. Một biến thể ít phổ biến hơn, hồi quy logistic đa thức, tính toán xác suất cho các nhãn có nhiều hơn hai giá trị có thể.
Hàm tổn thất trong quá trình huấn luyện là Tổn thất nhật ký. (Bạn có thể đặt song song nhiều đơn vị Log Loss cho các nhãn có nhiều hơn 2 giá trị có thể.)
Mô hình này có cấu trúc tuyến tính, không phải mạng nơ-ron sâu. Tuy nhiên, phần còn lại của định nghĩa này cũng áp dụng cho mô hình sâu dự đoán xác suất cho nhãn phân loại.

Ví dụ: hãy xem xét một mô hình hồi quy logistic tính toán xác suất của một email đầu vào là thư rác hay không phải thư rác. Trong quá trình suy luận, giả sử mô hình dự đoán là 0,72. Do đó, mô hình này đang ước tính:

Email có 72% khả năng là thư rác.
Có 28% khả năng email này không phải là thư rác.

Mô hình hồi quy logistic sử dụng cấu trúc gồm 2 bước sau:

Mô hình này tạo ra một dự đoán thô (y') bằng cách áp dụng một hàm tuyến tính của các đặc điểm đầu vào.
Mô hình này sử dụng thông tin dự đoán thô đó làm dữ liệu đầu vào cho một hàm sigmoid. Hàm này chuyển đổi thông tin dự đoán thô thành một giá trị từ 0 đến 1 (không bao gồm 0 và 1).

Giống như mọi mô hình hồi quy, mô hình hồi quy logistic dự đoán một con số. Tuy nhiên, số này thường trở thành một phần của mô hình phân loại nhị phân như sau:

Nếu số dự đoán lớn hơn ngưỡng phân loại, thì mô hình phân loại nhị phân sẽ dự đoán lớp dương.
Nếu số dự đoán nhỏ hơn ngưỡng phân loại, mô hình phân loại nhị phân sẽ dự đoán lớp âm.

Hãy xem phần Hồi quy logistic trong Khoá học học máy ứng dụng để biết thêm thông tin.

Tổn thất logistic

#fundamentals

Hàm tổn thất được dùng trong hồi quy logistic nhị phân.

Nhấp vào biểu tượng để xem phép tính.

Công thức sau đây dùng để tính Log Loss:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

trong đó:

$(x,y)\in D$ là tập dữ liệu chứa nhiều ví dụ được gắn nhãn, đó là các cặp $(x,y)$ .
$y$ là nhãn trong một ví dụ có nhãn. Vì đây là hồi quy logistic, nên mọi giá trị của $y$ phải là 0 hoặc 1.
$y'$ là giá trị dự đoán (nằm trong khoảng từ 0 đến 1, không bao gồm), cho một tập hợp các đối tượng trong $x$.

Hãy xem phần Hồi quy logistic: Hàm tổn thất và điều chuẩn trong Khoá học cấp tốc về học máy để biết thêm thông tin.

log-odds

#fundamentals

Logarit của tỷ lệ cược của một sự kiện nào đó.

Nhấp vào biểu tượng để xem phép tính.

Nếu sự kiện là xác suất nhị phân, thì tỷ lệ đề cập đến tỷ lệ giữa xác suất thành công (p) và xác suất thất bại (1-p). Ví dụ: giả sử một sự kiện nhất định có xác suất thành công là 90% và xác suất thất bại là 10%. Trong trường hợp này, tỷ lệ cược được tính như sau:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

Log-odds chỉ đơn giản là lôgarit của tỷ lệ cược. Theo quy ước, "logarit" đề cập đến logarit tự nhiên, nhưng logarit thực sự có thể là bất kỳ cơ số nào lớn hơn 1. Theo quy ước, log-odds của ví dụ này là:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

Hàm log-odds là hàm nghịch đảo của hàm sigmoid.

thua

#fundamentals

#Chỉ số

Trong quá trình huấn luyện một mô hình có giám sát, một thước đo cho biết dự đoán của mô hình cách xa nhãn của mô hình bao nhiêu.

Hàm tổn thất tính toán tổn thất.

Hãy xem phần Hồi quy tuyến tính: Mất mát trong Khoá học cấp tốc về học máy để biết thêm thông tin.

đường cong tổn thất

#fundamentals

Biểu đồ mất mát dưới dạng hàm của số lượng lần lặp lại trong quá trình huấn luyện. Biểu đồ sau đây cho thấy một đường cong tổn thất điển hình:

Biểu đồ Đề-các về tổn thất so với các lần lặp lại huấn luyện, cho thấy tổn thất giảm nhanh chóng trong các lần lặp lại ban đầu, sau đó giảm dần và sau đó là độ dốc phẳng trong các lần lặp lại cuối cùng.

Đường cong tổn thất có thể giúp bạn xác định thời điểm mô hình của bạn hội tụ hoặc quá khớp.

Đường cong tổn thất có thể vẽ tất cả các loại tổn thất sau đây:

mất mát trong quá trình huấn luyện
mất mát xác thực
mất mát khi kiểm thử

Xem thêm đường cong khái quát hoá.

Hãy xem phần Huấn luyện quá mức: Giải thích các đường cong tổn thất trong Khoá học cấp tốc về học máy để biết thêm thông tin.

hàm tổn thất

#fundamentals

#Chỉ số

Trong quá trình huấn luyện hoặc kiểm thử, một hàm toán học sẽ tính toán mức tổn thất trên một lô ví dụ. Hàm tổn thất trả về mức tổn thất thấp hơn cho những mô hình đưa ra dự đoán chính xác so với những mô hình đưa ra dự đoán không chính xác.

Mục tiêu của việc huấn luyện thường là giảm thiểu mức tổn thất mà một hàm tổn thất trả về.

Có nhiều loại hàm tổn thất. Chọn hàm tổn thất phù hợp cho loại mô hình mà bạn đang xây dựng. Ví dụ:

Mất mát L₂ (hoặc Sai số bình phương trung bình) là hàm mất mát cho hồi quy tuyến tính.
Log Loss là hàm tổn thất cho hồi quy logistic.

M

học máy

#fundamentals

Một chương trình hoặc hệ thống huấn luyện một mô hình từ dữ liệu đầu vào. Mô hình được huấn luyện có thể đưa ra những dự đoán hữu ích từ dữ liệu mới (chưa từng thấy) được lấy từ cùng một bản phân phối như bản phân phối được dùng để huấn luyện mô hình.

Học máy cũng đề cập đến lĩnh vực nghiên cứu liên quan đến các chương trình hoặc hệ thống này.

Hãy xem khoá học Giới thiệu về học máy để biết thêm thông tin.

lớp đa số

#fundamentals

Nhãn phổ biến hơn trong tập dữ liệu bất cân đối về loại. Ví dụ: với một tập dữ liệu chứa 99% nhãn âm tính và 1% nhãn dương tính, nhãn âm tính là lớp đa số.

Tương phản với lớp thiểu số.

Hãy xem phần Tập dữ liệu: Tập dữ liệu không cân bằng trong Khoá học cấp tốc về học máy để biết thêm thông tin.

lô nhỏ

#fundamentals

Một nhóm nhỏ được chọn ngẫu nhiên trong một lô được xử lý trong một lần lặp. Kích thước lô của một lô nhỏ thường nằm trong khoảng từ 10 đến 1.000 ví dụ.

Ví dụ: giả sử toàn bộ tập huấn luyện (toàn bộ lô) bao gồm 1.000 ví dụ. Giả sử bạn đặt kích thước lô của mỗi lô nhỏ thành 20. Do đó, mỗi lần lặp lại sẽ xác định mức tổn thất trên 20 ví dụ ngẫu nhiên trong số 1.000 ví dụ,sau đó điều chỉnh trọng số và độ lệch cho phù hợp.

Việc tính toán mức tổn thất trên một lô nhỏ hiệu quả hơn nhiều so với mức tổn thất trên tất cả các ví dụ trong lô đầy đủ.

Hãy xem phần Hồi quy tuyến tính: Siêu tham số trong Khoá học cấp tốc về học máy để biết thêm thông tin.

nhóm thiểu số

#fundamentals

Nhãn ít phổ biến hơn trong tập dữ liệu không cân bằng theo lớp. Ví dụ: cho một tập dữ liệu chứa 99% nhãn âm và 1% nhãn dương, nhãn dương là lớp thiểu số.

Tương phản với lớp đa số.

Nhấp vào biểu tượng để xem thêm ghi chú.

Một tập huấn luyện có một triệu ví dụ nghe có vẻ ấn tượng. Tuy nhiên, nếu lớp thiểu số được biểu thị kém, thì ngay cả một tập hợp huấn luyện rất lớn cũng có thể không đủ. Ít tập trung vào tổng số ví dụ trong tập dữ liệu và tập trung nhiều hơn vào số lượng ví dụ trong lớp thiểu số.

Nếu tập dữ liệu của bạn không chứa đủ ví dụ về lớp thiểu số, hãy cân nhắc sử dụng giảm mẫu (định nghĩa trong dấu đầu dòng thứ hai) để bổ sung cho lớp thiểu số.

Hãy xem phần Tập dữ liệu: Tập dữ liệu không cân bằng trong Khoá học cấp tốc về học máy để biết thêm thông tin.

kiểu máy

#fundamentals

Nói chung, bất kỳ cấu trúc toán học nào xử lý dữ liệu đầu vào và trả về đầu ra. Nói cách khác, mô hình là tập hợp các thông số và cấu trúc cần thiết để một hệ thống đưa ra dự đoán. Trong công nghệ học máy có giám sát, một mô hình sẽ lấy một ví dụ làm dữ liệu đầu vào và suy luận một dự đoán làm dữ liệu đầu ra. Trong học máy có giám sát, các mô hình có sự khác biệt nhất định. Ví dụ:

Mô hình hồi quy tuyến tính bao gồm một tập hợp trọng số và một độ lệch.
Mô hình mạng nơron bao gồm:
- Một tập hợp gồm các lớp ẩn, mỗi lớp chứa một hoặc nhiều nơ-ron.
- Trọng số và độ lệch liên kết với từng nơ-ron.
Mô hình cây quyết định bao gồm:
- Hình dạng của cây; tức là mẫu mà các điều kiện và lá được kết nối.
- Các điều kiện và lá.

Bạn có thể lưu, khôi phục hoặc tạo bản sao của một mô hình.

Học máy không giám sát cũng tạo ra các mô hình, thường là một hàm có thể liên kết một ví dụ đầu vào với cụm phù hợp nhất.

Nhấp vào biểu tượng để so sánh các hàm đại số và hàm lập trình với các mô hình học máy.

Một hàm đại số như sau là một mô hình:

  f(x, y) = 3x -5xy + y² + 17

Hàm trước đó ánh xạ các giá trị đầu vào (x và y) đến đầu ra.

Tương tự, một hàm lập trình như sau cũng là một mô hình:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

Phương thức gọi truyền các đối số đến hàm Python trước đó và hàm Python tạo ra đầu ra (thông qua câu lệnh return).

Mặc dù mạng nơ-ron sâu có cấu trúc toán học rất khác so với hàm đại số hoặc hàm lập trình, nhưng mạng nơ-ron sâu vẫn nhận dữ liệu đầu vào (một ví dụ) và trả về dữ liệu đầu ra (một dự đoán).

Một lập trình viên là con người sẽ tự lập trình một hàm lập trình. Ngược lại, mô hình học máy dần học các thông số tối ưu trong quá trình huấn luyện tự động.

phân loại đa mục

#fundamentals

Trong học có giám sát, vấn đề phân loại trong đó tập dữ liệu chứa hơn hai lớp nhãn. Ví dụ: nhãn trong tập dữ liệu Iris phải là một trong 3 lớp sau:

Iris setosa
Iris virginica
Iris versicolor

Một mô hình được huấn luyện trên tập dữ liệu Iris để dự đoán loại Iris trên các ví dụ mới đang thực hiện phân loại nhiều lớp.

Ngược lại, các vấn đề phân loại phân biệt chính xác giữa hai lớp là mô hình phân loại nhị phân. Ví dụ: mô hình email dự đoán thư rác hoặc không phải thư rác là mô hình phân loại nhị phân.

Trong các vấn đề về phân cụm, phân loại nhiều lớp đề cập đến hơn hai cụm.

Hãy xem phần Mạng nơ-ron: Phân loại nhiều lớp trong Khoá học cấp tốc về học máy để biết thêm thông tin.

Không

lớp âm

#fundamentals

#Chỉ số

Trong phân loại nhị phân, một lớp được gọi là dương tính và lớp còn lại được gọi là âm tính. Lớp dương là đối tượng hoặc sự kiện mà mô hình đang kiểm thử và lớp âm là khả năng khác. Ví dụ:

Lớp âm tính trong một xét nghiệm y tế có thể là "không phải khối u".
Lớp âm trong mô hình phân loại email có thể là "không phải thư rác".

Tương phản với lớp dương.

mạng nơ-ron

#fundamentals

Một mô hình chứa ít nhất một lớp ẩn. Mạng nơ-ron sâu là một loại mạng nơ-ron có nhiều lớp ẩn. Ví dụ: sơ đồ sau đây cho thấy một mạng nơ-ron sâu chứa 2 lớp ẩn.

Một mạng nơ-ron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra.

Mỗi nơ-ron trong mạng nơ-ron kết nối với tất cả các nút trong lớp tiếp theo. Ví dụ: trong sơ đồ trước đó, hãy lưu ý rằng mỗi trong số 3 nơ-ron ở lớp ẩn đầu tiên kết nối riêng biệt với cả 2 nơ-ron ở lớp ẩn thứ hai.

Mạng nơron được triển khai trên máy tính đôi khi được gọi là mạng nơron nhân tạo để phân biệt với mạng nơron có trong não và các hệ thần kinh khác.

Một số mạng nơ-ron có thể mô phỏng các mối quan hệ phi tuyến tính cực kỳ phức tạp giữa các đặc điểm và nhãn.

Xem thêm mạng nơron tích chập và mạng nơron hồi quy.

Hãy xem phần Mạng nơ-ron trong Khoá học học máy ứng dụng để biết thêm thông tin.

nơron

#fundamentals

Trong học máy, một đơn vị riêng biệt trong lớp ẩn của một mạng nơ-ron. Mỗi nơ-ron thực hiện hành động gồm 2 bước sau:

Tính tổng có trọng số của các giá trị đầu vào nhân với trọng số tương ứng.
Truyền tổng có trọng số làm dữ liệu đầu vào cho một hàm kích hoạt.

Một nơ-ron trong lớp ẩn đầu tiên chấp nhận dữ liệu đầu vào từ các giá trị của đối tượng trong lớp đầu vào. Một nơ-ron trong bất kỳ lớp ẩn nào ngoài lớp đầu tiên sẽ chấp nhận dữ liệu đầu vào từ các nơ-ron trong lớp ẩn trước đó. Ví dụ: một nơ-ron trong lớp ẩn thứ hai chấp nhận dữ liệu đầu vào từ các nơ-ron trong lớp ẩn thứ nhất.

Hình minh hoạ sau đây làm nổi bật 2 nơ-ron và các đầu vào của chúng.

Một mạng nơ-ron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra. Hai nơ-ron được làm nổi bật: một trong lớp ẩn đầu tiên và một trong lớp ẩn thứ hai. Nơ-ron được làm nổi bật trong lớp ẩn đầu tiên nhận dữ liệu đầu vào từ cả hai đặc điểm trong lớp đầu vào. Nơ-ron được làm nổi bật trong lớp ẩn thứ hai nhận dữ liệu đầu vào từ mỗi trong số 3 nơ-ron trong lớp ẩn thứ nhất.

Một nơron trong mạng nơron mô phỏng hành vi của các nơron trong não và các bộ phận khác của hệ thần kinh.

nút (mạng nơron)

#fundamentals

Một nơron trong một lớp ẩn.

Hãy xem phần Mạng nơ-ron trong Khoá học học máy ứng dụng để biết thêm thông tin.

phi tuyến tính

#fundamentals

Mối quan hệ giữa hai hoặc nhiều biến không thể chỉ được biểu thị thông qua phép cộng và phép nhân. Mối quan hệ tuyến tính có thể được biểu thị dưới dạng một đường thẳng; mối quan hệ phi tuyến tính không thể được biểu thị dưới dạng một đường thẳng. Ví dụ: hãy xem xét 2 mô hình, mỗi mô hình liên kết một tính năng duy nhất với một nhãn duy nhất. Mô hình bên trái là tuyến tính và mô hình bên phải là phi tuyến tính:

Hai lô đất. Một ô là một đường thẳng, vì vậy đây là mối quan hệ tuyến tính.
Biểu đồ còn lại là một đường cong, nên đây là mối quan hệ phi tuyến tính.

Hãy xem phần Mạng nơ-ron: Các nút và lớp ẩn trong Khoá học cấp tốc về học máy để thử nghiệm nhiều loại hàm phi tuyến tính.

nonstationarity

#fundamentals

Một đối tượng có giá trị thay đổi theo một hoặc nhiều phương diện, thường là thời gian. Ví dụ: hãy xem xét các ví dụ sau về tính không dừng:

Số lượng đồ bơi được bán tại một cửa hàng cụ thể sẽ thay đổi theo mùa.
Số lượng một loại trái cây cụ thể được thu hoạch ở một khu vực cụ thể là 0 trong phần lớn thời gian của năm nhưng lại rất lớn trong một khoảng thời gian ngắn.
Do biến đổi khí hậu, nhiệt độ trung bình hằng năm đang thay đổi.

Tương phản với tính dừng.

chuẩn hoá

#fundamentals

Nói chung, quy trình chuyển đổi phạm vi giá trị thực tế của một biến thành phạm vi giá trị tiêu chuẩn, chẳng hạn như:

-1 đến +1
0 đến 1
Điểm Z (từ -3 đến +3)

Ví dụ: giả sử phạm vi giá trị thực của một tính năng nhất định là từ 800 đến 2.400. Trong quá trình thiết kế tính năng, bạn có thể chuẩn hoá các giá trị thực xuống một phạm vi tiêu chuẩn, chẳng hạn như từ -1 đến +1.

Chuẩn hoá là một nhiệm vụ phổ biến trong kỹ thuật trích xuất đặc điểm. Các mô hình thường huấn luyện nhanh hơn (và đưa ra dự đoán chính xác hơn) khi mọi đặc điểm số trong vectơ đặc điểm có phạm vi gần như giống nhau.

Xem thêm Chuẩn hoá điểm Z.

Hãy xem phần Dữ liệu dạng số: Chuẩn hoá trong Khoá học cấp tốc về học máy để biết thêm thông tin.

dữ liệu dạng số

#fundamentals

Đối tượng được biểu thị dưới dạng số nguyên hoặc số thực. Ví dụ: mô hình định giá nhà có thể biểu thị quy mô của một ngôi nhà (tính bằng feet vuông hoặc mét vuông) dưới dạng dữ liệu dạng số. Việc biểu thị một đối tượng dưới dạng dữ liệu số cho biết rằng các giá trị của đối tượng có mối quan hệ toán học với nhãn. Tức là số mét vuông trong một ngôi nhà có thể có mối quan hệ toán học nào đó với giá trị của ngôi nhà.

Không phải tất cả dữ liệu số nguyên đều phải được biểu thị dưới dạng dữ liệu dạng số. Ví dụ: mã bưu chính ở một số nơi trên thế giới là số nguyên; tuy nhiên, mã bưu chính số nguyên không được biểu thị dưới dạng dữ liệu dạng số trong các mô hình. Điều này là do mã bưu chính 20000 không có hiệu quả gấp đôi (hoặc bằng một nửa) so với mã bưu chính 10000. Hơn nữa, mặc dù các mã bưu chính khác nhau có tương quan với các giá trị bất động sản khác nhau, nhưng chúng ta không thể giả định rằng giá trị bất động sản tại mã bưu chính 20000 có giá trị gấp đôi so với giá trị bất động sản tại mã bưu chính 10000. Thay vào đó, bạn nên trình bày mã bưu chính dưới dạng dữ liệu phân loại.

Các đặc điểm bằng số đôi khi được gọi là đặc điểm liên tục.

Hãy xem phần Làm việc với dữ liệu dạng số trong Khoá học cấp tốc về học máy để biết thêm thông tin.

O

ngoại tuyến

#fundamentals

Từ đồng nghĩa với static.

suy luận ngoại tuyến

#fundamentals

Quy trình tạo một lô dự đoán của mô hình, sau đó lưu các dự đoán đó vào bộ nhớ đệm. Sau đó, các ứng dụng có thể truy cập vào dự đoán suy luận từ bộ nhớ đệm thay vì chạy lại mô hình.

Ví dụ: hãy xem xét một mô hình tạo thông tin dự báo thời tiết tại địa phương (dữ liệu dự đoán) mỗi 4 giờ một lần. Sau mỗi lần chạy mô hình, hệ thống sẽ lưu vào bộ nhớ đệm tất cả thông tin dự báo thời tiết địa phương. Các ứng dụng thời tiết truy xuất thông tin dự báo từ bộ nhớ đệm.

Suy luận ngoại tuyến còn được gọi là suy luận tĩnh.

Tương phản với suy luận trực tuyến. Hãy xem bài viết Hệ thống ML trong sản xuất: Suy luận tĩnh so với suy luận động trong Khoá học cấp tốc về học máy để biết thêm thông tin.

mã hoá one-hot

#fundamentals

Biểu thị dữ liệu phân loại dưới dạng một vectơ trong đó:

Một phần tử được đặt thành 1.
Tất cả các phần tử khác được đặt thành 0.

Mã hoá một lần thường được dùng để biểu thị các chuỗi hoặc giá trị nhận dạng có một tập hợp hữu hạn các giá trị có thể. Ví dụ: giả sử một tính năng phân loại nhất định có tên là Scandinavia có 5 giá trị có thể có:

"Đan Mạch"
"Thuỵ Điển"
"Na Uy"
"Phần Lan"
"Iceland"

Phương pháp mã hoá one-hot có thể biểu thị từng giá trị trong số 5 giá trị như sau:

Quốc gia	Vectơ
"Đan Mạch"	1	0	0	0	0
"Thuỵ Điển"	0	1	0	0	0
"Na Uy"	0	0	1	0	0
"Phần Lan"	0	0	0	1	0
"Iceland"	0	0	0	0	1

Nhờ phương pháp mã hoá một lần, mô hình có thể tìm hiểu các mối liên kết khác nhau dựa trên từng quốc gia trong số 5 quốc gia.

Biểu thị một đối tượng dưới dạng dữ liệu số là một lựa chọn thay thế cho mã hoá one-hot. Rất tiếc, việc biểu thị các quốc gia Bắc Âu bằng số không phải là một lựa chọn hay. Ví dụ: hãy xem xét biểu diễn bằng số sau đây:

"Đan Mạch" là 0
"Thuỵ Điển" là 1
"Na Uy" là 2
"Phần Lan" là 3
"Iceland" là 4

Với phương pháp mã hoá bằng số, mô hình sẽ diễn giải các con số thô về mặt toán học và cố gắng huấn luyện dựa trên những con số đó. Tuy nhiên, Iceland không thực sự gấp đôi (hoặc bằng một nửa) một thứ gì đó so với Na Uy, vì vậy, mô hình sẽ đưa ra một số kết luận kỳ lạ.

Hãy xem Dữ liệu phân loại: Từ vựng và mã hoá một lần nóng trong Khoá học cấp tốc về học máy để biết thêm thông tin.

một-với-tất-cả

#fundamentals

Với một vấn đề phân loại có N lớp, một giải pháp bao gồm N mô hình phân loại nhị phân riêng biệt – một mô hình phân loại nhị phân cho mỗi kết quả có thể xảy ra. Ví dụ: cho một mô hình phân loại các ví dụ là động vật, thực vật hoặc khoáng chất, giải pháp một chọi tất cả sẽ cung cấp 3 mô hình phân loại nhị phân riêng biệt sau đây:

động vật so với không phải động vật
rau củ so với không phải rau củ
khoáng chất so với không phải khoáng chất

trực tuyến

#fundamentals

Từ đồng nghĩa với linh động.

suy luận trực tuyến

#fundamentals

Tạo dự đoán theo yêu cầu. Ví dụ: giả sử một ứng dụng truyền dữ liệu đầu vào đến một mô hình và đưa ra yêu cầu dự đoán. Một hệ thống sử dụng suy luận trực tuyến sẽ phản hồi yêu cầu bằng cách chạy mô hình (và trả về kết quả dự đoán cho ứng dụng).

Tương phản với suy luận ngoại tuyến.

Hãy xem bài viết Hệ thống ML trong sản xuất: Suy luận tĩnh so với suy luận động trong Khoá học cấp tốc về học máy để biết thêm thông tin.

lớp đầu ra

#fundamentals

Lớp "cuối cùng" của mạng nơ-ron. Lớp đầu ra chứa thông tin dự đoán.

Hình minh hoạ sau đây cho thấy một mạng nơ-ron sâu nhỏ có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra:

khái quát hoá kém

#fundamentals

Tạo một mô hình khớp với dữ liệu huấn luyện quá sát sao đến mức mô hình không thể đưa ra dự đoán chính xác về dữ liệu mới.

Điều chỉnh có thể giảm tình trạng khớp quá mức. Việc huấn luyện trên một bộ dữ liệu huấn luyện lớn và đa dạng cũng có thể giảm tình trạng khớp quá mức.

Nhấp vào biểu tượng để xem thêm ghi chú.

Việc khớp quá mức giống như việc bạn chỉ làm theo lời khuyên của giáo viên mà bạn yêu thích. Có thể bạn sẽ thành công trong lớp học của giáo viên đó, nhưng bạn có thể "quá phù hợp" với ý tưởng của giáo viên đó và không thành công trong các lớp học khác. Việc làm theo lời khuyên của nhiều giáo viên sẽ giúp bạn thích ứng tốt hơn với những tình huống mới.

Hãy xem phần Quá khớp trong Khoá học học máy ứng dụng để biết thêm thông tin.

Điểm

gấu trúc

#fundamentals

Một API phân tích dữ liệu theo cột được xây dựng dựa trên numpy. Nhiều khung máy học, bao gồm cả TensorFlow, hỗ trợ cấu trúc dữ liệu pandas làm dữ liệu đầu vào. Hãy xem tài liệu về pandas để biết thông tin chi tiết.

tham số

#fundamentals

Trọng số và độ lệch mà một mô hình học được trong quá trình huấn luyện. Ví dụ: trong mô hình hồi quy tuyến tính, các tham số bao gồm độ lệch (b) và tất cả các trọng số (w₁, w₂, v.v.) trong công thức sau:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Ngược lại, siêu tham số là những giá trị mà bạn (hoặc dịch vụ điều chỉnh siêu tham số) cung cấp cho mô hình. Ví dụ: tốc độ học tập là một siêu tham số.

lớp dương

#fundamentals

#Chỉ số

Lớp học mà bạn đang kiểm thử.

Ví dụ: lớp dương tính trong mô hình ung thư có thể là "khối u". Lớp dương tính trong mô hình phân loại email có thể là "thư rác".

Tương phản với lớp âm.

Nhấp vào biểu tượng để xem thêm ghi chú.

Thuật ngữ lớp dương tính có thể gây nhầm lẫn vì kết quả "dương tính" của nhiều xét nghiệm thường là kết quả không mong muốn. Ví dụ: lớp dương tính trong nhiều xét nghiệm y tế tương ứng với các khối u hoặc bệnh tật. Nói chung, bạn muốn bác sĩ nói với bạn rằng: "Chúc mừng! Kết quả xét nghiệm của bạn là âm tính". Bất kể điều gì, lớp dương tính là sự kiện mà kiểm thử đang tìm kiếm.

Thừa nhận rằng bạn đang đồng thời kiểm thử cho cả các lớp dương tính và âm tính.

hậu xử lý

#responsible

#fundamentals

Điều chỉnh đầu ra của một mô hình sau khi mô hình đó đã chạy. Bạn có thể sử dụng quy trình xử lý hậu kỳ để thực thi các ràng buộc về tính công bằng mà không cần sửa đổi chính các mô hình.

Ví dụ: người ta có thể áp dụng quy trình xử lý hậu kỳ cho một mô hình phân loại nhị phân bằng cách đặt một ngưỡng phân loại sao cho tính bình đẳng về cơ hội được duy trì cho một số thuộc tính bằng cách kiểm tra để đảm bảo rằng tỷ lệ dương tính thực là như nhau đối với tất cả các giá trị của thuộc tính đó.

độ chính xác

#fundamentals

#Chỉ số

Một chỉ số cho các mô hình phân loại giúp trả lời câu hỏi sau:

Khi mô hình dự đoán lớp dương tính, tỷ lệ phần trăm dự đoán chính xác là bao nhiêu?

Sau đây là công thức:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

trong đó:

dương tính thật có nghĩa là mô hình đã dự đoán chính xác lớp dương tính.
dương tính giả có nghĩa là mô hình đã nhầm lẫn dự đoán hạng mục dương.

Ví dụ: giả sử một mô hình đưa ra 200 dự đoán dương tính. Trong số 200 dự đoán tích cực này:

150 trường hợp là dương tính thật.
50 trường hợp là dương tính giả.

Trong trường hợp này:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Tương phản với độ chính xác và khả năng thu hồi.

Hãy xem phần Phân loại: Độ chính xác, khả năng thu hồi, độ đo và các chỉ số liên quan trong Khoá học cấp tốc về học máy để biết thêm thông tin.

dự đoán

#fundamentals

Đầu ra của một mô hình. Ví dụ:

Dự đoán của mô hình phân loại nhị phân là lớp dương hoặc lớp âm.
Thông tin dự đoán của mô hình phân loại đa mục là một lớp.
Dự đoán của mô hình hồi quy tuyến tính là một con số.

nhãn đại diện

#fundamentals

Dữ liệu dùng để ước chừng nhãn không có sẵn trực tiếp trong một tập dữ liệu.

Ví dụ: giả sử bạn phải huấn luyện một mô hình để dự đoán mức độ căng thẳng của nhân viên. Tập dữ liệu của bạn có nhiều đặc điểm dự đoán nhưng không có nhãn nào tên là mức độ căng thẳng. Không nản lòng, bạn chọn "tai nạn tại nơi làm việc" làm nhãn thay thế cho mức độ căng thẳng. Suy cho cùng, nhân viên chịu nhiều áp lực sẽ gặp nhiều tai nạn hơn so với nhân viên bình tĩnh. Hay là không? Có thể tai nạn tại nơi làm việc thực sự tăng và giảm vì nhiều lý do.

Ví dụ thứ hai: giả sử bạn muốn is it raining? (trời có mưa không?) là nhãn Boolean cho tập dữ liệu của mình, nhưng tập dữ liệu của bạn không chứa dữ liệu về mưa. Nếu có ảnh chụp, bạn có thể thiết lập hình ảnh về người mang ô làm nhãn proxy cho trời có mưa không? Đó có phải là nhãn đại diện phù hợp không? Có thể, nhưng người dân ở một số nền văn hoá có thể mang ô để chống nắng hơn là chống mưa.

Nhãn thay thế thường không hoàn hảo. Khi có thể, hãy chọn nhãn thực tế thay vì nhãn proxy. Tuy nhiên, khi không có nhãn thực tế, hãy chọn nhãn thay thế một cách cẩn thận, chọn nhãn thay thế ít tệ nhất.

Hãy xem phần Tập dữ liệu: Nhãn trong Khoá học học máy ứng dụng để biết thêm thông tin.

Điểm

RAG

#fundamentals

Từ viết tắt của mô hình tạo sinh tăng cường khả năng truy xuất.

người đánh giá

#fundamentals

Một người cung cấp nhãn cho ví dụ. "Người chú thích" là một tên gọi khác của người đánh giá.

Hãy xem phần Dữ liệu phân loại: Các vấn đề thường gặp trong Khoá học cấp tốc về học máy để biết thêm thông tin.

mức độ ghi nhớ

#fundamentals

#Chỉ số

Một chỉ số cho các mô hình phân loại giúp trả lời câu hỏi sau:

Khi dữ liệu thực tế là lớp dương tính, mô hình đã xác định chính xác bao nhiêu phần trăm dự đoán là lớp dương tính?

Sau đây là công thức:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

trong đó:

dương tính thật có nghĩa là mô hình đã dự đoán chính xác lớp dương tính.
âm tính giả nghĩa là mô hình nhầm lẫn dự đoán lớp âm tính.

Ví dụ: giả sử mô hình của bạn đưa ra 200 dự đoán về các ví dụ mà chân lý cơ bản là lớp dương tính. Trong số 200 dự đoán này:

180 trường hợp là dương tính thật.
20 trường hợp là âm tính giả.

Trong trường hợp này:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Nhấp vào biểu tượng để xem ghi chú về tập dữ liệu bất cân đối về loại.

Độ đo này đặc biệt hữu ích để xác định khả năng dự đoán của các mô hình phân loại trong đó lớp dương hiếm khi xuất hiện. Ví dụ: hãy xem xét tập dữ liệu mất cân bằng lớp trong đó lớp dương tính của một bệnh cụ thể chỉ xảy ra ở 10 bệnh nhân trong số một triệu. Giả sử mô hình của bạn đưa ra 5 triệu dự đoán và mang lại những kết quả sau:

30 kết quả dương tính thật
20 kết quả âm tính giả
4.999.000 kết quả âm tính thật
950 Dương tính giả

Do đó, độ đo recall của mô hình này là:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

Ngược lại, độ chính xác của mô hình này là:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Giá trị độ chính xác cao đó trông có vẻ ấn tượng nhưng về cơ bản là vô nghĩa. Độ thu hồi là một chỉ số hữu ích hơn nhiều so với độ chính xác đối với các tập dữ liệu bất cân đối về loại.

Hãy xem bài viết Phân loại: Độ chính xác, khả năng thu hồi, độ đo lường và các chỉ số liên quan để biết thêm thông tin.

Rectified Linear Unit (ReLU)

#fundamentals

Một hàm kích hoạt có hành vi sau:

Nếu đầu vào là số âm hoặc số 0, thì đầu ra sẽ là 0.
Nếu giá trị đầu vào là số dương, thì giá trị đầu ra sẽ bằng giá trị đầu vào.

Ví dụ:

Nếu đầu vào là -3, thì đầu ra sẽ là 0.
Nếu đầu vào là +3, thì đầu ra là 3.0.

Sau đây là biểu đồ của ReLU:

ReLU là một hàm kích hoạt rất phổ biến. Mặc dù có hành vi đơn giản, nhưng ReLU vẫn cho phép mạng nơ-ron học các mối quan hệ phi tuyến tính giữa các đặc điểm và nhãn.

mô hình hồi quy

#fundamentals

Một mô hình tạo ra thông tin dự đoán bằng số. (Ngược lại, mô hình phân loại sẽ tạo ra một dự đoán về lớp.) Ví dụ: sau đây là tất cả các mô hình hồi quy:

Một mô hình dự đoán giá trị của một ngôi nhà nhất định bằng Euro, chẳng hạn như 423.000.
Một mô hình dự đoán tuổi thọ của một cây cụ thể theo năm, chẳng hạn như 23,2.
Một mô hình dự đoán lượng mưa (tính bằng inch) sẽ rơi ở một thành phố nhất định trong 6 giờ tới, chẳng hạn như 0,18.

Hai loại mô hình hồi quy phổ biến là:

Hồi quy tuyến tính, tìm ra đường thẳng phù hợp nhất với các giá trị nhãn cho các đối tượng.
Hồi quy logistic, tạo ra một xác suất từ 0,0 đến 1,0 mà hệ thống thường ánh xạ đến một dự đoán về lớp.

Không phải mô hình nào đưa ra dự đoán bằng số cũng là mô hình hồi quy. Trong một số trường hợp, dự đoán bằng số thực sự chỉ là một mô hình phân loại có tên lớp bằng số. Ví dụ: một mô hình dự đoán mã bưu chính bằng số là mô hình phân loại chứ không phải mô hình hồi quy.

điều hoà

#fundamentals

Mọi cơ chế giúp giảm hiện tượng khớp quá mức. Các loại điều chuẩn phổ biến bao gồm:

L₁ điều chuẩn
Điều chuẩn _L2
dropout regularization
dừng sớm (đây không phải là một phương pháp chính quy hoá chính thức, nhưng có thể hạn chế hiệu quả tình trạng khớp quá mức)

Điều chuẩn hoá cũng có thể được xác định là mức phạt đối với độ phức tạp của mô hình.

Nhấp vào biểu tượng để xem thêm ghi chú.

Việc điều chỉnh là phản trực giác. Việc tăng mức điều chỉnh thường làm tăng tổn thất khi huấn luyện. Điều này gây nhầm lẫn vì mục tiêu là giảm thiểu tổn thất khi huấn luyện, phải không?

Thực ra không phải. Mục tiêu không phải là giảm thiểu tổn thất trong quá trình huấn luyện. Mục tiêu là đưa ra dự đoán chính xác về các ví dụ trong thế giới thực. Điều đáng chú ý là mặc dù việc tăng mức điều chỉnh sẽ làm tăng tổn thất trong quá trình huấn luyện, nhưng thường thì điều này sẽ giúp các mô hình dự đoán chính xác hơn về các ví dụ trong thế giới thực.

Hãy xem phần Quá trình khớp quá mức: Độ phức tạp của mô hình trong Khoá học cấp tốc về học máy để biết thêm thông tin.

tỷ lệ điều hoà

#fundamentals

Một số chỉ định tầm quan trọng tương đối của điều chỉnh trong quá trình huấn luyện. Việc tăng tốc độ điều chỉnh sẽ làm giảm tình trạng quá khớp nhưng có thể làm giảm khả năng dự đoán của mô hình. Ngược lại, việc giảm hoặc bỏ qua tốc độ điều chỉnh sẽ làm tăng tình trạng khớp quá mức.

Nhấp vào biểu tượng để xem phép tính.

Tốc độ điều chỉnh thường được biểu thị bằng chữ cái Hy Lạp lambda. Phương trình mất mát đơn giản sau đây cho thấy ảnh hưởng của lambda:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

trong đó điều chỉnh là bất kỳ cơ chế điều chỉnh nào, bao gồm:

L₁ điều chuẩn
Điều chuẩn _L2

Hãy xem phần Trang bị quá khớp: Điều chỉnh L2 trong Khoá học học máy ứng dụng để biết thêm thông tin.

ReLU

#fundamentals

Viết tắt của Rectified Linear Unit (Đơn vị tuyến tính được chỉnh sửa).

tạo sinh tăng cường truy xuất (RAG)

#fundamentals

Một kỹ thuật giúp cải thiện chất lượng đầu ra của mô hình ngôn ngữ lớn (LLM) bằng cách liên kết đầu ra đó với các nguồn kiến thức được truy xuất sau khi mô hình được huấn luyện. RAG cải thiện độ chính xác của các câu trả lời của LLM bằng cách cấp cho LLM đã được huấn luyện quyền truy cập vào thông tin được truy xuất từ các cơ sở kiến thức hoặc tài liệu đáng tin cậy.

Sau đây là một số động lực phổ biến để sử dụng phương pháp tạo tăng cường khả năng truy xuất:

Tăng độ chính xác về mặt thực tế của các câu trả lời do mô hình tạo.
Cung cấp cho mô hình quyền truy cập vào kiến thức mà mô hình chưa được huấn luyện.
Thay đổi kiến thức mà mô hình sử dụng.
Cho phép mô hình trích dẫn nguồn.

Ví dụ: giả sử một ứng dụng hoá học sử dụng PaLM API để tạo bản tóm tắt liên quan đến các truy vấn của người dùng. Khi nhận được một truy vấn, phần phụ trợ của ứng dụng sẽ:

Tìm kiếm ("truy xuất") dữ liệu liên quan đến cụm từ tìm kiếm của người dùng.
Thêm ("tăng cường") dữ liệu hoá học có liên quan vào cụm từ tìm kiếm của người dùng.
Hướng dẫn LLM tạo bản tóm tắt dựa trên dữ liệu được thêm vào.

Đường cong ROC (đường cong đặc tính hoạt động của máy thu)

#fundamentals

#Chỉ số

Biểu đồ về tỷ lệ dương tính thực so với tỷ lệ dương tính giả cho các ngưỡng phân loại khác nhau trong phân loại nhị phân.

Hình dạng của đường cong ROC cho thấy khả năng của mô hình phân loại nhị phân trong việc tách các lớp dương tính khỏi các lớp âm tính. Ví dụ: giả sử một mô hình phân loại nhị phân tách biệt hoàn toàn tất cả các lớp âm tính với tất cả các lớp dương tính:

Một trục số có 8 ví dụ dương ở bên phải và 7 ví dụ âm ở bên trái.

Đường cong ROC cho mô hình trước đó có dạng như sau:

Đường cong ROC. Trục x là Tỷ lệ dương tính giả và trục y là Tỷ lệ dương tính thật. Đường cong có hình chữ L đảo ngược. Đường cong bắt đầu tại (0.0,0.0) và đi thẳng lên (0.0,1.0). Sau đó, đường cong sẽ chuyển từ (0.0, 1.0) sang (1.0, 1.0).

Ngược lại, hình minh hoạ sau đây vẽ đồ thị các giá trị hồi quy logistic thô cho một mô hình kém không thể tách các lớp âm tính khỏi các lớp dương tính:

Một đường số có các ví dụ dương và các lớp âm hoàn toàn lẫn lộn.

Đường cong ROC cho mô hình này có dạng như sau:

Đường cong ROC, thực chất là một đường thẳng từ (0.0,0.0) đến (1.0,1.0).

Trong khi đó, trong thế giới thực, hầu hết các mô hình phân loại nhị phân đều tách biệt các lớp dương và âm ở một mức độ nào đó, nhưng thường không hoàn hảo. Vì vậy, đường cong ROC điển hình sẽ nằm ở đâu đó giữa hai cực đoan này:

Đường cong ROC. Trục x là Tỷ lệ dương tính giả và trục y là Tỷ lệ dương tính thật. Đường cong ROC xấp xỉ một vòng cung không ổn định, đi qua các điểm la bàn từ Tây sang Bắc.

Điểm trên đường cong ROC gần với (0.0,1.0) nhất về mặt lý thuyết sẽ xác định ngưỡng phân loại lý tưởng. Tuy nhiên, một số vấn đề khác ngoài đời thực ảnh hưởng đến việc lựa chọn ngưỡng phân loại lý tưởng. Ví dụ: có lẽ kết quả âm tính giả gây ra nhiều phiền toái hơn kết quả dương tính giả.

Một chỉ số bằng số có tên là AUC tóm tắt đường cong ROC thành một giá trị dấu phẩy động duy nhất.

Sai số trung bình bình phương (RMSE)

#fundamentals

#Chỉ số

Căn bậc hai của Sai số bình phương trung bình.

S

hàm sigmoid

#fundamentals

Một hàm toán học "nén" giá trị đầu vào vào một phạm vi bị hạn chế, thường là từ 0 đến 1 hoặc từ -1 đến +1. Tức là bạn có thể truyền bất kỳ số nào (2, 1 triệu, âm 1 tỷ, bất kỳ số nào) vào một hàm sigmoid và đầu ra vẫn sẽ nằm trong phạm vi bị hạn chế. Biểu đồ của hàm kích hoạt sigmoid có dạng như sau:

Hàm sigmoid có một số ứng dụng trong học máy, bao gồm:

Chuyển đổi đầu ra thô của mô hình hồi quy logistic hoặc hồi quy đa thức thành xác suất.
Đóng vai trò là một hàm kích hoạt trong một số mạng nơ-ron.

Nhấp vào biểu tượng để xem phép tính.

Hàm sigmoid trên số đầu vào x có công thức sau:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

Trong học máy, x thường là một tổng có trọng số.

softmax

#fundamentals

Một hàm xác định xác suất cho từng lớp có thể có trong mô hình phân loại nhiều lớp. Tổng các xác suất bằng đúng 1.0. Ví dụ: bảng sau đây cho thấy cách hàm softmax phân phối các xác suất khác nhau:

Hình ảnh là một...	Xác suất
chó	0,85
mèo	0,13
con ngựa	.02

Softmax còn được gọi là softmax đầy đủ.

Tương phản với lấy mẫu ứng viên.

Nhấp vào biểu tượng để xem phép tính.

Phương trình softmax như sau:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

trong đó:

$\sigma_i$ là vectơ đầu ra. Mỗi phần tử của vectơ đầu ra chỉ định xác suất của phần tử này. Tổng của tất cả các phần tử trong vectơ đầu ra là 1.0. Vectơ đầu ra chứa cùng số lượng phần tử như vectơ đầu vào, $z$.
$z$ là vectơ đầu vào. Mỗi phần tử của vectơ đầu vào chứa một giá trị dấu phẩy động.
$K$ là số phần tử trong vectơ đầu vào (và vectơ đầu ra).

Ví dụ: giả sử vectơ đầu vào là:

[1.2, 2.5, 1.8]

Do đó, softmax tính toán mẫu số như sau:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

Do đó, xác suất softmax của mỗi phần tử là:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

Do đó, vectơ đầu ra là:

$$\sigma = [0.154, 0.565, 0.281]$$

Tổng của 3 phần tử trong $\sigma$ là 1.0. Chà!

Hãy xem phần Mạng nơ-ron: Phân loại nhiều lớp trong Khoá học cấp tốc về học máy để biết thêm thông tin.

tính chất thưa

#fundamentals

Một đặc điểm mà giá trị chủ yếu là 0 hoặc trống. Ví dụ: một đối tượng chứa một giá trị 1 duy nhất và một triệu giá trị 0 là thưa thớt. Ngược lại, đặc điểm dày đặc có các giá trị chủ yếu không phải là 0 hoặc trống.

Trong học máy, một số lượng đáng ngạc nhiên các đặc điểm là đặc điểm thưa thớt. Các đặc điểm phân loại thường là đặc điểm thưa. Ví dụ: trong số 300 loài cây có thể có trong một khu rừng, một ví dụ duy nhất có thể chỉ xác định một cây phong. Hoặc trong hàng triệu video có thể có trong một thư viện video, một ví dụ duy nhất có thể chỉ xác định "Casablanca".

Trong một mô hình, bạn thường biểu thị các đặc điểm thưa thớt bằng mã hoá one-hot. Nếu mã hoá one-hot có kích thước lớn, bạn có thể đặt một lớp nhúng lên trên mã hoá one-hot để tăng hiệu quả.

biểu diễn thưa

#fundamentals

Chỉ lưu trữ (các) vị trí của các phần tử khác 0 trong một đối tượng thưa.

Ví dụ: giả sử một đặc điểm phân loại có tên là species xác định 36 loài cây trong một khu rừng cụ thể. Giả sử thêm rằng mỗi ví dụ chỉ xác định một loài duy nhất.

Bạn có thể sử dụng một vectơ mã hoá một lần để biểu thị loài cây trong mỗi ví dụ. Một vectơ mã hoá một lần sẽ chứa một 1 (để biểu thị loài cây cụ thể trong ví dụ đó) và 35 0 (để biểu thị 35 loài cây không có trong ví dụ đó). Vì vậy, biểu diễn một lần nóng của maple có thể có dạng như sau:

Một vectơ trong đó các vị trí từ 0 đến 23 giữ giá trị 0, vị trí 24 giữ giá trị 1 và các vị trí từ 25 đến 35 giữ giá trị 0.

Ngoài ra, phương pháp biểu diễn thưa thớt chỉ đơn giản là xác định vị trí của loài cụ thể. Nếu maple ở vị trí 24, thì biểu diễn thưa thớt của maple sẽ chỉ là:

Xin lưu ý rằng biểu diễn thưa thớt nhỏ gọn hơn nhiều so với biểu diễn một lần nóng.

Nhấp vào biểu tượng để xem một ví dụ phức tạp hơn một chút.

Giả sử mỗi ví dụ trong mô hình của bạn phải biểu thị các từ (nhưng không phải thứ tự của các từ đó) trong một câu tiếng Anh. Tiếng Anh có khoảng 170.000 từ, vì vậy tiếng Anh là một đặc điểm phân loại với khoảng 170.000 phần tử. Hầu hết các câu tiếng Anh đều sử dụng một phần cực nhỏ trong số 170.000 từ đó,vì vậy, tập hợp các từ trong một ví dụ duy nhất gần như chắc chắn sẽ là dữ liệu thưa thớt.

Hãy xem xét câu sau:

My dog is a great dog

Bạn có thể sử dụng một biến thể của vectơ mã hoá một lần để biểu thị các từ trong câu này. Trong biến thể này, nhiều ô trong vectơ có thể chứa một giá trị khác 0. Hơn nữa, trong biến thể này, một ô có thể chứa một số nguyên khác với số 1. Mặc dù các từ "my", "is", "a" và "great" chỉ xuất hiện một lần trong câu, nhưng từ "dog" xuất hiện hai lần. Việc sử dụng biến thể này của vectơ một lần nóng để biểu thị các từ trong câu này sẽ tạo ra vectơ gồm 170.000 phần tử sau:

Một biểu diễn thưa của cùng một câu sẽ chỉ là:

Nhấp vào biểu tượng này nếu bạn cảm thấy khó hiểu.

Thuật ngữ "sparse representation" (biểu diễn thưa thớt) khiến nhiều người nhầm lẫn vì bản thân biểu diễn thưa thớt không phải là một vectơ thưa thớt. Thay vào đó, biểu diễn thưa thực sự là biểu diễn dày đặc của một vectơ thưa. Biểu diễn chỉ mục đồng nghĩa rõ ràng hơn một chút so với "biểu diễn thưa thớt".

Hãy xem phần Làm việc với dữ liệu phân loại trong Khoá học cấp tốc về học máy để biết thêm thông tin.

vectơ thưa

#fundamentals

Một vectơ có hầu hết các giá trị là 0. Xem thêm đặc điểm thưa thớt và độ thưa thớt.

tổn thất bình phương

#fundamentals

#Chỉ số

Từ đồng nghĩa với tổn thất _L2.

tĩnh

#fundamentals

Việc được thực hiện một lần thay vì liên tục. Các thuật ngữ tĩnh và ngoại tuyến là từ đồng nghĩa. Sau đây là những trường hợp sử dụng phổ biến của tĩnh và ngoại tuyến trong học máy:

mô hình tĩnh (hoặc mô hình ngoại tuyến) là mô hình được huấn luyện một lần rồi được dùng trong một thời gian.
huấn luyện tĩnh (hoặc huấn luyện ngoại tuyến) là quy trình huấn luyện một mô hình tĩnh.
suy luận tĩnh (hoặc suy luận ngoại tuyến) là một quy trình trong đó mô hình tạo ra một loạt dự đoán tại một thời điểm.

Tương phản với động.

suy luận tĩnh

#fundamentals

Từ đồng nghĩa với suy luận ngoại tuyến.

tính dừng

#fundamentals

Một đặc điểm có giá trị không thay đổi trên một hoặc nhiều phương diện, thường là thời gian. Ví dụ: một đối tượng có các giá trị gần như giống nhau vào năm 2021 và 2023 thể hiện tính dừng.

Trong thế giới thực, rất ít đối tượng có tính chất không đổi. Ngay cả những đặc điểm đồng nghĩa với sự ổn định (như mực nước biển) cũng thay đổi theo thời gian.

Tương phản với tính không dừng.

phương pháp giảm độ dốc ngẫu nhiên (SGD)

#fundamentals

Một thuật toán hạ độ dốc trong đó kích thước lô là một. Nói cách khác, SGD huấn luyện trên một ví dụ duy nhất được chọn ngẫu nhiên một cách đồng nhất từ một tập huấn luyện.

Hãy xem bài viết Hồi quy tuyến tính: Siêu tham số trong Khoá học cấp tốc về học máy để biết thêm thông tin.

học máy có giám sát

#fundamentals

Huấn luyện một mô hình từ các đối tượng và nhãn tương ứng của chúng. Học máy có giám sát tương tự như việc học một môn học bằng cách nghiên cứu một bộ câu hỏi và câu trả lời tương ứng. Sau khi nắm vững mối liên hệ giữa câu hỏi và câu trả lời, học viên có thể trả lời các câu hỏi mới (chưa từng gặp) về cùng một chủ đề.

So sánh với học máy không giám sát.

Hãy xem phần Học có giám sát trong khoá học Giới thiệu về học máy để biết thêm thông tin.

đối tượng nhân tạo

#fundamentals

Một đối tượng không có trong số các đối tượng đầu vào, nhưng được tập hợp từ một hoặc nhiều đối tượng đầu vào. Các phương pháp tạo đối tượng tổng hợp bao gồm:

Phân nhóm một đối tượng liên tục thành các nhóm phạm vi.
Tạo một tính năng kết hợp.
Nhân (hoặc chia) một giá trị của tính năng với(các) giá trị khác của tính năng hoặc với chính giá trị đó. Ví dụ: nếu a và b là các đặc điểm đầu vào, thì sau đây là ví dụ về các đặc điểm tổng hợp:
- ab
- a²
Áp dụng một hàm siêu việt cho giá trị của một đối tượng. Ví dụ: nếu c là một đối tượng đầu vào, thì sau đây là các ví dụ về đối tượng tổng hợp:
- sin(c)
- ln(c)

Các đối tượng được tạo bằng cách chỉ chuẩn hoá hoặc điều chỉnh tỷ lệ không được coi là đối tượng nhân tạo.

T

mất mát trong kiểm thử

#fundamentals

#Chỉ số

Một chỉ số biểu thị mức tổn thất của một mô hình so với tập dữ liệu kiểm thử. Khi tạo một mô hình, bạn thường cố gắng giảm thiểu tổn thất trong quá trình kiểm thử. Đó là vì tổn thất thấp trong quá trình kiểm thử là một tín hiệu chất lượng mạnh hơn so với tổn thất thấp trong quá trình huấn luyện hoặc tổn thất thấp trong quá trình xác thực.

Đôi khi, khoảng cách lớn giữa tổn thất trong quá trình kiểm thử và tổn thất trong quá trình huấn luyện hoặc tổn thất trong quá trình xác thực cho thấy bạn cần tăng tỷ lệ điều chỉnh.

đào tạo

#fundamentals

Quá trình xác định các tham số (trọng số và độ lệch) lý tưởng bao gồm một mô hình. Trong quá trình huấn luyện, hệ thống sẽ đọc các ví dụ và điều chỉnh dần các tham số. Quá trình huấn luyện sử dụng mỗi ví dụ từ vài lần đến hàng tỷ lần.

Hãy xem phần Học có giám sát trong khoá học Giới thiệu về học máy để biết thêm thông tin.

tổn thất trong quá trình huấn luyện

#fundamentals

#Chỉ số

Một chỉ số biểu thị mức tổn thất của mô hình trong một lần lặp lại huấn luyện cụ thể. Ví dụ: giả sử hàm tổn thất là Sai số bình phương trung bình. Có thể tổn thất huấn luyện (Lỗi bình phương trung bình) cho lần lặp thứ 10 là 2,2 và tổn thất huấn luyện cho lần lặp thứ 100 là 1,9.

Đường cong tổn thất vẽ tổn thất trong quá trình huấn luyện so với số lần lặp lại. Đường cong tổn thất cung cấp các gợi ý sau về quá trình huấn luyện:

Độ dốc giảm cho thấy mô hình đang cải thiện.
Đường dốc lên cho thấy mô hình đang trở nên kém hiệu quả hơn.
Độ dốc bằng phẳng cho thấy mô hình đã đạt đến sự hội tụ.

Ví dụ: đường cong tổn thất (khá lý tưởng) sau đây cho thấy:

Đường dốc xuống dốc trong các lần lặp lại ban đầu, cho thấy mô hình được cải thiện nhanh chóng.
Độ dốc giảm dần (nhưng vẫn đi xuống) cho đến gần cuối quá trình huấn luyện, điều này ngụ ý rằng mô hình tiếp tục cải thiện với tốc độ chậm hơn so với các lần lặp lại ban đầu.
Đường dốc bằng phẳng về cuối quá trình huấn luyện, cho thấy sự hội tụ.

Biểu đồ tổn thất huấn luyện so với số lần lặp lại. Đường cong tổn thất này bắt đầu bằng một độ dốc xuống dốc. Độ dốc sẽ giảm dần cho đến khi độ dốc bằng 0.

Mặc dù tổn thất khi huấn luyện là rất quan trọng, nhưng bạn cũng nên xem khả năng khái quát hoá.

độ lệch giữa huấn luyện và phân phát

#fundamentals

Sự khác biệt giữa hiệu suất của một mô hình trong quá trình huấn luyện và hiệu suất của chính mô hình đó trong quá trình phân phát.

tập dữ liệu huấn luyện

#fundamentals

Tập hợp con của tập dữ liệu được dùng để huấn luyện một mô hình.

Theo truyền thống, các ví dụ trong tập dữ liệu được chia thành 3 tập hợp con riêng biệt sau đây:

tập dữ liệu huấn luyện
một tập xác thực
một tập kiểm thử

Tốt nhất là mỗi ví dụ trong tập dữ liệu chỉ nên thuộc một trong các tập hợp con trước đó. Ví dụ: một ví dụ duy nhất không được thuộc cả tập huấn luyện và tập xác thực.

Hãy xem phần Tập dữ liệu: Chia tập dữ liệu gốc trong Khoá học học máy ứng dụng để biết thêm thông tin.

âm tính thật (TN)

#fundamentals

#Chỉ số

Ví dụ trong đó mô hình dự đoán chính xác lớp âm. Ví dụ: mô hình suy luận rằng một thư email cụ thể không phải là thư rác và thư email đó thực sự không phải là thư rác.

dương tính thật (TP)

#fundamentals

#Chỉ số

Ví dụ trong đó mô hình dự đoán chính xác lớp dương tính. Ví dụ: mô hình suy luận rằng một thư email cụ thể là thư rác và thư email đó thực sự là thư rác.

tỷ lệ dương tính thật (TPR)

#fundamentals

#Chỉ số

Từ đồng nghĩa với mức độ ghi nhớ. Đó là:

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Tỷ lệ dương tính thật là trục y trong đường cong ROC.

U

khớp dữ liệu kém

#fundamentals

Tạo ra một mô hình có khả năng dự đoán kém vì mô hình chưa nắm bắt hết độ phức tạp của dữ liệu huấn luyện. Nhiều vấn đề có thể gây ra tình trạng thiếu khớp, bao gồm:

Huấn luyện trên tập hợp tính năng không chính xác.
Huấn luyện cho quá ít epoch hoặc ở tốc độ học tập quá thấp.
Huấn luyện với tốc độ điều chỉnh quá cao.
Cung cấp quá ít lớp ẩn trong mạng nơ-ron sâu.

Hãy xem phần Quá khớp trong Khoá học học máy ứng dụng để biết thêm thông tin.

ví dụ không có nhãn

#fundamentals

Ví dụ có các tính năng nhưng không có nhãn. Ví dụ: bảng sau đây cho thấy 3 ví dụ không được gắn nhãn từ một mô hình định giá nhà, mỗi ví dụ có 3 đặc điểm nhưng không có giá trị nhà:

Số lượng phòng ngủ	Số lượng phòng tắm	Tuổi của nhà
3	2	15
2	1	72
4	2	34

Trong quá trình học bán giám sát và không giám sát, các ví dụ không được gắn nhãn sẽ được dùng trong quá trình huấn luyện.

So sánh ví dụ không có nhãn với ví dụ có nhãn.

học máy không giám sát

#clustering

#fundamentals

Huấn luyện một mô hình để tìm các mẫu trong một tập dữ liệu, thường là một tập dữ liệu chưa được gắn nhãn.

Ứng dụng phổ biến nhất của công nghệ học máy không giám sát là phân cụm dữ liệu thành các nhóm ví dụ tương tự. Ví dụ: một thuật toán học máy không được giám sát có thể phân cụm các bài hát dựa trên nhiều thuộc tính của nhạc. Các cụm kết quả có thể trở thành dữ liệu đầu vào cho các thuật toán học máy khác (ví dụ: cho một dịch vụ đề xuất nhạc). Việc phân cụm có thể giúp ích khi bạn có ít hoặc không có nhãn hữu ích. Ví dụ: trong các lĩnh vực như chống hành vi sai trái và gian lận, các cụm có thể giúp con người hiểu rõ hơn về dữ liệu.

Tương phản với học máy có giám sát.

Nhấp vào biểu tượng để xem thêm ghi chú.

Một ví dụ khác về học máy không giám sát là phân tích thành phần chính (PCA). Ví dụ: việc áp dụng PCA trên một tập dữ liệu chứa nội dung của hàng triệu giỏ hàng có thể cho thấy rằng những giỏ hàng chứa chanh thường cũng chứa thuốc kháng axit.

Hãy xem bài viết Công nghệ học máy là gì? trong khoá học Giới thiệu về ML để biết thêm thông tin.

V

xác thực

#fundamentals

Đánh giá ban đầu về chất lượng của một mô hình. Xác thực kiểm tra chất lượng của các dự đoán của mô hình dựa trên tập hợp xác thực.

Vì tập hợp xác thực khác với tập hợp huấn luyện, nên việc xác thực giúp ngăn chặn tình trạng quá khớp.

Bạn có thể coi việc đánh giá mô hình dựa trên tập hợp xác thực là vòng kiểm thử đầu tiên và đánh giá mô hình dựa trên tập hợp kiểm thử là vòng kiểm thử thứ hai.

mất mát xác thực

#fundamentals

#Chỉ số

Một chỉ số biểu thị mất mát của mô hình trên tập hợp xác thực trong một lần lặp lại cụ thể của quá trình huấn luyện.

Xem thêm đường cong khái quát hoá.

tập xác nhận

#fundamentals

Tập hợp con của tập dữ liệu thực hiện đánh giá ban đầu dựa trên một mô hình đã được huấn luyện. Thông thường, bạn sẽ đánh giá mô hình đã huấn luyện dựa trên tập hợp xác thực nhiều lần trước khi đánh giá mô hình dựa trên tập hợp kiểm thử.

Theo truyền thống, bạn chia các ví dụ trong tập dữ liệu thành 3 tập hợp con riêng biệt sau đây:

một tập dữ liệu huấn luyện
tập xác thực
một tập kiểm thử

Hãy xem phần Tập dữ liệu: Chia tập dữ liệu gốc trong Khoá học học máy ứng dụng để biết thêm thông tin.

W

cân nặng

#fundamentals

Giá trị mà một mô hình nhân với một giá trị khác. Huấn luyện là quá trình xác định trọng số lý tưởng của một mô hình; suy luận là quá trình sử dụng những trọng số đã học đó để đưa ra dự đoán.

Nhấp vào biểu tượng này để xem ví dụ về trọng số trong mô hình tuyến tính.

Hãy tưởng tượng một mô hình tuyến tính có 2 đặc điểm. Giả sử quá trình huấn luyện xác định các trọng số sau (và độ lệch):

Độ lệch b có giá trị là 2,2
Trọng số w₁ được liên kết với một tính năng là 1, 5.
Trọng số w₂ liên kết với đối tượng khác là 0, 4.

Bây giờ, hãy tưởng tượng một ví dụ có các giá trị sau đây của đối tượng:

Giá trị của một đặc điểm, x₁, là 6.
Giá trị của đối tượng khác, x₂, là 10.

Mô hình tuyến tính này sử dụng công thức sau để tạo dự đoán, y':

$$y' = b + w_1x_1 + w_2x_2$$

Do đó, dự đoán là:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

Nếu trọng số là 0, thì tính năng tương ứng sẽ không đóng góp vào mô hình. Ví dụ: nếu w₁ bằng 0, thì giá trị của x₁ không liên quan.

Hãy xem phần Hồi quy tuyến tính trong Khoá học học máy ứng dụng để biết thêm thông tin.

tổng có trọng số

#fundamentals

Tổng của tất cả các giá trị đầu vào có liên quan nhân với trọng số tương ứng của chúng. Ví dụ: giả sử các dữ liệu đầu vào có liên quan bao gồm những dữ liệu sau:

giá trị đầu vào	trọng số đầu vào
2	-1,3
-1	0,6
3	0,4

Do đó, tổng có trọng số là:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Tổng có trọng số là đối số đầu vào cho một hàm kích hoạt.

Z

Chuẩn hoá điểm Z

#fundamentals

Kỹ thuật chia tỷ lệ thay thế giá trị đặc điểm thô bằng giá trị dấu phẩy động biểu thị số độ lệch chuẩn so với giá trị trung bình của đặc điểm đó. Ví dụ: hãy xem xét một đặc điểm có giá trị trung bình là 800 và độ lệch chuẩn là 100. Bảng sau đây cho thấy cách chuẩn hoá điểm Z sẽ liên kết giá trị thô với điểm Z:

Giá trị thô	Điểm Z
800	0
950	+1,5
575	-2,25

Sau đó, mô hình học máy sẽ huấn luyện dựa trên điểm Z cho tính năng đó thay vì dựa trên các giá trị thô.

Hãy xem phần Dữ liệu dạng số: Chuẩn hoá trong Khoá học cấp tốc về học máy để biết thêm thông tin.

Bảng thuật ngữ về công nghệ máy học: Kiến thức cơ bản về công nghệ học máy Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

A

độ chính xác

Nhấp vào biểu tượng để biết thông tin chi tiết về độ chính xác và tập dữ liệu không cân bằng theo lớp.

hàm kích hoạt

Nhấp vào biểu tượng để xem ví dụ.

trí tuệ nhân tạo

AUC (Diện tích dưới đường cong ROC)

Nhấp vào biểu tượng này để tìm hiểu về mối quan hệ giữa đường cong AUC và ROC.

Nhấp vào biểu tượng để xem định nghĩa chính thức hơn về AUC.

B

lan truyền ngược

lô

kích thước lô

thiên kiến (đạo đức/tính công bằng)

độ lệch (toán học) hoặc hệ số thiên lệch

phân loại nhị phân

phân giỏ

Nhấp vào biểu tượng để xem thêm ghi chú.

C

dữ liệu phân loại

lớp

mô hình phân loại

ngưỡng phân loại

Nhấp vào biểu tượng để xem thêm ghi chú.

thuật toán phân loại

tập dữ liệu bất cân đối về loại

cắt

ma trận nhầm lẫn

đối tượng liên tục

hội tụ

D

DataFrame

tập dữ liệu hoặc tập dữ liệu

mô hình sâu

tính chất dày đặc

chiều sâu

tính chất rời rạc

linh động

mô hình động

E

dừng sớm

Nhấp vào biểu tượng để xem thêm ghi chú.

lớp nhúng

thời gian bắt đầu của hệ thống

ví dụ

F

âm tính giả (FN)

dương tính giả (FP)

tỷ lệ dương tính giả (FPR)

tính năng

nhân chéo tính năng

kỹ thuật trích xuất tính chất

Nhấp vào biểu tượng để xem thêm ghi chú về TensorFlow.

tập hợp tính năng

vectơ đặc trưng

vòng hồi tiếp

G

khái quát hoá

Nhấp vào biểu tượng để xem thêm ghi chú.

đường cong tổng quát hoá

phương pháp giảm độ dốc

dữ liệu thực tế

Nhấp vào biểu tượng để xem thêm ghi chú.

Cao

lớp ẩn

siêu tham số

I

phân phối độc lập và đồng nhất (i.i.d)

suy luận

lớp đầu vào

khả năng diễn giải

lặp lại

L

Điều hoà L0

Nhấp vào biểu tượng để xem thêm ghi chú.

Tổn thất L1

Nhấp vào biểu tượng để xem công thức toán học chính thức.

Điều hoà L1

Tổn thất L2

Bảng thuật ngữ về công nghệ máy học: Kiến thức cơ bản về công nghệ học máy

Điều hoà L₀

Tổn thất L₁

Điều hoà L₁

Tổn thất L₂

Điều hoà L₂