Trang này được dịch bởi Cloud Translation API.

Bảng thuật ngữ về công nghệ máy học: Kiến thức cơ bản về công nghệ học máy

Trang này chứa các thuật ngữ bảng thuật ngữ Nguyên tắc cơ bản về học máy. Đối với tất cả các thuật ngữ trong bảng thuật ngữ, nhấp vào đây.

A

độ chính xác

#fundamentals

Số cụm từ gợi ý phân loại chính xác đã chia với tổng số lần dự đoán. Đó là:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ví dụ: một mô hình đưa ra 40 dự đoán chính xác và 10 dự đoán sai các dự đoán sẽ có độ chính xác như sau:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Phân loại nhị phân cung cấp các tên cụ thể cho các loại cụm từ gợi ý chính xác và cụm từ gợi ý không chính xác. Vì vậy, công thức độ chính xác để phân loại nhị phân như sau:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

trong đó:

TP là số giá trị dương tính thực (dự đoán chính xác).
TN là số giá trị âm tính thực (thông tin dự đoán chính xác).
FP là số kết quả dương tính giả (dự đoán không chính xác).
FN là số kết quả âm tính giả (dự đoán không chính xác).

So sánh và đối chiếu độ chính xác với độ chính xác và ghi nhớ.

Nhấp vào biểu tượng để xem thêm ghi chú.

Mặc dù là chỉ số có giá trị cho một số trường hợp, nhưng độ chính xác cao gây hiểu lầm cho người khác. Đáng chú ý là độ chính xác thường là một chỉ số kém để đánh giá các mô hình phân loại giúp xử lý tập dữ liệu không cân bằng về lớp.

Ví dụ, giả sử tuyết chỉ rơi 25 ngày mỗi thế kỷ trong một thành phố cận nhiệt đới. Kể từ những ngày không có tuyết (lớp phủ định) số ngày có tuyết (cấp độ dương), tập dữ liệu về tuyết cho thành phố này đang mất cân bằng về tầng lớp. Hãy tưởng tượng một phân loại nhị phân mô hình dự báo có tuyết hoặc không có tuyết mỗi ngày nhưng chỉ dự đoán "không có tuyết" mỗi ngày. Mô hình này có độ chính xác cao nhưng không có khả năng dự đoán. Bảng sau đây tóm tắt các kết quả cho một thế kỷ dự đoán:

Danh mục	Số
TP	0
TN (Tunisia)	36500
FP	25
FN	0

Do đó, độ chính xác của mô hình này là:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

Mặc dù độ chính xác 99,93% có vẻ là một tỷ lệ phần trăm ấn tượng, mô hình này thực sự không có khả năng dự đoán.

Độ chính xác và Hàm recall thường là các chỉ số hữu ích hơn hơn là độ chính xác để đánh giá các mô hình được huấn luyện trên các tập dữ liệu không cân bằng về lớp.

hàm kích hoạt

#fundamentals

Một hàm cho phép mạng nơron học Mối quan hệ nonlinear (phức tạp) giữa các đối tượng và nhãn.

Các hàm kích hoạt phổ biến bao gồm:

ReLU
Sigmoid

Biểu đồ của các hàm kích hoạt không bao giờ là các đường thẳng đơn. Ví dụ: biểu đồ của hàm kích hoạt ReLU bao gồm hai đường thẳng:

Biểu đồ Cartesian gồm hai dòng. Dòng đầu tiên có hằng số
giá trị y bằng 0, chạy dọc theo trục x từ -vô cực,0 đến 0,-0.
Dòng thứ hai bắt đầu từ 0,0. Đường này có hệ số góc +1, vì vậy
nó chạy từ 0,0 đến +vô cùng,+vô cùng.

Biểu đồ của hàm kích hoạt sigmoid có dạng như sau:

Một biểu đồ cong hai chiều có các giá trị x bao phủ miền
từ vô cực đến + dương, còn giá trị y nằm trong khoảng từ gần 0 đến
gần 1. Khi x bằng 0, y là 0,5. Độ dốc của đường cong luôn luôn
là số dương, có độ dốc cao nhất (0,0,5) và giảm dần
hệ số góc khi giá trị tuyệt đối của x tăng.

Hãy nhấp vào biểu tượng để xem ví dụ.

Trong mạng nơron, các hàm kích hoạt điều khiển tổng có trọng số của tất cả giá trị nhập vào nơron. Để tính một tổng có trọng số, nơron cộng lại tích của các giá trị và trọng số có liên quan. Ví dụ: giả sử đầu vào liên quan cho một nơron bao gồm:

giá trị nhập	trọng số đầu vào
2	-1,3
-1	0,6
3	0,4

Do đó, tổng được trọng số là:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Giả sử người thiết kế mạng nơron này chọn hàm sigmoid là chức năng kích hoạt. Trong trường hợp đó, nơron sẽ tính toán sigmoid -2.0, xấp xỉ 0,12. Do đó, tế bào thần kinh truyền 0,12 (thay vì -2.0) đến lớp tiếp theo trong mạng nơron. Hình dưới đây minh hoạ phần liên quan của quy trình:

trí tuệ nhân tạo

#fundamentals

Một mô hình hoặc chương trình không do con người thực hiện có thể giải quyết những công việc phức tạp. Ví dụ: một chương trình hoặc mô hình dịch văn bản, một chương trình hoặc mô hình xác định bệnh từ hình ảnh phóng xạ đều cho thấy trí tuệ nhân tạo.

Về chính thức, máy học là một trường phụ của thông minh. Tuy nhiên, trong những năm gần đây, một số tổ chức đã bắt đầu sử dụng thuật ngữ trí tuệ nhân tạo và học máy thay thế cho nhau.

AUC (Diện tích dưới đường cong ROC)

#fundamentals

Một số từ 0,0 đến 1,0 đại diện cho của mô hình phân loại nhị phân có thể tách các lớp tích cực khỏi lớp phủ định. AUC càng gần 1.0 thì khả năng phân tách của mô hình càng tốt lớp với nhau.

Ví dụ: hình minh hoạ sau đây cho thấy một mô hình thuật toán phân loại phân tách các lớp dương (hình bầu dục màu xanh lục) khỏi các lớp âm (hình chữ nhật màu tím) một cách hoàn hảo. Mô hình hoàn hảo đến phi thực tế này AUC là 1,0:

Dòng số có 8 ví dụ tích cực ở một bên và
9 ví dụ tiêu cực.

Ngược lại, hình minh hoạ sau đây cho thấy kết quả của một thuật toán phân loại tạo ra kết quả ngẫu nhiên. Mô hình này có AUC là 0,5:

Một dòng số có 6 ví dụ khẳng định và 6 ví dụ phủ định.
Chuỗi ví dụ là dương, âm,
tích cực, tiêu cực, khẳng định, tiêu cực, khẳng định, tiêu cực, khẳng định
phủ định, tích cực, tiêu cực.

Có, mô hình trước có AUC là 0, 5, không phải 0, 0.

Hầu hết các mô hình đều nằm đâu đó giữa hai cực trị. Ví dụ: mô hình sau đây sẽ tách biệt tích cực với phủ định phần nào, và do đó có AUC trong khoảng từ 0,5 đến 1,0:

Một dòng số có 6 ví dụ khẳng định và 6 ví dụ phủ định.
Chuỗi ví dụ là phủ định, phủ định, phủ định, phủ định,
tích cực, tiêu cực, tích cực, khẳng định, tiêu cực, tích cực, tích cực,
tích cực.

AUC bỏ qua mọi giá trị mà bạn đặt ngưỡng phân loại. Thay vào đó, AUC sẽ xem xét tất cả các ngưỡng phân loại có thể đạt được.

Nhấp vào biểu tượng để tìm hiểu về mối quan hệ giữa đường cong AUC và ROC.

AUC đại diện cho khu vực dưới Đường cong ROC. Ví dụ: đường cong ROC của mô hình tách biệt hoàn toàn dương tính với phủ định có dạng như sau:

AUC là diện tích của vùng màu xám trong hình minh hoạ trước. Trong trường hợp lạ này, khu vực chỉ đơn giản là chiều dài của vùng màu xám (1.0) nhân với chiều rộng của vùng màu xám (1.0). Vì vậy, sản phẩm 1.0 và 1.0 mang lại AUC chính xác là 1.0, đây là mức cao nhất có thể Điểm AUC.

Ngược lại, đường cong ROC của thuật toán phân loại không thể phân tách các lớp như sau. Diện tích của vùng màu xám này là 0,5.

Đường cong ROC điển hình hơn sẽ có dạng gần đúng như sau:

Việc tính toán diện tích bên dưới đường cong này theo cách thủ công sẽ rất khó khăn, đó là lý do tại sao chương trình thường tính toán hầu hết các giá trị AUC.

Nhấp vào biểu tượng để biết định nghĩa chính thức hơn về AUC.

AUC là xác suất mà thuật toán phân loại sẽ tin tưởng hơn rằng một ví dụ dương được chọn ngẫu nhiên thực sự dương hơn so với ví dụ phủ định được chọn ngẫu nhiên là dương.

B

lan truyền ngược

#fundamentals

Thuật toán triển khai giảm độ dốc trong mạng nơron.

Việc huấn luyện mạng nơron cần nhiều vòng lặp của chu kỳ hai vòng sau:

Trong lượt chuyển tiếp, hệ thống sẽ xử lý một gói gồm ví dụ để nhận được(các) thông tin dự đoán. Hệ thống so sánh từng thông tin dự đoán cho từng giá trị label. Sự khác biệt giữa thông tin dự đoán và giá trị nhãn là mất cho ví dụ đó. Hệ thống sẽ tổng hợp các tổn thất cho tất cả ví dụ để tính tổng mức hao tổn tổn thất cho lô hiện tại.
Trong quá trình truyền ngược (backpropagation), hệ thống sẽ giảm tổn thất bằng cách điều chỉnh trọng số của tất cả nơ-ron trong tất cả (các) lớp ẩn.

Mạng nơron thường chứa nhiều nơron trong nhiều lớp ẩn. Mỗi nơron này góp phần gây ra tình trạng mất mát tổng thể theo những cách khác nhau. Tính năng lan truyền ngược xác định xem nên tăng hay giảm trọng số áp dụng cho các nơron cụ thể.

Tốc độ học là một hệ số kiểm soát độ mà mỗi lượt lùi sẽ tăng hoặc giảm từng trọng số. Tốc độ học tập cao sẽ làm tăng hoặc giảm mỗi trọng số hơn một tốc độ học tập nhỏ.

Về mặt giải tích, kỹ thuật lan truyền ngược triển khai quy tắc chuỗi. của đại số. Tức là kỹ thuật lan truyền ngược sẽ tính toán đạo hàm một phần của lỗi với cho từng thông số.

Nhiều năm trước, các chuyên viên học máy phải viết mã để triển khai kỹ thuật lan truyền ngược. Giờ đây, các API học máy hiện đại như TensorFlow triển khai kỹ thuật lan truyền ngược cho bạn. Chà!

lô

#fundamentals

Tập hợp ví dụ được sử dụng trong một huấn luyện vòng lặp. Kích thước lô xác định số lượng ví dụ trong một lô.

Xem phần epoch (thời gian bắt đầu của hệ thống) để biết nội dung giải thích về mối liên hệ của một lô một khoảng thời gian bắt đầu của hệ thống.

kích thước lô

#fundamentals

Số lượng ví dụ trong một gói. Ví dụ: nếu kích thước lô là 100 thì mô hình sẽ xử lý 100 ví dụ cho mỗi vòng lặp.

Sau đây là các chiến lược kích thước lô phổ biến:

Xuống dốc chuyển màu ngẫu nhiên (SGD), trong đó kích thước lô là 1.
Toàn bộ lô, trong đó kích thước lô là số lượng ví dụ trong toàn bộ nhóm huấn luyện. Ví dụ: nếu tập hợp huấn luyện chứa hàng triệu ví dụ, thì kích thước lô sẽ là một triệu ví dụ ví dụ. Toàn bộ lô thường là một chiến lược không hiệu quả.
gói nhỏ, trong đó kích thước lô thường nằm trong khoảng 10 và 1000. Lô nhỏ thường là chiến lược hiệu quả nhất.

thiên kiến (đạo đức/công bằng)

#fairness

#fundamentals

1. Định kiến, định kiến hoặc thiên vị đối với một số thứ, con người, hoặc nhóm nhiều hơn các dịch vụ khác. Những thiên kiến này có thể ảnh hưởng đến việc thu thập và diễn giải dữ liệu, thiết kế hệ thống và cách người dùng tương tác thông qua một hệ thống. Các hình thức của loại thiên vị này bao gồm:

2. Lỗi hệ thống do quy trình lấy mẫu hoặc báo cáo gây ra. Các hình thức của loại thiên vị này bao gồm:

Đừng nhầm lẫn với thuật ngữ độ lệch trong các mô hình học máy hoặc thiên kiến dự đoán.

thiên kiến (toán) hoặc thuật ngữ thiên kiến

#fundamentals

Giao điểm hoặc bù trừ so với một nguồn gốc. Độ lệch là một tham số trong các mô hình học máy được ký hiệu bằng một trong sau:

b
t₀

Ví dụ: độ lệch là b trong công thức sau:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Trong một đường hai chiều đơn giản, độ lệch chỉ có nghĩa là "giao điểm y". Ví dụ: độ lệch của đường trong hình minh hoạ sau là 2.

Đồ thị của một đường thẳng có hệ số góc bằng 0,5 và độ chệch (giao điểm y) bằng 2.

Độ lệch tồn tại vì không phải mọi mô hình đều bắt đầu từ nguồn gốc (0,0). Ví dụ: giả sử một công viên giải trí có giá vé vào cửa là 2 Euro và phí thêm 0,5 Euro cho mỗi giờ khách hàng lưu trú. Do đó, một mô hình ánh xạ tổng chi phí có độ lệch là 2 vì chi phí thấp nhất là 2 Euro.

Không nên nhầm lẫn giữa thiên vị với thiên vị trong đạo đức và công bằng hoặc thiên kiến dự đoán.

phân loại nhị phân

#fundamentals

Loại tác vụ phân loại dự đoán một trong hai lớp loại trừ lẫn nhau:

lớp học tích cực
lớp phủ định

Ví dụ: hai mô hình học máy sau đây đều hoạt động phân loại nhị phân:

Một mô hình giúp xác định liệu email spam (lớp khẳng định) hoặc không phải spam (lớp phủ định).
Một mô hình đánh giá các triệu chứng y tế để xác định xem một người có bị mắc một bệnh cụ thể (nhóm dương tính) hoặc không mắc bệnh này bệnh (nhóm tiêu cực).

Trái ngược với phương thức phân loại nhiều lớp.

Xem thêm mục hồi quy logistic và ngưỡng phân loại.

phân giỏ

#fundamentals

Chuyển đổi một tính năng duy nhất thành nhiều đối tượng nhị phân được gọi là ô hoặc thùng, thường dựa trên phạm vi giá trị. Đặc điểm được cắt nhỏ thường là tính năng liên tục.

Ví dụ: thay vì biểu thị nhiệt độ dưới dạng một giá trị duy nhất dấu phẩy động liên tục, bạn có thể xác định các khoảng nhiệt độ vào các nhóm riêng biệt, chẳng hạn như:

<= 10 độ C sẽ là nhiệt độ "lạnh" bộ chứa.
11 - 24 độ C sẽ là "ôn hoà" bộ chứa.
>= 25 độ C sẽ là nhiệt độ "ấm" bộ chứa.

Mô hình này sẽ xử lý giống nhau mọi giá trị trong cùng một bộ chứa. Cho Ví dụ: giá trị 13 và 22 đều nằm trong bộ chứa ôn hoà, do đó mô hình xử lý hai giá trị giống hệt nhau.

Nhấp vào biểu tượng để xem thêm ghi chú.

Nếu bạn biểu thị nhiệt độ dưới dạng một tính năng liên tục thì mô hình coi nhiệt độ là một đối tượng duy nhất. Nếu bạn biểu thị nhiệt độ thành 3 nhóm, thì mô hình sẽ coi mỗi nhóm là một đối tượng riêng. Tức là một mô hình có thể tìm hiểu mối quan hệ riêng biệt của mỗi nhóm với label. Ví dụ: một hồi quy tuyến tính có thể tìm hiểu riêng trọng số cho mỗi nhóm.

Việc tăng số lượng nhóm sẽ khiến mô hình của bạn trở nên phức tạp hơn bằng cách tăng số lượng mối quan hệ mà mô hình của bạn phải học. Ví dụ: nhóm lạnh, ôn hoà và ấm về cơ bản là ba tính năng riêng biệt để mô hình huấn luyện. Nếu bạn quyết định thêm hai nhóm nữa--ví dụ: đóng băng và nóng--mô hình của bạn sẽ bây giờ phải đào tạo 5 tính năng riêng biệt.

Làm cách nào để biết có bao nhiêu nhóm cần tạo hoặc phạm vi cho mỗi nhóm bộ chứa? Câu trả lời thường đòi hỏi lượng thăm dò thử nghiệm.

C

dữ liệu phân loại

#fundamentals

Các tính năng có một tập hợp cụ thể các giá trị có thể có. Ví dụ: hãy xem xét một đối tượng phân loại có tên là traffic-light-state. Tính năng này chỉ có thể có một trong ba giá trị sau:

red
yellow
green

Bằng cách biểu thị traffic-light-state dưới dạng một đối tượng phân loại, một mô hình có thể học những tác động khác nhau của red, green và yellow đối với hành vi của người lái xe.

Các đối tượng phân loại đôi khi được gọi là các tính năng tách biệt.

Trái ngược với dữ liệu số.

lớp

#fundamentals

Danh mục có thể thuộc về nhãn. Ví dụ:

Trong mô hình phân loại nhị phân phát hiện thư rác thì hai loại này có thể là thư rác và không phải thư rác.
Trong mô hình phân loại nhiều lớp giúp xác định các giống chó, các lớp có thể là poodle, beagle, pug, và cứ tiếp tục như vậy.

Mô hình phân loại dự đoán một lớp. Ngược lại, mô hình hồi quy dự đoán số lượng thay vì một lớp.

mô hình phân loại

#fundamentals

Một mô hình có dự đoán là một lớp. Ví dụ: sau đây là tất cả các mô hình phân loại:

Mô hình dự đoán ngôn ngữ của câu nhập (tiếng Pháp? Tiếng Tây Ban Nha? Tiếng Ý?).
Một mô hình dự đoán các loài cây (Maple? Cây sồi? Baobab?).
Mô hình dự đoán lớp dương hoặc lớp âm cho một giá trị cụ thể tình trạng bệnh lý.

Ngược lại, mô hình hồi quy dự đoán số liệu thay vì lớp.

Hai loại mô hình phân loại phổ biến là:

phân loại nhị phân
phân loại nhiều lớp

ngưỡng phân loại

#fundamentals

Trong phân loại nhị phân, từ 0 đến 1 để chuyển đổi đầu ra thô của Mô hình hồi quy logistic thành một thông tin dự đoán cho nhóm giá trị dương hoặc lớp phủ định. Xin lưu ý rằng ngưỡng phân loại là một giá trị do con người chọn, không phải là giá trị được chọn bởi quá trình huấn luyện mô hình.

Mô hình hồi quy logistic đưa ra giá trị thô trong khoảng từ 0 đến 1. Sau đó:

Nếu giá trị thô này lớn hơn ngưỡng phân loại, thì lớp dương sẽ được dự đoán.
Nếu giá trị thô này nhỏ hơn ngưỡng phân loại, thì lớp âm được dự đoán.

Ví dụ: giả sử ngưỡng phân loại là 0, 8. Nếu giá trị thô là 0,9, thì mô hình dự đoán lớp dương. Nếu giá trị thô là 0, 7 thì mô hình dự đoán lớp âm.

Việc lựa chọn ngưỡng phân loại ảnh hưởng mạnh đến số lượng dương tính giả và âm tính giả.

Nhấp vào biểu tượng để xem thêm ghi chú.

Khi các mô hình hoặc tập dữ liệu phát triển, đôi khi các kỹ sư cũng thay đổi ngưỡng phân loại. Khi ngưỡng phân loại thay đổi, các dự đoán khẳng định về lớp học có thể đột nhiên trở thành lớp học tiêu cực và ngược lại.

Ví dụ: hãy xem xét mô hình dự đoán bệnh theo phân loại nhị phân. Giả sử rằng khi hệ thống chạy trong năm đầu tiên:

Giá trị thô cho một bệnh nhân cụ thể là 0,95.
Ngưỡng phân loại là 0,94.

Do đó, hệ thống sẽ chẩn đoán lớp dương. (Bệnh nhân thở hổn hển, "Ôi không! Tôi bị ốm rồi!")

Một năm sau, có lẽ giờ đây các giá trị sẽ có dạng như sau:

Giá trị thô cho cùng một bệnh nhân vẫn ở mức 0,95.
Ngưỡng phân loại sẽ thay đổi thành 0,97.

Do đó, giờ đây hệ thống lại phân loại lại bệnh nhân đó là nhóm âm tính. ("Chúc bạn một ngày vui vẻ! Tôi không bị ốm đâu.") Cùng một bệnh nhân. Thông tin chẩn đoán khác.

tập dữ liệu bất cân bằng về lớp

#fundamentals

Tập dữ liệu cho một bài toán phân loại trong đó tổng số nhãn của mỗi lớp khác nhau đáng kể. Ví dụ: hãy xem xét một tập dữ liệu phân loại nhị phân có hai nhãn được chia như sau:

1.000.000 nhãn âm
10 nhãn khẳng định

Tỉ số giữa nhãn âm và dương là 100.000 trên 1, do đó là tập dữ liệu không cân bằng về lớp.

Ngược lại, tập dữ liệu sau đây không bị mất cân bằng về lớp vì tỷ lệ giữa số nhãn âm so với số nhãn dương tương đối gần bằng 1:

517 nhãn phủ định
483 nhãn dương

Tập dữ liệu nhiều lớp cũng có thể không cân bằng về lớp. Ví dụ: như sau tập dữ liệu phân loại nhiều lớp cũng không cân bằng về lớp do một nhãn có nhiều ví dụ hơn so với hai ví dụ còn lại:

1.000.000 nhãn có phân loại "xanh"
200 nhãn có lớp "màu tím"
350 nhãn có loại "cam"

Hãy xem thêm về entropy, lớp đa số, và lớp thiểu số.

cắt đoạn

#fundamentals

Một kỹ thuật để xử lý các điểm ngoại lai bằng cách thực hiện một hoặc cả hai tuỳ chọn sau:

Giảm các giá trị feature lớn hơn giá trị tối đa xuống đến ngưỡng tối đa đó.
Tăng giá trị tính năng nhỏ hơn ngưỡng tối thiểu lên đến ngưỡng đó ngưỡng tối thiểu.

Ví dụ: giả sử rằng có <0, 5% giá trị cho một tính năng cụ thể rơi vào nằm ngoài phạm vi 40–60. Trong trường hợp này, bạn có thể làm như sau:

Cắt tất cả các giá trị trên 60 (ngưỡng tối đa) thành chính xác 60.
Cắt tất cả các giá trị dưới 40 (ngưỡng tối thiểu) thành chính xác 40.

Các giá trị ngoại lai có thể làm hỏng mô hình, đôi khi gây ra trọng số tràn trong quá trình huấn luyện. Một số điểm ngoại lai cũng có thể làm hỏng đáng kể như độ chính xác. Cắt đoạn là một kỹ thuật phổ biến để hạn chế thiệt hại.

Lực cắt độ dốc Các giá trị gradient trong phạm vi được chỉ định trong quá trình huấn luyện.

ma trận nhầm lẫn

#fundamentals

Bảng NxN tóm tắt số lượng dự đoán chính xác và không chính xác mà mô hình phân loại tạo ra. Ví dụ: hãy xem xét ma trận nhầm lẫn sau đây cho một mô hình phân loại nhị phân:

	Khối u (dự đoán)	Không phải khối u (dự đoán)
Khối u (dữ liệu thực tế)	18 (TP)	1 (FN)
Không phải khối u (sự thật)	6 (FP)	452 (TN)

Ma trận nhầm lẫn trước đó cho thấy những điều sau:

Trong số 19 dự đoán mà thông tin thực tế là Tumor, mô hình được phân loại chính xác 18 và phân loại không chính xác 1.
Trong số 458 dự đoán mà theo đó sự thật thực tế là Không phải khối u, mô hình phân loại chính xác 452 và phân loại không chính xác 6.

Ma trận nhầm lẫn cho phân loại nhiều lớp có thể giúp bạn xác định các quy luật sai lầm. Ví dụ: hãy xem xét ma trận nhầm lẫn sau cho lớp 3 mô hình phân loại nhiều lớp phân loại 3 loại mống mắt khác nhau (Virginica, Versicolor và Setosa). Khi sự thật là Virginica, ma trận nhầm lẫn cho thấy mô hình có nhiều khả năng nhầm lẫn dự đoán Versicolor hơn Setosa:

	Setosa (dự đoán)	Versicolor (dự đoán)	Virginica (dự đoán)
Setosa (sự thật trên mặt đất)	88	12	0
Versicolor (thực tế)	6	141	7
Virginica (sự thật)	2	27	109

Một ví dụ khác là ma trận nhầm lẫn có thể cho biết rằng một mô hình đã được huấn luyện nhận ra các chữ số viết tay có xu hướng dự đoán nhầm số 9 thay vì 4, hoặc dự đoán nhầm 1 thay vì 7.

Ma trận nhầm lẫn chứa đủ thông tin để tính toán nhiều chỉ số hiệu suất, bao gồm cả độ chính xác và ghi nhớ.

tính chất liên tục

#fundamentals

Tính năng dấu phẩy động với phạm vi vô hạn có thể các giá trị, chẳng hạn như nhiệt độ hoặc trọng lượng.

Tương phản với tính năng tách biệt.

sự hội tụ

#fundamentals

Trạng thái đạt khi các giá trị giảm thay đổi rất ít hoặc không hề đơn giản với từng vòng lặp. Ví dụ: như sau đường cong mất cho thấy sự hội tụ ở khoảng 700 lần lặp:

Cốt truyện Descartes. Trục X biểu thị sự mất mát. Trục Y là số chương trình huấn luyện
lặp lại. Tỷ lệ mất mát rất cao trong vài lần lặp lại đầu tiên, nhưng
giảm mạnh. Sau khoảng 100 lần lặp lại, lượng mất mát vẫn là
giảm dần nhưng lại dần dần. Sau khoảng 700 lần lặp lại,
mức tổn thất vẫn không thay đổi.

Một mô hình sẽ hội tụ khi quá trình huấn luyện bổ sung không diễn ra để cải thiện mô hình này.

Trong học sâu, giá trị tổn hao đôi khi không đổi hoặc gần như vậy cho nhiều lần lặp lại trước khi giảm dần. Trong một khoảng thời gian dài của giá trị tổn hao không đổi, bạn có thể tạm thời hiểu nhầm về sự hội tụ.

Hãy xem thêm mục dừng sớm.

D

DataFrame

#fundamentals

Loại dữ liệu gấu trúc phổ biến để biểu thị tập dữ liệu trong bộ nhớ.

DataFrame tương tự như một bảng hoặc một bảng tính. Mỗi cột của DataFrame có tên (tiêu đề) và mỗi hàng được xác định bằng số duy nhất.

Mỗi cột trong DataFrame có cấu trúc như một mảng 2D, ngoại trừ việc mỗi cột có thể được chỉ định một loại dữ liệu riêng.

Xem thêm Thông tin tham khảo về pandas.DataFrame .

tập dữ liệu hoặc tập dữ liệu

#fundamentals

Một tập hợp dữ liệu thô, thường (nhưng không chỉ gồm) được sắp xếp trong một trong các định dạng sau:

một bảng tính
tệp ở định dạng CSV (giá trị được phân tách bằng dấu phẩy)

mô hình sâu

#fundamentals

Một mạng nơron chứa nhiều hơn một lớp ẩn.

Mô hình sâu còn được gọi là mạng nơron sâu.

Tương phản với mô hình rộng.

tính chất mật độ cao

#fundamentals

Một tính năng trong đó hầu hết hoặc tất cả giá trị khác 0, thường là một Tensor gồm các giá trị dấu phẩy động. Ví dụ: như sau Tensor có 10 nguyên tố dày đặc vì 9 giá trị của nó khác 0:

Tương phản với tính năng thưa.

chiều sâu

#fundamentals

Tổng của những giá trị sau trong mạng nơron:

số lượng lớp ẩn
số lượng lớp đầu ra, thường là 1
số lượng lớp được nhúng

Ví dụ: một mạng nơron có 5 lớp ẩn và 1 lớp đầu ra có độ sâu là 6.

Lưu ý rằng lớp đầu vào không chiều sâu ảnh hưởng.

tính chất rời rạc

#fundamentals

Một tính năng có một tập hợp hữu hạn các giá trị có thể có. Ví dụ: một đối tượng có giá trị chỉ có thể là động vật, rau hoặc khoáng sản là riêng biệt (hoặc phân loại).

Tương phản với tính năng liên tục.

linh động

#fundamentals

Việc nào đó được thực hiện thường xuyên hoặc liên tục. Các cụm từ động và trực tuyến là các từ đồng nghĩa với công nghệ học máy. Sau đây là những cách sử dụng phổ biến của tính năng động và trực tuyến trong máy đang học:

Mô hình động (hoặc mô hình trực tuyến) là một mô hình được đào tạo lại thường xuyên hoặc liên tục.
Đào tạo động (hoặc đào tạo trực tuyến) là quá trình đào tạo một cách thường xuyên hoặc liên tục.
Suy luận động (hoặc suy luận trực tuyến) là quá trình tạo thông tin dự đoán theo yêu cầu.

mô hình linh động

#fundamentals

Một mô hình diễn ra thường xuyên (thậm chí có thể liên tục) được đào tạo lại. Mô hình linh động là "học viên suốt đời" để liên tục thích ứng với dữ liệu không ngừng thay đổi. Mô hình động còn được gọi là mô hình trực tuyến.

Tương phản với mô hình tĩnh.

E

dừng sớm

#fundamentals

Phương pháp chính thức liên quan đến việc kết thúc huấn luyện trước khi ngừng huấn luyện kết thúc đang giảm. Khi dừng sớm, bạn chủ ý ngừng huấn luyện mô hình khi tổn thất trên tập dữ liệu xác thực bắt đầu xảy ra increase; tức là, khi hiệu suất tổng quát hoá kém hơn.

Nhấp vào biểu tượng để xem thêm ghi chú.

Việc dừng sớm có vẻ khác thường. Tóm lại, yêu cầu một mô hình tạm dừng đào tạo trong khi tổn thất vẫn giảm có vẻ như cho đầu bếp biết dừng nấu trước khi món tráng miệng nướng hoàn toàn. Tuy nhiên, việc huấn luyện một mô hình cho quá dài có thể dẫn đến tình trạng quá tải. Tức là, nếu bạn huấn luyện một mô hình quá lâu, nên mô hình đó có thể phù hợp với dữ liệu huấn luyện mô hình không đưa ra dự đoán chính xác về các ví dụ mới.

lớp nhúng

#language

#fundamentals

Một lớp ẩn đặc biệt huấn luyện trên tính năng phân loại chiều cao để tìm hiểu dần vectơ nhúng chiều dưới. Một tầng nhúng cho phép mạng nơron huấn luyện hiệu quả hơn hiệu quả hơn so với việc chỉ đào tạo về tính năng phân loại chiều cao.

Ví dụ, Trái đất hiện hỗ trợ khoảng 73.000 loài cây. Giả sử loài cây là một tính năng trong mô hình của bạn, do đó, lớp đầu vào bao gồm vectơ một nóng 73.000 dài. Ví dụ: có thể baobab sẽ được biểu thị như sau:

Một mảng có 73.000 phần tử. 6.232 phần tử đầu tiên chứa giá trị
0. Phần tử tiếp theo chứa giá trị 1. 66.767 nguyên tố cuối cùng giữ
giá trị bằng 0.

Mảng 73.000 phần tử là rất dài. Nếu bạn không thêm lớp nhúng vào mô hình, việc huấn luyện sẽ tốn rất nhiều thời gian do nhân 72.999 số không. Có thể bạn nên chọn lớp nhúng để đưa vào gồm 12 phương diện. Do đó, lớp nhúng sẽ dần học một vectơ nhúng mới cho mỗi loài cây.

Trong một số trường hợp nhất định, thao tác băm là giải pháp thay thế hợp lý vào lớp nhúng.

thời gian bắt đầu của hệ thống

#fundamentals

Một lượt huấn luyện đầy đủ cho toàn bộ nhóm huấn luyện sao cho mỗi ví dụ đã được xử lý một lần.

Một thời gian bắt đầu của hệ thống đại diện cho N/kích thước lô huấn luyện vòng lặp, trong đó N là tổng số ví dụ.

Ví dụ: giả sử như sau:

Tập dữ liệu này có 1.000 ví dụ.
Kích thước lô là 50 ví dụ.

Do đó, một thời gian bắt đầu của hệ thống sẽ yêu cầu 20 lần lặp lại:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

ví dụ

#fundamentals

Giá trị của một hàng features và có thể là một nhãn. Ví dụ ở học có giám sát thuộc hai loại danh mục chung:

Một ví dụ có gắn nhãn bao gồm một hoặc nhiều tính năng và một nhãn. Các ví dụ có gắn nhãn sẽ được dùng trong quá trình huấn luyện.
Một ví dụ chưa được gắn nhãn bao gồm một hoặc nhiều tính năng hơn nhưng không có nhãn. Các ví dụ không được gắn nhãn sẽ được sử dụng trong quá trình suy luận.

Ví dụ: giả sử bạn đang huấn luyện một mô hình để xác định mức độ ảnh hưởng về điều kiện thời tiết tại điểm kiểm tra của học sinh. Dưới đây là ba ví dụ có gắn nhãn:

Tính năng			Hãng nhạc
Nhiệt độ	Độ ẩm	Áp lực	Điểm kiểm tra
15	47	998	Tốt
19	34	1020	Rất tốt
18	92	1012	Kém

Dưới đây là ba ví dụ chưa gắn nhãn:

Nhiệt độ	Độ ẩm	Áp lực
12	62	1014
21	47	1017
19	41	1021

Hàng của một tập dữ liệu thường là nguồn thô để lấy ví dụ. Tức là một ví dụ thường bao gồm một tập hợp con các cột trong tập dữ liệu. Ngoài ra, các tính năng trong một ví dụ cũng có thể bao gồm tính năng tổng hợp, chẳng hạn như sử dụng nhiều tính năng.

F

âm tính giả (FN)

#fundamentals

Một ví dụ trong đó mô hình dự đoán nhầm lớp phủ định. Ví dụ: mô hình dự đoán rằng một email cụ thể không phải là spam (lớp phủ định), nhưng email đó thực sự là thư rác.

dương tính giả (FP)

#fundamentals

Một ví dụ trong đó mô hình dự đoán nhầm lớp học tích cực. Ví dụ: mô hình này dự đoán một email cụ thể là thư rác (loại email tích cực), nhưng email thực ra không phải là thư rác.

tỷ lệ dương tính giả (FPR)

#fundamentals

Tỷ lệ các ví dụ phủ định thực tế mà mô hình gặp phải đã dự đoán cho nhóm có giá trị dương. Công thức sau đây tính giá trị sai tỷ lệ dương:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Tỷ lệ dương tính giả là trục x trong đường cong ROC.

đối tượng

#fundamentals

Biến đầu vào cho mô hình học máy. Ví dụ bao gồm một hoặc nhiều tính năng. Ví dụ: giả sử bạn đang huấn luyện một để xác định ảnh hưởng của điều kiện thời tiết đến điểm bài kiểm tra của học sinh. Bảng sau đây trình bày ba ví dụ, mỗi ví dụ có chứa 3 tính năng và 1 nhãn:

Tính năng			Hãng nhạc
Nhiệt độ	Độ ẩm	Áp lực	Điểm kiểm tra
15	47	998	92
19	34	1020	84
18	92	1012	87

Tương phản với nhãn.

hình chữ thập

#fundamentals

Một tính năng tổng hợp hình thành bằng cách "kết hợp" Các tính năng phân loại hoặc phân loại.

Ví dụ: cân nhắc "dự báo tâm trạng" mô hình biểu thị nhiệt độ bằng một trong bốn nhóm sau:

freezing
chilly
temperate
warm

Và biểu thị tốc độ gió ở một trong ba nhóm sau:

still
light
windy

Khi không có đối tượng giao cắt, mô hình tuyến tính sẽ huấn luyện độc lập trên mỗi trước 7 nhóm khác nhau. Vì vậy, mô hình huấn luyện trên, chẳng hạn như freezing độc lập với quá trình huấn luyện về, chẳng hạn như windy

Ngoài ra, bạn có thể tạo một đường chéo đặc trưng của nhiệt độ và tốc độ gió. Tính năng tổng hợp này sẽ có 12 khả năng sau giá trị:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Nhờ có các hình chữ thập, mô hình có thể học được điểm khác biệt về tâm trạng trong khoảng từ freezing-windy ngày đến freezing-still ngày.

Nếu bạn tạo một tính năng tổng hợp từ hai tính năng mà mỗi tính năng đều có rất nhiều nhiều nhóm khác nhau, thì kết quả của tính năng này sẽ có số lượng các tổ hợp có thể có. Ví dụ: nếu một đối tượng có 1.000 nhóm và tính năng khác có 2.000 bộ chứa, kết quả tính năng chéo có 2.000.000 .

Về mặt chính thức, chữ thập là một Sản phẩm của Cartesian.

Các kết hợp đối tượng chủ yếu được sử dụng với mô hình tuyến tính và hiếm khi được sử dụng nhờ mạng nơron.

kỹ thuật trích xuất tính chất

#fundamentals

#TensorFlow

Một quy trình bao gồm các bước sau:

Xác định tính năng nào có thể hữu ích trong việc huấn luyện một mô hình.
Chuyển đổi dữ liệu thô từ tập dữ liệu thành các phiên bản hiệu quả của các tính năng đó.

Ví dụ: bạn có thể xác định rằng temperature có thể hữu ích của chúng tôi. Sau đó, bạn có thể thử nghiệm với cách phân nhóm để tối ưu hoá những gì mô hình có thể học từ các phạm vi temperature khác nhau.

Kỹ thuật tính năng đôi khi được gọi là trích xuất tính năng hoặc kết hợp.

Nhấp vào biểu tượng để xem thêm ghi chú về TensorFlow.

Trong TensorFlow, kỹ thuật tính năng thường có nghĩa là chuyển đổi tệp nhật ký thô vào vùng đệm giao thức tf.Example. Xem thêm tf.Transform.

bộ tính năng

#fundamentals

Nhóm tính năng mà công nghệ học máy của bạn cung cấp model sẽ được huấn luyện. Ví dụ: mã bưu chính, quy mô tài sản và tình trạng của tài sản có thể bao gồm một bộ tính năng đơn giản cho một mô hình dự đoán giá nhà ở.

vectơ đối tượng

#fundamentals

Mảng các giá trị feature bao gồm ví dụ. Vectơ đối tượng được nhập vào trong khoảng thời gian đào tạo và trong quá trình suy luận. Ví dụ: vectơ đặc trưng của một mô hình có hai đối tượng riêng biệt có thể là:

[0.92, 0.56]

Bốn lớp: một lớp đầu vào, hai lớp ẩn và một lớp đầu ra.
Lớp đầu vào chứa hai nút, một nút chứa giá trị
0,92 và mục kia chứa giá trị 0,56.

Mỗi ví dụ cung cấp các giá trị khác nhau cho vectơ đối tượng, do đó giá trị vectơ đối tượng cho ví dụ tiếp theo có thể như:

[0.73, 0.49]

Kỹ thuật tính năng xác định cách thể hiện các đối tượng trong vectơ đối tượng. Ví dụ: một đối tượng phân loại nhị phân có có thể được biểu thị bằng mã hoá một nóng. Trong trường hợp này, phần của vectơ đặc trưng của một ví dụ cụ thể sẽ bao gồm bốn số 0 và một 1.0 ở vị trí thứ ba, như sau:

[0.0, 0.0, 1.0, 0.0, 0.0]

Một ví dụ khác, giả sử mô hình của bạn bao gồm ba tính năng:

một tính năng phân loại nhị phân có năm giá trị có thể có được biểu thị bằng mã hoá một nóng; ví dụ: [0.0, 1.0, 0.0, 0.0, 0.0]
một tính năng phân loại nhị phân khác có ba giá trị có thể có được biểu thị với mã hoá một nóng; ví dụ: [0.0, 0.0, 1.0]
đối tượng dấu phẩy động; ví dụ: 8.3.

Trong trường hợp này, vectơ đặc trưng của từng ví dụ sẽ được biểu diễn theo 9 giá trị. Với các giá trị mẫu trong danh sách trên, giá trị vectơ đối tượng sẽ là:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

vòng hồi tiếp

#fundamentals

Trong công nghệ học máy, một tình huống trong đó những dự đoán của mô hình sẽ ảnh hưởng đến dữ liệu huấn luyện cho cùng một mô hình hoặc mô hình khác. Ví dụ: một mô hình phim sẽ ảnh hưởng đến phim mà mọi người xem. Sau đó, ảnh hưởng đến các mô hình đề xuất phim tiếp theo.

G

tổng quát hoá

#fundamentals

Khả năng của mô hình để đưa ra dự đoán chính xác về các mô hình mới, dữ liệu chưa xem trước đây. Một mô hình có thể tổng quát hoá thì ngược lại của một mô hình quá phù hợp.

Nhấp vào biểu tượng để xem thêm ghi chú.

Bạn sẽ huấn luyện một mô hình dựa trên các ví dụ trong tập huấn luyện. Do đó, sẽ học các đặc điểm của dữ liệu trong tập huấn luyện. Tổng quát hoá về cơ bản là câu hỏi liệu mô hình của bạn có thể đưa ra dự đoán chính xác dựa trên các ví dụ hay không không có trong tập huấn luyện.

Để khuyến khích mọi người tổng quát hoá, quy trình chính quy giúp huấn luyện mô hình một cách chính xác hơn với điểm đặc thù của dữ liệu trong tập huấn luyện.

đường cong tổng quát

#fundamentals

Biểu đồ về cả mất mát về huấn luyện và mất thông tin xác thực dưới dạng hàm của số lượng vòng lặp.

Đường cong tổng quát có thể giúp bạn phát hiện overfitting (tối ưu hoá). Ví dụ: như sau đường cong tổng quát cho thấy tình trạng quá phù hợp vì không có sự xác thực cuối cùng sẽ cao hơn đáng kể so với lượng mất phí huấn luyện.

Đồ thị Descartes trong đó trục y được gắn nhãn là mất và trục x
được gắn nhãn lặp lại. Hai lô đất xuất hiện. Một biểu đồ cho thấy
lỗ hổng huấn luyện và cái còn lại cho thấy lỗ hổng xác thực.
Hai kế hoạch này có khởi đầu tương tự nhau, nhưng dần dần mất đi huấn luyện
mức giảm thấp hơn nhiều so với tổn thất xác thực.

phương pháp giảm độ dốc

#fundamentals

Một kỹ thuật toán học để giảm thiểu mất mát. Chế độ xuống dần điều chỉnh liên tục trọng số và độ lệch, dần dần tìm ra kết hợp tốt nhất để giảm thiểu tổn thất.

Quá trình gốc chuyển màu cũ hơn – lâu đời hơn nhiều – so với công nghệ học máy.

thông tin thực tế

#fundamentals

Thực tế.

Điều thực sự đã xảy ra.

Ví dụ: hãy xem xét phân loại nhị phân mô hình dự đoán liệu một sinh viên trong năm đầu đại học có phải sẽ tốt nghiệp trong vòng 6 năm. Dựa trên cơ sở thực tế của mô hình này là liệu không phải sinh viên đó thực sự tốt nghiệp trong vòng 6 năm.

Nhấp vào biểu tượng để xem thêm ghi chú.

Chúng tôi đánh giá chất lượng mô hình dựa trên dữ liệu thực tế. Tuy nhiên, thông tin thực tế không phải lúc nào cũng hoàn toàn, đúng và trung thực. Ví dụ: hãy xem xét các ví dụ sau đây về những điểm không hoàn hảo có thể xảy ra trong giá trị thực tế:

Trong ví dụ về tốt nghiệp, chúng ta có chắc chắn rằng tốt nghiệp hồ sơ của mỗi học sinh luôn chính xác không? Là trường đại học lưu giữ hồ sơ không hoàn hảo?
Giả sử nhãn là một giá trị dấu phẩy động được đo bằng dụng cụ (ví dụ: khí áp kế). Làm cách nào chúng ta có thể chắc chắn rằng mỗi công cụ được hiệu chỉnh giống hệt nhau hoặc mỗi lần đo được lấy theo cùng một giá trị trong trường hợp nào?
Nếu nhãn đó là vấn đề về quan điểm của con người, làm sao chúng tôi có thể chắc chắn rằng mỗi chiến lược con người sẽ đánh giá các sự kiện theo theo cách như vậy không? Để cải thiện tính nhất quán, đôi khi nhân viên đánh giá là chuyên gia can thiệp.

Số lần bị đánh trúng bóng

lớp ẩn

#fundamentals

Một lớp trong mạng nơron giữa lớp đầu vào (các tính năng) và lớp lớp đầu ra (thông tin dự đoán). Mỗi lớp ẩn bao gồm một hoặc nhiều nơ-ron. Ví dụ: mạng nơron sau đây chứa hai lớp ẩn, gói đầu tiên có 3 nơron và gói thứ hai có 2 nơron:

Một mạng nơron sâu chứa nhiều hơn một lớp ẩn. Ví dụ: hình minh hoạ trên là một mạng nơron sâu vì mô hình này chứa hai lớp ẩn.

siêu tham số

#fundamentals

Các biến mà bạn hoặc dịch vụ điều chỉnh siêu tham số trong quá trình huấn luyện một mô hình liên tiếp. Ví dụ: tốc độ học tập là siêu tham số. Bạn có thể hãy đặt tốc độ học là 0,01 trước một buổi đào tạo. Nếu bạn Nếu xác định rằng 0,01 là quá cao, bạn có thể thiết lập điểm là 0,003 cho lần huấn luyện tiếp theo.

Ngược lại, tham số là các loại khác nhau trọng số và độ lệch mà mô hình đó học được trong quá trình đào tạo.

I

được phân phối độc lập và đồng nhất (i.i.d)

#fundamentals

Dữ liệu được lấy từ giá trị phân phối không thay đổi và vị trí của mỗi giá trị được vẽ không phụ thuộc vào các giá trị đã được vẽ trước đó. Độ phân giải i.i.d là khí lý tưởng của máy học tập—một cấu trúc toán học hữu ích nhưng hầu như không bao giờ được tìm thấy chính xác trong thế giới thực. Ví dụ: phân phối khách truy cập vào một trang web có thể là i.i.d. trong một khoảng thời gian ngắn; tức là phân phối không trong khoảng thời gian ngắn đó và lượt ghé thăm của một người thường độc lập với lượt truy cập của người khác. Tuy nhiên, nếu bạn mở rộng khoảng thời gian đó, về số lượng khách truy cập trang web.

Hãy xem thêm về vấn đề tình trạng không ổn định.

suy luận

#fundamentals

Trong công nghệ học máy, quá trình đưa ra dự đoán bằng cách áp dụng mô hình đã huấn luyện cho các ví dụ chưa được gắn nhãn.

Suy luận có ý nghĩa hơi khác trong số liệu thống kê. Xem Bài viết trên Wikipedia về suy luận thống kê để biết thông tin chi tiết.

lớp đầu vào

#fundamentals

Lớp của mạng nơron chứa vectơ đối tượng. Tức là lớp đầu vào cung cấp ví dụ cho quy trình đào tạo hoặc suy luận. Ví dụ: lớp đầu vào trong như sau mạng nơron bao gồm hai tính năng:

Bốn lớp: một lớp đầu vào, hai lớp ẩn và một lớp đầu ra.

mức độ diễn giải

#fundamentals

Khả năng giải thích hoặc trình bày lập luận của mô hình học máy trong những cụm từ dễ hiểu đối với con người.

Ví dụ: hầu hết các mô hình hồi quy tuyến tính đều có mức độ cao dễ diễn giải. (Bạn chỉ cần xem trọng số đã huấn luyện cho mỗi feature.) Rừng quyết định cũng dễ diễn giải cao. Tuy nhiên, có một số mô hình cần có hình ảnh phức tạp để dễ diễn giải.

Bạn có thể sử dụng Công cụ diễn giải bài học (LIT) để diễn giải các mô hình học máy.

lặp lại

#fundamentals

Cập nhật duy nhất các tham số của mô hình—mô hình trọng số và độ lệch trong quá trình đào tạo. Kích thước lô xác định số lượng ví dụ mà mô hình xử lý trong một lần lặp. Ví dụ: nếu kích thước lô là 20 thì mô hình sẽ xử lý 20 ví dụ trước điều chỉnh các thông số.

Khi huấn luyện mạng nơron, một lần lặp lại bao gồm hai lần truyền sau:

Một lượt chuyển tiếp để đánh giá tổn thất trong một lô.
Truyền lùi (backpropagation) để điều chỉnh dựa trên mức tổn thất và tốc độ học.

L

Điều chỉnh L₀

#fundamentals

Một loại thông tin chính quy phạt tổng số trọng số khác 0 trong một mô hình. Ví dụ: một mô hình có 11 trọng số khác 0 sẽ bị phạt nhiều hơn một mô hình tương tự có 10 trọng số khác 0.

Quy trình điều chỉnh L₀ đôi khi được gọi là quy trình chuẩn hoá L0-norm.

Nhấp vào biểu tượng để xem thêm ghi chú.

Việc điều chỉnh L₀ thường không thực tế trong các mô hình lớn vì Quy trình điều chỉnh L₀ biến quá trình huấn luyện thành hình lồi vấn đề tối ưu hoá.

Mất L₁

#fundamentals

hàm giảm tính giá trị tuyệt đối sự khác biệt giữa giá trị nhãn thực tế và các giá trị mà một mô hình dự đoán. Ví dụ: đây là tính toán tổn thất L₁ đối với một gói là năm ví dụ:

Giá trị thực tế của ví dụ	Giá trị dự đoán của mô hình	Giá trị tuyệt đối của delta
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = tổn thất L₁

Tổn thất L₁ ít nhạy cảm hơn với các điểm ngoại lai hơn L₂ tổn thất.

Lỗi tuyệt đối trung bình là giá trị trung bình Mỗi ví dụ về mức giảm ₁.

Nhấp vào biểu tượng để xem phép toán chính thức.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

trong đó:

$n$ là số lượng ví dụ.
$y$ là giá trị thực tế của nhãn.
$\hat{y}$ là giá trị mà mô hình dự đoán cho $y$.

Điều chỉnh L₁

#fundamentals

Một loại chính quy phạt trọng số tương ứng với tổng giá trị tuyệt đối của các trọng số. Việc điều chỉnh L₁ giúp tăng trọng số của các thuộc tính không liên quan hoặc các tính năng hầu như không liên quan đến chính xác là 0. Một tính năng có trọng số 0 sẽ bị xoá khỏi mô hình một cách hiệu quả.

Trái ngược với quy tắc điều chỉnh L₂.

Giảm L₂

#fundamentals

hàm mất tính bình phương sự khác biệt giữa giá trị nhãn thực tế và các giá trị mà một mô hình dự đoán. Ví dụ: đây là tính toán tổn thất L₂ đối với một gói là năm ví dụ:

Giá trị thực tế của ví dụ	Giá trị dự đoán của mô hình	Quảng trường delta
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = L₂ tổn thất

Do bình phương, tổn thất L₂ làm tăng ảnh hưởng của điểm ngoại lai. Tức là tổn thất L₂ phản ứng mạnh mẽ hơn với các dự đoán không chính xác so với Mất L₁. Ví dụ: mức giảm L₁ cho lô trước đó sẽ là 8 thay vì 16. Lưu ý rằng một ngoại lệ chiếm 9 trên 16.

Mô hình hồi quy thường sử dụng tổn thất L₂ làm hàm mất.

Lỗi bình phương trung bình là giá trị trung bình Ví dụ về mức giảm ₂. Mất bình phương là một tên khác của tổn thất L₂.

Nhấp vào biểu tượng để xem phép toán chính thức.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

trong đó:

$n$ là số lượng ví dụ.
$y$ là giá trị thực tế của nhãn.
$\hat{y}$ là giá trị mà mô hình dự đoán cho $y$.

Điều chỉnh L₂

#fundamentals

Một loại chính quy phạt trọng số tương ứng với tổng bình phương của trọng số. Việc điều chỉnh L₂ giúp tăng trọng số giá trị ngoại lai (những có giá trị âm cao hoặc âm thấp) gần 0 nhưng không hoàn toàn đến 0. Các tính năng có giá trị gần với 0 sẽ vẫn còn trong mô hình nhưng không ảnh hưởng nhiều đến dự đoán của mô hình.

Quy trình điều chỉnh L₂ luôn cải thiện quá trình tổng quát hoá về mô hình tuyến tính.

Trái ngược với quy tắc điều chỉnh L₁.

nhãn

#fundamentals

Trong công nghệ học máy có giám sát, "trả lời" hoặc "kết quả" trong một ví dụ.

Mỗi ví dụ được gắn nhãn bao gồm một hoặc nhiều tính năng và nhãn. Ví dụ: trong thư rác tập dữ liệu phát hiện, nhãn có thể là "thư rác" hoặc "không phải là thư rác". Trong một tập dữ liệu lượng mưa, nhãn này có thể là số lượng mưa đã giảm trong một khoảng thời gian nhất định.

ví dụ có gắn nhãn

#fundamentals

Ví dụ chứa một hoặc nhiều tính năng và label. Ví dụ: bảng sau hiển thị ba các ví dụ có gắn nhãn từ mô hình định giá nhà, mỗi mô hình có ba tính năng và một nhãn:

Số lượng phòng ngủ	Số lượng phòng tắm	Tuổi thọ của nhà	Giá nhà (nhãn)
3	2	15	$345.000
2	1	72	$179.000
4	2	34	$392.000

Trong công nghệ học máy có giám sát, sẽ huấn luyện dựa trên các ví dụ được gắn nhãn và đưa ra dự đoán về các ví dụ chưa được gắn nhãn.

Tương phản ví dụ được gắn nhãn với các ví dụ chưa gắn nhãn.

hàm lambda

#fundamentals

Từ đồng nghĩa với tỷ lệ chuẩn hoá.

Lambda là một thuật ngữ quá tải. Ở đây, chúng ta đang tập trung vào cụm từ định nghĩa trong mục chính thức.

lớp

#fundamentals

Một tập hợp nơ-ron trong một mạng nơron. Ba loại lớp phổ biến như sau:

Lớp đầu vào, cung cấp các giá trị cho tất cả tính năng.
Một hoặc nhiều lớp ẩn giúp tìm thấy mối quan hệ phi tuyến tính giữa đối tượng và nhãn.
Lớp đầu ra cung cấp thông tin dự đoán.

Ví dụ: hình minh hoạ sau đây cho thấy một mạng nơron với một lớp đầu vào, hai lớp ẩn và một lớp đầu ra:

Mạng nơron với một lớp đầu vào, hai lớp ẩn và một lớp
tầng đầu ra. Lớp đầu vào bao gồm hai đối tượng. Đầu tiên
lớp ẩn gồm ba nơron và lớp ẩn thứ hai
gồm hai nơron. Lớp đầu ra bao gồm một nút duy nhất.

Trong TensorFlow, lớp cũng là các hàm Python nhận Tensor và các lựa chọn cấu hình làm phương thức nhập và tạo ra các tensor khác làm đầu ra.

tốc độ học

#fundamentals

Số dấu phẩy động cho biết hiệu ứng giảm độ dốc của thuật toán xác định mức độ điều chỉnh trọng số và độ chệch của mỗi vòng lặp. Ví dụ: tốc độ học là 0, 3 sẽ điều chỉnh trọng số và độ lệch mạnh hơn gấp 3 lần so với tốc độ học 0,1.

Tốc độ học là một siêu tham số quan trọng. Nếu bạn đặt tỷ lệ học tập quá thấp, thì việc đào tạo sẽ mất quá nhiều thời gian. Nếu bạn đặt tốc độ học quá cao, việc giảm độ dốc thường gặp khó khăn đạt được mức độ hội tụ.

Nhấp vào biểu tượng để xem lời giải toán cụ thể hơn.

Trong mỗi lần lặp lại, giảm độ dốc thuật toán nhân tốc độ học tập theo độ dốc. Sản phẩm thu được được gọi là màu chuyển màu.

tuyến tính

#fundamentals

Mối quan hệ giữa hai hoặc nhiều biến có thể chỉ được biểu thị bằng cách cộng và nhân.

Biểu đồ của mối quan hệ tuyến tính là một đường.

Tương phản với nonlinear.

mô hình tuyến tính

#fundamentals

Một mô hình chỉ định một trọng số cho mỗi tính năng để đưa ra dự đoán. (Mô hình tuyến tính cũng kết hợp độ lệch.) Ngược lại, mối quan hệ giữa các tính năng với thông tin dự đoán trong mô hình sâu thường là nonlinear.

Mô hình tuyến tính thường dễ huấn luyện hơn và có thể diễn giải so với mô hình sâu. Tuy nhiên, các mô hình sâu có thể học những mối quan hệ phức tạp giữa các tính năng.

Hồi quy tuyến tính và hồi quy logistic là hai loại mô hình tuyến tính.

Nhấp vào biểu tượng để xem phép toán.

Mô hình tuyến tính tuân theo công thức sau:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

trong đó:

năm là dự đoán thô. (Trong một số loại mô hình tuyến tính, dự đoán thô sẽ được sửa đổi thêm. Ví dụ: hãy xem hồi quy logistic.)
b là độ lệch.
w là trọng số, vì vậy w₁ là trọng số của đối tượng đầu tiên, w₂ là trọng số của tính năng thứ hai và v.v.
x là một tính năng, vì vậy x₁ là giá trị của đối tượng thứ nhất, x₂ là giá trị của đối tượng thứ hai, và cứ tiếp tục như vậy.

Ví dụ: giả sử một mô hình tuyến tính cho ba đối tượng tìm hiểu những điều sau độ lệch và trọng số:

b = 7
w₁ = -2,5
w₂ = -1,2
w₃ = 1,4

Do đó, với ba tính năng (x₁, x₂, và x₃), mô hình tuyến tính sử dụng phương trình sau để tạo từng cụm từ gợi ý:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Giả sử một ví dụ cụ thể chứa các giá trị sau:

x₁ = 4
x₂ = -10
x₃ = 5

Việc đưa các giá trị đó vào công thức sẽ mang lại thông tin dự đoán cho ví dụ sau:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

Mô hình tuyến tính không chỉ bao gồm các mô hình chỉ sử dụng phương trình tuyến tính để đưa ra dự đoán mà còn đưa ra một tập hợp mô hình rộng hơn sử dụng phương trình tuyến tính chỉ là một thành phần của công thức đưa ra dự đoán. Ví dụ: hồi quy logistic sau khi xử lý dữ liệu thô dự đoán (y') để đưa ra giá trị dự đoán cuối cùng trong khoảng từ 0 đến 1, .

hồi quy tuyến tính

#fundamentals

Một loại mô hình học máy đáp ứng cả hai điều kiện sau:

Mô hình này là mô hình tuyến tính.
Thông tin dự đoán là một giá trị dấu phẩy động. (Đây là hồi quy là một phần của hồi quy tuyến tính.)

Đối chiếu hồi quy tuyến tính với hồi quy logistic. Ngoài ra, hãy đối chiếu sự hồi quy với phân loại.

hồi quy logistic

#fundamentals

Một loại mô hình hồi quy dự đoán một xác suất. Mô hình hồi quy logit có các đặc điểm sau đây:

Nhãn này phân loại. Thuật ngữ logistic hồi quy thường đề cập đến hồi quy logistic nhị phân, tức là vào mô hình tính xác suất cho nhãn có hai giá trị có thể có. Một biến thể ít phổ biến hơn, hồi quy logistic đa thức, tính xác suất cho nhãn có nhiều hơn hai giá trị có thể có.
Hàm mất trong quá trình huấn luyện là Log Loss (Mất nhật ký). (Bạn có thể đặt nhiều đơn vị tổn thất ghi nhật ký song song cho các nhãn có nhiều hơn hai giá trị có thể có).
Mô hình này có kiến trúc tuyến tính chứ không phải mạng nơron sâu. Tuy nhiên, phần còn lại của định nghĩa này cũng áp dụng cho các mô hình sâu dự đoán xác suất cho nhãn phân loại.

Ví dụ: hãy xem xét mô hình hồi quy logistic để tính toán xác suất email đầu vào là thư rác hoặc không phải thư rác. Trong quá trình suy luận, giả sử mô hình dự đoán 0,72. Do đó, đang ước tính:

72% khả năng email là thư rác.
28% khả năng email không phải là thư rác.

Mô hình hồi quy logistic sử dụng cấu trúc hai bước sau đây:

Mô hình này tạo ra dự đoán thô (y') bằng cách áp dụng hàm tuyến tính tính năng nhập.
Mô hình này sử dụng dự đoán thô đó làm dữ liệu đầu vào cho một hàm sigmoid, hàm này chuyển đổi dữ liệu thô cho giá trị dự đoán nằm trong khoảng từ 0 đến 1 và không bao gồm 0 và 1.

Giống như mọi mô hình hồi quy khác, mô hình hồi quy logistic dự đoán một con số. Tuy nhiên, số này thường trở thành một phần của phân loại nhị phân mô hình như sau:

Nếu số dự đoán lớn hơn ngưỡng phân loại, mô hình phân loại nhị phân dự đoán lớp dương.
Nếu số dự đoán ít hơn ngưỡng phân loại, mô hình phân loại nhị phân dự đoán lớp âm.

Mất nhật ký

#fundamentals

Hàm mất dùng trong tệp nhị phân hồi quy logistic.

Nhấp vào biểu tượng để xem phép toán.

Công thức sau đây tính tổn hao:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

trong đó:

$(x,y)\in D$ là tập dữ liệu chứa nhiều nhãn ví dụ như $(x,y)$ cặp.
$y$ là nhãn trong ví dụ được gắn nhãn. Vì đây là hồi quy logistic, mọi giá trị của $y$ phải là 0 hoặc 1.
$y'$ là giá trị dự đoán (không bao gồm 0 và 1), căn cứ vào bộ tính năng trong $x$.

tỷ lệ chênh lệch nhật ký

#fundamentals

Lôgarit của xác suất biến cố nào đó.

Nhấp vào biểu tượng để xem phép toán.

Nếu sự kiện là một xác suất nhị phân, thì tỷ lệ lẻ đề cập đến tỷ lệ xác suất thành công (p) so với xác suất thành công lỗi (1-p). Ví dụ: giả sử một sự kiện cụ thể có 90% xác suất thành công và xác suất thất bại 10%. Trong trường hợp này, tỷ lệ chênh lệch được tính như sau:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

Tỷ lệ lẻ logarit đơn giản là lôgarit của tỷ lệ. Theo quy ước, "logarit" đề cập đến logarit tự nhiên, nhưng lôgarit thực sự có thể là bất kỳ cơ số nào lớn hơn 1. Do đó, theo quy ước, số lẻ nhật ký trong ví dụ của chúng ta là:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

Hàm log-odds là nghịch đảo của hàm sigmoid.

thua

#fundamentals

Trong quá trình đào tạo về mô hình được giám sát, một thước đo về khoảng cách dự đoán của mô hình được lấy từ nhãn của mô hình đó.

Hàm mất tính giá trị tổn thất.

đường cong mức ngừng sử dụng

#fundamentals

Biểu đồ giảm là hàm của số lượng đào tạo vòng lặp. Biểu đồ sau đây thể hiện mức tổn thất thông thường đường cong:

Một đồ thị Descartes về số lượng mất mát so với số lần lặp lại quá trình huấn luyện, cho thấy
mức giảm nhanh trong những lần lặp lại đầu tiên, sau đó giảm dần
rồi giảm dần đều trong vòng lặp cuối cùng.

Đường cong tổn thất có thể giúp bạn xác định thời điểm mô hình hội nghị hoặc trang bị quá mức.

Đường cong tổn thất có thể biểu thị tất cả các loại tổn thất sau đây:

mất mát về huấn luyện
mất tính xác thực
kiểm thử mất mát

Xem thêm đường cong tổng quát.

hàm mất

#fundamentals

Trong quá trình đào tạo hoặc kiểm thử, để tính toán tổn thất trong một lô ví dụ. Hàm tổn thất trả về giá trị tổn thất thấp hơn cho những mô hình đưa ra dự đoán tốt hơn là các mô hình đưa ra các dự đoán không hợp lệ.

Mục tiêu của việc huấn luyện thường là giảm thiểu tổn thất mà một hàm mất đi lợi nhuận.

Có nhiều loại hàm mất dữ liệu. Chọn mức tổn thất phù hợp cho loại mô hình mà bạn đang xây dựng. Ví dụ:

Mất L₂ (hoặc Lỗi bình phương trung bình) là hàm mất mát đối với hồi quy tuyến tính.
Log Loss (Mất nhật ký) là hàm mất cho hồi quy logistic.

M

học máy

#fundamentals

Một chương trình hoặc hệ thống đào tạo model từ dữ liệu đầu vào. Mô hình được huấn luyện có thể đưa ra dự đoán hữu ích từ dữ liệu mới (chưa từng thấy) rút ra từ phân phối giống như phân phối dùng để huấn luyện mô hình.

Công nghệ học máy cũng đề cập đến lĩnh vực nghiên cứu có liên quan bằng các chương trình hoặc hệ thống này.

tầng lớp đa số

#fundamentals

Nhãn phổ biến hơn trong tập dữ liệu không cân bằng về lớp. Ví dụ: Khi cho tập dữ liệu có chứa 99% nhãn âm và 1% nhãn dương, nhãn tiêu cực là nhãn tiêu biểu chiếm đa số.

Tương phản với lớp thiểu số.

lô nhỏ

#fundamentals

Một tập hợp con nhỏ, được chọn ngẫu nhiên trong một lô được xử lý trong một vòng lặp. Kích thước lô của một lô nhỏ thường là từ 10 đến 1.000 ví dụ.

Ví dụ: giả sử toàn bộ tập huấn luyện (toàn bộ lô) bao gồm 1.000 ví dụ. Giả sử thêm rằng bạn đặt kích thước lô của mỗi lô nhỏ thành 20. Do đó, mỗi lặp lại xác định tổn thất trên ngẫu nhiên 20 trong số 1.000 ví dụ và sau đó điều chỉnh trọng số và độ lệch cho phù hợp.

Việc tính toán tổn thất trong một lô nhỏ sẽ hiệu quả hơn nhiều so với tất cả các ví dụ trong toàn bộ lô sẽ bị mất.

giai cấp dân tộc thiểu số

#fundamentals

Nhãn ít phổ biến hơn trong tập dữ liệu không cân bằng về lớp. Ví dụ: Khi cho tập dữ liệu có chứa 99% nhãn âm và 1% nhãn dương, nhãn khẳng định là thuộc nhóm thiểu số.

Tương phản với lớp đại diện.

Nhấp vào biểu tượng để xem thêm ghi chú.

Một bộ nội dung đào tạo có hàng triệu ví dụ ấn tượng. Tuy nhiên, nếu tầng lớp thiểu số được đại diện không tốt, thì ngay cả một bộ đào tạo rất lớn cũng có thể không đủ. Ẩn bớt dựa trên tổng số ví dụ trong tập dữ liệu và nhiều hơn nữa về số lượng ví dụ trong lớp thiểu số.

Nếu tập dữ liệu của bạn không chứa đủ các ví dụ về lớp thiểu số, hãy cân nhắc sử dụng giảm tần số lấy mẫu (định nghĩa ở dấu đầu dòng thứ hai) để bổ trợ cho tầng lớp dân tộc thiểu số.

kiểu máy

#fundamentals

Nhìn chung, mọi cấu trúc toán học xử lý dữ liệu đầu vào và trả về đầu ra. Nói theo cách khác, mô hình là tập hợp các tham số và cấu trúc cần thiết để hệ thống đưa ra dự đoán. Trong công nghệ học máy có giám sát, mô hình sẽ lấy ví dụ làm dữ liệu đầu vào và suy ra đề xuất làm dữ liệu đầu ra. Trong công nghệ học máy có giám sát, các mô hình khác nhau đôi chút. Ví dụ:

Mô hình hồi quy tuyến tính bao gồm một tập hợp trọng số và độ thiên vị.
Mô hình mạng nơron bao gồm:
- Một tập hợp lớp ẩn, mỗi lớp có chứa một hoặc tế bào thần kinh khác.
- Trọng số và độ chệch liên quan đến mỗi nơron.
Mô hình cây quyết định bao gồm:
- Hình dạng của cây; tức là mẫu mà các điều kiện và lá cây nối liền với nhau.
- Tình trạng và lá cây.

Bạn có thể lưu, khôi phục hoặc tạo bản sao của mô hình.

Công nghệ học máy không giám sát cũng tạo các mô hình, thường là một hàm có thể ánh xạ một mẫu đầu vào đến cụm phù hợp nhất.

Nhấp vào biểu tượng này để so sánh hàm đại số và hàm lập trình với mô hình học máy.

Hàm đại số, chẳng hạn như sau là một mô hình:

  f(x, y) = 3x -5xy + y² + 17

Hàm trên ánh xạ các giá trị đầu vào (x và y) đến đầu ra.

Tương tự, hàm lập trình như sau cũng là một mô hình:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

Phương thức gọi truyền các đối số đến hàm Python trước đó, và Hàm Python tạo kết quả (thông qua câu lệnh return).

Mặc dù mạng nơron sâu có cấu trúc toán học rất khác so với đại số hoặc lập trình mạng nơron sâu vẫn nhận dữ liệu đầu vào (ví dụ) rồi trả về đầu ra (dự đoán).

Một lập trình viên viết mã cho một hàm lập trình theo cách thủ công. Ngược lại, một mô hình học máy dần dần học các tham số tối ưu trong quá trình đào tạo tự động.

phân loại nhiều lớp

#fundamentals

Trong phương pháp học có giám sát, vấn đề về phân loại trong đó tập dữ liệu chứa hơn 2 lớp nhãn. Ví dụ: nhãn trong tập dữ liệu Iris phải là một trong các nhãn sau 3 lớp:

Hoa diên vĩ
Hoa diên vĩ
Hoa diên vĩ

Một mô hình được huấn luyện trên tập dữ liệu Iris nhằm dự đoán loại Iris dựa trên các ví dụ mới là thực hiện phân loại nhiều lớp.

Ngược lại, bài toán phân loại phân biệt chính xác hai là mô hình phân loại nhị phân. Ví dụ: mô hình email dự đoán thư rác hoặc không phải thư rác là mô hình phân loại nhị phân.

Trong các bài toán phân cụm, phân loại nhiều lớp đề cập đến hơn 2 cụm.

Không

lớp phủ định

#fundamentals

Trong phân loại nhị phân, một lớp là được gọi là tích cực và giá trị còn lại được gọi là âm. Lớp dương là đối tượng hoặc sự kiện mà mô hình đang thử nghiệm và lớp phủ định là khả năng khác. Ví dụ:

Lớp âm tính trong xét nghiệm y tế có thể là "không phải khối u".
Lớp phủ định trong thuật toán phân loại email có thể là "không phải thư rác".

Tương phản với lớp học tích cực.

mạng nơron

#fundamentals

Một mô hình chứa ít nhất một lớp ẩn. Mạng nơron sâu là một loại mạng nơron có chứa nhiều hơn một lớp ẩn. Ví dụ: biểu đồ sau đây cho thấy một mạng nơron sâu chứa hai lớp ẩn.

Mạng nơron với một lớp đầu vào, hai lớp ẩn và một
tầng đầu ra.

Mỗi nơron trong mạng nơron sẽ kết nối với tất cả các nút trong lớp tiếp theo. Ví dụ: trong biểu đồ trước, lưu ý rằng mỗi nơron trong số ba nơron trong lớp ẩn đầu tiên kết nối riêng rẽ với cả hai nơron trong lớp ẩn thứ hai.

Mạng nơron được triển khai trên máy tính đôi khi được gọi là mạng nơron nhân tạo để phân biệt chúng với mạng nơron có trong não bộ và các hệ thần kinh khác.

Một số mạng nơron có thể bắt chước các mối quan hệ phi tuyến cực kỳ phức tạp giữa các tính năng khác nhau và nhãn.

Xem thêm về mạng nơron tích chập và mạng nơron tái phát.

nơron

#fundamentals

Trong công nghệ học máy, một đơn vị riêng biệt nằm trong lớp ẩn của mạng nơron. Mỗi nơron thực hiện những việc sau hành động hai bước:

Tính tổng có trọng số của các giá trị đầu vào được nhân theo trọng số tương ứng.
Truyền tổng có trọng số dưới dạng dữ liệu đầu vào vào chức năng kích hoạt.

Một nơron trong lớp ẩn đầu tiên chấp nhận dữ liệu đầu vào từ các giá trị của đối tượng trong lớp đầu vào. Nơ-ron trong lớp ẩn bất kỳ bên ngoài phần tử đầu tiên chấp nhận dữ liệu đầu vào từ nơron trong lớp ẩn trước đó. Ví dụ: một nơron trong lớp ẩn thứ hai chấp nhận dữ liệu đầu vào từ nơron trong lớp ẩn đầu tiên.

Hình minh hoạ sau đây làm nổi bật hai nơron và đầu vào.

Mạng nơron với một lớp đầu vào, hai lớp ẩn và một
tầng đầu ra. Hai nơron được đánh dấu: một trong tế bào đầu tiên
lớp ẩn và một ở lớp ẩn thứ hai. Các
nơron trong lớp ẩn đầu tiên nhận dữ liệu đầu vào từ cả hai đối tượng
trong lớp đầu vào. Tế bào thần kinh được đánh dấu trong lớp ẩn thứ hai
nhận dữ liệu đầu vào từ mỗi 3 nơron ở ẩn thứ nhất
lớp.

Tế bào thần kinh trong mạng nơron bắt chước hành vi của các nơron trong não và các bộ phận khác của hệ thần kinh.

nút (mạng nơron)

#fundamentals

Một nơ-ron trong một lớp ẩn.

nonlinear

#fundamentals

Mối quan hệ giữa hai hoặc nhiều biến không thể duy nhất được biểu thị bằng cách cộng và nhân. Mối quan hệ tuyến tính có thể được biểu diễn dưới dạng đường; một mối quan hệ nonlinear không thể được biểu diễn dưới dạng đường. Ví dụ: hãy xem xét hai mô hình mà mỗi mô hình đều liên quan đến một đối tượng vào một nhãn duy nhất. Mô hình bên trái là mô hình tuyến tính và mô hình ở bên phải là phi tuyến tính:

2 lô đất. Mỗi biểu đồ là một đường, vì vậy đây là mối quan hệ tuyến tính.
Biểu đồ còn lại là một đường cong, vì vậy đây là mối quan hệ phi tuyến tính.

tính không ổn định

#fundamentals

Một đối tượng có các giá trị thay đổi theo một hoặc nhiều phương diện, thường là thời gian. Ví dụ: hãy xem xét các ví dụ sau về tính không ổn định:

Số lượng đồ bơi được bán tại một cửa hàng cụ thể sẽ thay đổi theo mùa.
Số lượng trái cây được thu hoạch trong một khu vực cụ thể bằng 0 trong hầu hết thời gian trong năm nhưng lớn trong một khoảng thời gian ngắn.
Do biến đổi khí hậu, nhiệt độ trung bình hằng năm đang thay đổi.

Tương phản với tính không cố định.

chuẩn hoá

#fundamentals

Nói chung, quá trình chuyển đổi phạm vi thực tế của một biến thành một dải giá trị chuẩn, chẳng hạn như:

-1 đến +1
0 đến 1
phân phối chuẩn

Ví dụ: giả sử phạm vi giá trị thực tế của một đối tượng nhất định là 800 đến 2.400. Trong quá trình kỹ thuật trích xuất tính năng, bạn có thể chuẩn hoá các giá trị thực tế xuống phạm vi chuẩn, chẳng hạn như từ -1 đến +1.

Chuẩn hoá là một nhiệm vụ phổ biến trong kỹ thuật trích xuất tính chất. Người mẫu thường huấn luyện nhanh hơn (và dự đoán chính xác hơn) khi mỗi đối tượng dạng số trong vectơ đối tượng có gần như cùng phạm vi.

dữ liệu số

#fundamentals

Các đối tượng được biểu thị dưới dạng số nguyên hoặc số có giá trị thực. Ví dụ: một mô hình định giá nhà có thể sẽ đại diện cho kích thước của một ngôi nhà (tính bằng feet vuông hoặc mét vuông) dưới dạng dữ liệu số. Đại diện cho một đối tượng dưới dạng dữ liệu số cho biết rằng các giá trị của đối tượng mối quan hệ toán học với nhãn. Tức là số mét vuông của một ngôi nhà có thể mối quan hệ toán học với giá trị của ngôi nhà.

Không phải tất cả dữ liệu số nguyên đều được biểu diễn dưới dạng dữ liệu số. Ví dụ: mã bưu điện ở một số nơi trên thế giới là số nguyên; tuy nhiên, mã bưu chính số nguyên mã sẽ không được biểu thị dưới dạng dữ liệu số trong mô hình. Đó là vì một mã bưu chính của 20000 không mạnh gấp đôi (hoặc một nửa) so với mã bưu chính của 10000. Hơn nữa, mặc dù các mã bưu chính khác nhau có tương quan với giá trị bất động sản, chúng tôi không thể giả định rằng giá trị bất động sản tại mã bưu chính 20000 có giá trị gấp đôi giá trị bất động sản ở mã bưu chính 10000. Mã bưu chính phải được thể hiện dưới dạng dữ liệu phân loại thay thế.

Các đối tượng số đôi khi được gọi là các tính năng liên tục.

O

ngoại tuyến

#fundamentals

Từ đồng nghĩa với tĩnh.

suy luận ngoại tuyến

#fundamentals

Quy trình mô hình tạo một loạt các dự đoán rồi lưu vào bộ nhớ đệm (lưu) những dự đoán đó. Sau đó, ứng dụng có thể truy cập vào dữ liệu dự đoán từ bộ nhớ đệm thay vì chạy lại mô hình.

Chẳng hạn hãy cân nhắc một mô hình tạo ra thông tin dự báo thời tiết tại địa phương (dự đoán) 4 giờ một lần. Sau khi mỗi mô hình chạy, hệ thống sẽ lưu vào bộ nhớ đệm tất cả dự báo thời tiết địa phương. Ứng dụng thời tiết truy xuất dự báo khỏi bộ nhớ đệm.

Suy luận ngoại tuyến còn được gọi là suy luận tĩnh.

Trái ngược với suy luận trực tuyến.

mã hoá một nóng

#fundamentals

Biểu diễn dữ liệu phân loại dưới dạng vectơ trong đó:

Một phần tử được đặt thành 1.
Tất cả các phần tử khác đều được đặt thành 0.

Phương thức mã hoá một lần thường dùng để biểu thị các chuỗi hoặc giá trị nhận dạng có một tập hợp hữu hạn các giá trị khả dĩ. Ví dụ: giả sử một đối tượng phân loại nhất định có tên Scandinavia có thể có 5 giá trị:

"Đan Mạch"
"Thuỵ Điển"
"Na Uy"
"Phần Lan"
"Iceland"

Phương thức mã hoá một nóng có thể đại diện cho từng giá trị trong số năm giá trị sau:

country	Vectơ
"Đan Mạch"	1	0	0	0	0
"Thuỵ Điển"	0	1	0	0	0
"Na Uy"	0	0	1	0	0
"Phần Lan"	0	0	0	1	0
"Iceland"	0	0	0	0	1

Nhờ phương pháp mã hoá một nhiệt, một mô hình có thể học các kết nối khác nhau dựa trên từng quốc gia trong số 5 quốc gia.

Biểu thị một đối tượng dưới dạng dữ liệu số là thay thế cho mã hoá một nóng. Thật không may, đại diện cho Các quốc gia Bắc Âu theo số lượng không phải là lựa chọn tốt. Ví dụ: hãy xem xét biểu diễn dưới đây bằng số:

"Đan Mạch" là 0
"Thuỵ Điển" là 1
"Na Uy" là 2
"Phần Lan" là 3
"Iceland" là 4

Với mã hoá số, mô hình sẽ diễn giải các số thô về mặt toán học và sẽ cố gắng rèn luyện dựa trên các con số đó. Tuy nhiên, Iceland không thực sự nhiều gấp đôi (hoặc một nửa) so với mang tên Na Uy, do đó mô hình sẽ đi đến một số kết luận kỳ lạ.

một-với-tất-cả

#fundamentals

Với một bài toán phân loại có N lớp, một dung dịch gồm N riêng biệt thuật toán phân loại nhị phân – một thuật toán phân loại nhị phân cho từng kết quả có thể xảy ra. Ví dụ: với một mô hình phân loại các ví dụ chẳng hạn như động vật, rau củ hoặc khoáng chất, một giải pháp "thay đổi" sẽ mang lại sau đây là 3 thuật toán phân loại nhị phân riêng biệt:

động vật so với không động vật
rau củ và không nên ăn
khoáng sản so với không khoáng chất

trực tuyến

#fundamentals

Từ đồng nghĩa với động.

suy luận trực tuyến

#fundamentals

Tạo thông tin dự đoán theo yêu cầu. Ví dụ: giả sử một ứng dụng truyền dữ liệu đầu vào đến một mô hình và đưa ra yêu cầu cho một truy vấn dự đoán. Hệ thống sử dụng suy luận trực tuyến để phản hồi yêu cầu bằng cách chạy mô hình (và trả về thông tin dự đoán cho ứng dụng).

Trái ngược với suy luận ngoại tuyến.

tầng đầu ra

#fundamentals

"Trận chung kết" lớp của mạng nơron. Lớp đầu ra chứa thông tin dự đoán.

Hình minh hoạ sau đây cho thấy một mạng nơron sâu nhỏ có đầu vào lớp, hai lớp ẩn và một lớp đầu ra:

khái quát hoá kém

#fundamentals

Tạo mô hình khớp với dữ liệu huấn luyện chặt chẽ đến mức mô hình không thể đưa ra dự đoán chính xác về dữ liệu mới.

Phương pháp điều chỉnh tần suất có thể giảm tình trạng áp dụng quá mức. Việc tập luyện trên một bộ bài tập lớn và đa dạng cũng có thể giảm thiểu việc tập quá mức.

Nhấp vào biểu tượng để xem thêm ghi chú.

Việc kết hợp quá mức giống như việc chỉ làm theo lời khuyên của nhà sáng tạo mà bạn yêu thích giáo viên. Cậu có thể sẽ thành công trong lớp học của giáo viên đó, nhưng cậu có thể "overfit" theo ý tưởng của giáo viên đó và không thành công trong các thử nghiệm khác khác. Làm theo lời khuyên của nhiều giáo viên sẽ giúp bạn thích ứng tốt hơn với tình huống mới.

Điểm

gấu trúc

#fundamentals

API phân tích dữ liệu hướng cột, được xây dựng dựa trên numpy. Nhiều khung máy học, bao gồm cả TensorFlow, hỗ trợ các cấu trúc dữ liệu gấu trúc làm dữ liệu đầu vào. Xem tài liệu về gấu trúc để biết thông tin chi tiết.

tham số

#fundamentals

Các trọng số và độ lệch mà một mô hình học được trong quá trình đào tạo. Ví dụ: trong một hồi quy tuyến tính, các tham số bao gồm độ lệch (b) và tất cả các trọng số (w₁, w₂, v.v.) trong công thức sau:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Ngược lại, siêu tham số là các giá trị mà bạn (hoặc dịch vụ xoay siêu tham số) cho mô hình. Ví dụ: tốc độ học tập là một siêu tham số.

lớp giá trị dương

#fundamentals

Lớp mà bạn đang kiểm thử.

Ví dụ: lớp dương tính trong mô hình ung thư có thể là "khối u". Lớp khẳng định trong thuật toán phân loại email có thể là "thư rác".

Tương phản với lớp phủ định.

Nhấp vào biểu tượng để xem thêm ghi chú.

Thuật ngữ lớp tích cực có thể gây nhầm lẫn vì giá trị "tích cực" kết quả của nhiều thử nghiệm thường là kết quả không mong muốn. Ví dụ: lớp dương trong nhiều xét nghiệm y tế tương ứng với khối u hoặc bệnh tật. Nhìn chung, bạn muốn có một bác sĩ nói với bạn: "Xin chúc mừng! Kết quả xét nghiệm của bạn là âm tính". Bất kể thế nào, lớp dương là sự kiện mà chương trình kiểm thử đang muốn tìm.

Phải thừa nhận rằng bạn đang thử nghiệm đồng thời cả khía cạnh tích cực lẫn tiêu cực khác.

hậu xử lý

#fairness

#fundamentals

Điều chỉnh đầu ra của mô hình sau khi chạy mô hình. Xử lý hậu kỳ có thể được sử dụng để thực thi các ràng buộc về tính công bằng mà không cần tự sửa đổi mô hình.

Ví dụ: có thể áp dụng xử lý hậu kỳ cho thuật toán phân loại nhị phân bằng cách đặt ngưỡng phân loại sao cho cơ hội bình đẳng được duy trì cho một số thuộc tính bằng cách kiểm tra xem tỷ lệ dương thực sự giống nhau đối với tất cả các giá trị của thuộc tính đó.

dự đoán

#fundamentals

Đầu ra của mô hình. Ví dụ:

Dự đoán của mô hình phân loại nhị phân là giá trị dương hoặc lớp phủ định.
Thông tin dự đoán của mô hình phân loại nhiều lớp là một lớp.
Dự đoán của mô hình hồi quy tuyến tính là một con số.

nhãn proxy

#fundamentals

Dữ liệu dùng để ước tính nhãn không có trực tiếp trong một tập dữ liệu.

Ví dụ: giả sử bạn phải huấn luyện một mô hình để dự đoán nhân viên mức độ căng thẳng. Tập dữ liệu của bạn có chứa nhiều tính năng dự đoán, nhưng không chứa nhãn có tên mức độ căng thẳng. Không lo lắng, bạn chọn "tai nạn nơi làm việc" dưới dạng nhãn proxy cho mức độ căng thẳng. Sau cùng, nhân viên đang chịu áp lực cao sẽ làm việc hiệu quả hơn hơn so với những nhân viên bình tĩnh. Có đúng như vậy không? Có thể là tai nạn nơi làm việc có thể tăng và giảm vì nhiều lý do.

Ví dụ thứ hai, giả sử bạn muốn mưa có mưa không? làm nhãn Boolean cho tập dữ liệu của bạn, nhưng tập dữ liệu không chứa dữ liệu về mưa. Nếu có sẵn hình ảnh, bạn có thể đặt hình ảnh của mọi người mang ô làm nhãn đại diện cho câu hỏi trời có mưa không? Có phải là một nhãn proxy tốt? Có thể, nhưng mọi người ở một số nền văn hoá có thể có nhiều khả năng mang theo ô để chống nắng hơn là mưa.

Nhãn proxy thường không hoàn hảo. Khi có thể, hãy chọn nhãn thực tế nhãn proxy. Tức là khi không có nhãn thực tế, hãy chọn proxy nhãn rất kỹ, chọn đề xuất nhãn đại diện ít kinh khủng nhất.

Điểm

RAG

#fundamentals

Từ viết tắt của công nghệ tạo tăng cường truy xuất.

người đánh giá

#fundamentals

Người cung cấp nhãn cho ví dụ. "Người chú thích" là một tên khác của người đánh giá.

Đơn vị tuyến tính chỉnh sửa (ReLU)

#fundamentals

Hàm kích hoạt có hành vi sau:

Nếu đầu vào là số âm hoặc 0 thì đầu ra sẽ bằng 0.
Nếu đầu vào là số dương thì đầu ra sẽ bằng đầu vào.

Ví dụ:

Nếu đầu vào là -3 thì đầu ra là 0.
Nếu đầu vào là +3, thì đầu ra là 3.0.

Dưới đây là cốt truyện của ReLU:

ReLU là một hàm kích hoạt rất phổ biến. Mặc dù có hành vi đơn giản, ReLU vẫn cho phép mạng nơron tìm hiểu nonlinear mối quan hệ giữa tính năng và nhãn.

mô hình hồi quy

#fundamentals

Một mô hình đưa ra dự đoán dạng số một cách chính thức. (Ngược lại, mô hình phân loại sẽ tạo một lớp prediction.) Ví dụ: sau đây là tất cả các mô hình hồi quy:

Mô hình dự đoán giá trị của một ngôi nhà nhất định, chẳng hạn như 423.000 Euro.
Một mô hình dự đoán tuổi thọ của một cây nhất định, chẳng hạn như 23,2 năm.
Một mô hình dự báo lượng mưa sẽ rơi ở một thành phố cụ thể trong sáu giờ tiếp theo, chẳng hạn như 0,18 inch.

Hai loại mô hình hồi quy phổ biến là:

Hồi quy tuyến tính: tìm đường phù hợp nhất khớp giá trị nhãn với các đối tượng.
Hồi quy logistic, từ đó tạo ra xác suất từ 0,0 đến 1,0 mà sau đó một hệ thống thường ánh xạ đến một lớp truy vấn dự đoán.

Không phải mọi mô hình đưa ra dự đoán dạng số đều là mô hình hồi quy. Trong một số trường hợp, dự đoán dạng số chỉ thực sự là một mô hình phân loại có tên lớp dạng số. Ví dụ: một mô hình dự đoán mã bưu chính dạng số là một mô hình phân loại, không phải là mô hình hồi quy.

điều hoà

#fundamentals

Bất kỳ cơ chế nào làm giảm khả năng trang bị quá mức. Các kiểu điều chỉnh phổ biến bao gồm:

Điều chỉnh L₁
Điều chỉnh L₂
chuẩn hoá tỷ lệ bỏ học
chấm dứt sớm (đây không phải là phương pháp điều chỉnh, nhưng có thể hạn chế tình trạng quá mức một cách hiệu quả)

Quy ước cũng có thể được định nghĩa là hình phạt đối với sự phức tạp của mô hình.

Nhấp vào biểu tượng để xem thêm ghi chú.

Việc điều chỉnh đều đặn là khác thường. Thường tăng mức độ điều chỉnh tăng thời gian đào tạo, điều này gây nhầm lẫn vì mục tiêu là giảm thiểu thời gian tập luyện?

Thực ra là không. Mục tiêu không phải là giảm thiểu số lần mất tập luyện. Mục tiêu là đưa ra dự đoán xuất sắc về các ví dụ thực tế. Đáng chú ý, mặc dù làm tăng mức độ thường xuyên hoá làm tăng thời gian huấn luyện, điều này thường giúp các mô hình dự đoán chính xác hơn dựa trên các ví dụ thực tế.

tỷ lệ điều chỉnh

#fundamentals

Số chỉ định tầm quan trọng tương đối của chuẩn hoá trong quá trình đào tạo. Nâng tỷ lệ điều chỉnh giảm quá mức phù hợp, nhưng vẫn có thể giảm công suất dự đoán của mô hình. Ngược lại, hãy giảm hoặc bỏ qua thì tỷ lệ điều chỉnh tăng lên.

Nhấp vào biểu tượng để xem phép toán.

Tỷ lệ chuẩn hoá thường được biểu thị dưới dạng lambda chữ cái Hy Lạp. Phương trình mất được đơn giản hoá sau đây cho thấy ảnh hưởng của lambda:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

trong đó chính quy là bất kỳ cơ chế chính quy nào, bao gồm;

Điều chỉnh L₁
Điều chỉnh L₂

ReLU

#fundamentals

Từ viết tắt của Đơn vị tuyến tính được chỉnh sửa.

tạo tăng cường truy xuất (RAG)

#fundamentals

Một kỹ thuật để cải thiện chất lượng của Đầu ra mô hình ngôn ngữ lớn (LLM) bằng cách dựa vào các nguồn kiến thức truy xuất được sau khi mô hình được huấn luyện. RAG cải thiện độ chính xác của các câu trả lời cho các mô hình ngôn ngữ lớn bằng cách cung cấp cho các mô hình ngôn ngữ lớn (LLM) đã được huấn luyện quyền truy cập vào thông tin truy xuất được từ các cơ sở kiến thức hoặc tài liệu đáng tin cậy.

Sau đây là những động lực phổ biến liên quan đến việc sử dụng tính năng tạo tăng cường truy xuất:

Tăng độ chính xác thực tế của các câu trả lời do mô hình tạo ra.
Cấp cho mô hình này quyền tiếp cận kiến thức mà mô hình không được huấn luyện.
Thay đổi kiến thức mà mô hình sử dụng.
Bật mô hình để trích dẫn nguồn.

Ví dụ: giả sử một ứng dụng hoá học dùng PaLM API để tạo bản tóm tắt liên quan đến truy vấn của người dùng. Khi phần phụ trợ của ứng dụng nhận được một truy vấn, phần phụ trợ sẽ:

Tìm kiếm dữ liệu ("truy xuất") có liên quan đến truy vấn của người dùng.
Thêm ("tăng cường") dữ liệu hoá học có liên quan vào truy vấn của người dùng.
Hướng dẫn LLM tạo bản tóm tắt dựa trên dữ liệu được thêm vào.

Đường cong ROC (đặc tính hoạt động của máy thu)

#fundamentals

Biểu đồ về tỷ lệ dương tính thực so với tỷ lệ dương tính giả đối với các sản phẩm khác nhau ngưỡng phân loại ở dạng tệp nhị phân của bạn.

Hình dạng của đường cong ROC cho thấy khả năng của mô hình phân loại nhị phân để phân tách lớp khẳng định khỏi lớp phủ định. Ví dụ: giả sử rằng mô hình phân loại nhị phân sẽ tách hoàn toàn mọi giá trị âm các lớp từ tất cả các lớp tích cực:

Một dòng số có 8 ví dụ dương ở bên phải và
7 ví dụ phủ định ở bên trái.

Đường cong ROC của mô hình trước đó có dạng như sau:

Đường cong ROC. Trục x là Tỷ lệ dương tính giả và trục y
là Tỷ lệ dương thực. Đường cong có hình chữ L ngược. Đường cong
bắt đầu tại (0,0,0,0) và đi thẳng đến (0,0,1,0). Sau đó, đường cong
đi từ (0,0,1,0) đến (1,0,1,0).

Ngược lại, hình minh hoạ sau đây vẽ biểu đồ hồi quy logistic thô các giá trị của một mô hình rất tệ không thể tách các lớp phủ định khỏi những lớp học tích cực:

Dòng số có ví dụ dương và lớp phủ định
được kết hợp hoàn toàn.

Đường cong ROC của mô hình này được thể hiện như sau:

Đường cong ROC (ROC) là một đường thẳng từ (0,0,0,0)
đến (1,0,1,0).

Trong khi đó, trong thực tế, hầu hết các mô hình phân loại nhị phân đều tách riêng lớp học tích cực và tiêu cực ở một mức độ nào đó, nhưng thường không hoàn hảo. Vì vậy, đường cong ROC điển hình nằm ở đâu đó giữa hai cực:

Đường cong ROC. Trục x là Tỷ lệ dương tính giả và trục y
là Tỷ lệ dương thực. Đường cong ROC gần đúng một cung tròn rung
di chuyển qua các điểm la bàn từ Tây sang Bắc.

Điểm trên đường cong ROC gần nhất với (0,0,1,0) về mặt lý thuyết xác định ngưỡng phân loại lý tưởng. Tuy nhiên, một số vấn đề thực tế khác ảnh hưởng đến việc lựa chọn ngưỡng phân loại lý tưởng. Ví dụ: có lẽ âm tính giả gây đau đớn hơn nhiều so với dương tính giả.

Chỉ số bằng số có tên là AUC tóm tắt đường cong ROC thành một giá trị dấu phẩy động duy nhất.

sai số trung bình bình phương (RMSE)

#fundamentals

Căn bậc hai của Lỗi bình phương trung bình.

CN

hàm sigmoid

#fundamentals

Một hàm toán học "squishes" giá trị đầu vào vào trong một dải ô bị giới hạn, thường có giá trị từ 0 đến 1 hoặc -1 đến +1. Tức là bạn có thể chuyển bất kỳ số nào (hai, một triệu, tỷ lệ âm, bất kỳ) nào thành một sigmoid và đầu ra vẫn sẽ nằm trong phạm vi bị hạn chế. Biểu đồ của hàm kích hoạt sigmoid có dạng như sau:

Hàm sigmoid có một số cách sử dụng trong học máy, bao gồm:

Chuyển đổi đầu ra thô của hồi quy logistic hoặc hồi quy đa thức thành một xác suất.
Hoạt động như chức năng kích hoạt trong một số mạng nơron.

Nhấp vào biểu tượng để xem phép toán.

Hàm sigmoid trên số đầu vào x có công thức như sau:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

Trong công nghệ học máy, x thường là một tổng có trọng số.

softmax

#fundamentals

Một hàm xác định xác suất cho mỗi lớp có thể có trong một mô hình phân loại nhiều lớp. Xác suất cộng lại chính xác là 1.0. Ví dụ: bảng sau đây cho biết cách Softmax phân phối xác suất khác nhau:

Hình ảnh là...	Xác suất
chó	0,85
cat	0,13
con ngựa	0,02

Softmax còn được gọi là softmax đầy đủ.

Ngược lại với tính năng lấy mẫu đề xuất.

Nhấp vào biểu tượng để xem phép toán.

Phương trình Softmax như sau:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

trong đó:

$\sigma_i$ là vectơ đầu ra. Mỗi phần tử của vectơ đầu ra chỉ định xác suất của phần tử này. Tổng của tất cả các phần tử trong vectơ đầu ra là 1.0. Vectơ đầu ra chứa cùng một số có các phần tử làm vectơ đầu vào, $z$.
$z$ là vectơ đầu vào. Mỗi phần tử của vectơ đầu vào chứa một giá trị dấu phẩy động.
$K$ là số phần tử trong vectơ đầu vào (và đầu ra) vectơ).

Ví dụ: giả sử vectơ đầu vào là:

[1.2, 2.5, 1.8]

Do đó, Softmax tính mẫu số như sau:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

Do đó, xác suất softmax của mỗi phần tử là:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

Do đó, vectơ đầu ra là:

$$\sigma = [0.154, 0.565, 0.281]$$

Tổng của ba phần tử trong $\sigma$ là 1,0. Chà!

tính chất thưa thớt

#language

#fundamentals

Một tính năng có giá trị chủ yếu bằng 0 hoặc trống. Ví dụ: đối tượng chứa giá trị số 1 và một triệu giá trị 0 là thưa thớt. Ngược lại, tính năng dày đặc có các giá trị chủ yếu không phải là số 0 hoặc dữ liệu trống.

Trong công nghệ học máy, có nhiều tính năng đáng ngạc nhiên là các tính năng thưa thớt. Đối tượng phân loại thường là các đối tượng thưa thớt. Ví dụ: trong số 300 loài cây có thể có trong một khu rừng, một ví dụ duy nhất có thể chỉ xác định một cây phong. Hoặc trong số hàng triệu video có thể sử dụng trong thư viện video, một ví dụ duy nhất có thể xác định chỉ là "Casablanca".

Trong một mô hình, bạn thường biểu thị các đối tượng thưa thớt bằng mã hoá một nóng. Nếu mã hoá một nóng có kích thước lớn, bạn có thể đặt một lớp nhúng ở trên mã hoá một lần để đạt được hiệu quả cao hơn.

biểu diễn thưa

#language

#fundamentals

Chỉ lưu trữ (các) vị trí của các phần tử khác 0 trong một đối tượng thưa thớt.

Ví dụ: giả sử một đối tượng phân loại có tên species xác định 36 các loài cây trong một khu rừng cụ thể. Giả sử thêm rằng mỗi ví dụ chỉ xác định một loài duy nhất.

Bạn có thể sử dụng vectơ một nóng để biểu thị loài cây trong mỗi ví dụ. Vectơ một nóng sẽ chứa một 1 duy nhất (để biểu thị các loài cây cụ thể trong ví dụ đó) và 35 0 (để thể hiện 35 loài cây không có trong ví dụ đó). Vì vậy, đại diện phổ biến nhất của maple có thể có dạng như sau:

Vectơ trong đó các vị trí từ 0 đến 23 giữ giá trị 0, vị trí
24 giữ giá trị 1 và các vị trí từ 25 đến 35 giữ giá trị 0.

Ngoài ra, cách biểu diễn thưa thớt sẽ chỉ đơn giản là xác định vị trí của loài cụ thể. Nếu maple ở vị trí 24, thì biểu diễn thưa của maple sẽ đơn giản là:

Lưu ý rằng biểu diễn thưa thớt nhỏ gọn hơn nhiều so với biểu diễn một nóng đại diện.

Nhấp vào biểu tượng để xem ví dụ phức tạp hơn một chút.

Giả sử mỗi ví dụ trong mô hình của bạn phải đại diện cho các từ, nhưng không thứ tự của những từ đó – trong một câu tiếng Anh. Tiếng Anh bao gồm khoảng 170.000 từ, vì vậy tiếng Anh là một phân loại với khoảng 170.000 phần tử. Hầu hết các câu tiếng Anh đều sử dụng rất nhỏ trong 170.000 từ đó, nên tập hợp từ trong một cụm từ thì gần như chắc chắn sẽ có dữ liệu thưa thớt.

Hãy xem xét câu sau:

My dog is a great dog

Bạn có thể sử dụng biến thể của vectơ một nóng để biểu thị các từ trong . Trong biến thể này, nhiều ô trong vectơ có thể chứa một giá trị khác 0. Hơn nữa, trong biến thể này, một ô có thể chứa một số nguyên khác một nhãn. Mặc dù các từ "của tôi", "là", "a" và "tuyệt vời" chỉ xuất hiện một lần ở trong câu, từ "chó" xuất hiện 2 lần. Sử dụng biến thể này của vectơ một nóng biểu diễn các từ trong câu này mang lại kết quả sau Vectơ 170.000 phần tử:

Một bản trình bày thưa thớt của cùng một câu sẽ đơn giản là:

Nhấp vào biểu tượng này nếu bạn chưa hiểu rõ.

Cụm từ "biểu diễn thưa thớt" khiến nhiều người nhầm lẫn vì thưa thớt bản thân biểu diễn không phải là một vectơ thưa. Thay vào đó, thưa thớt thực ra là biểu diễn dày đặc của vectơ thưa. Cách biểu diễn chỉ mục từ đồng nghĩa rõ ràng hơn một chút "biểu thị thưa thớt".

vectơ thưa

#fundamentals

Vectơ có các giá trị gần như bằng 0. Xem thêm thưa thớt tính năng và tính tách biệt.

tổn thất bình phương

#fundamentals

Từ đồng nghĩa với sự mất mát L₂.

tĩnh

#fundamentals

Việc nào đó được thực hiện một lần thay vì liên tục. Các cụm từ tĩnh và ngoại tuyến là các từ đồng nghĩa. Sau đây là một số cách sử dụng phổ biến của tính năng tĩnh và ngoại tuyến trong máy đang học:

mô hình tĩnh (hoặc mô hình ngoại tuyến) là mô hình được huấn luyện một lần rồi đã sử dụng trong một thời gian.
huấn luyện tĩnh (hoặc đào tạo ngoại tuyến) là quá trình huấn luyện một mô hình tĩnh.
suy luận tĩnh (hoặc suy luận ngoại tuyến) là quá trình một mô hình tạo ra một loạt các dự đoán tại một thời điểm.

Độ tương phản với thuộc tính động.

suy luận tĩnh

#fundamentals

Từ đồng nghĩa với suy luận ngoại tuyến.

cố định

#fundamentals

Một đối tượng có các giá trị không thay đổi trên một hoặc nhiều phương diện, thường là thời gian. Ví dụ: một tính năng có giá trị giống nhau vào năm 2021 và năm 2023 thể hiện sự tĩnh tại.

Trong thế giới thực, rất ít đối tượng thể hiện tính tĩnh. Các tính năng đồng đều đồng nghĩa với sự ổn định (như mực nước biển) thay đổi theo thời gian.

Trái ngược với tính không ổn định.

giảm độ dốc ngẫu nhiên (SGD)

#fundamentals

Thuật toán giảm độ dốc trong đó kích thước lô là một. Nói cách khác, SGD sẽ được huấn luyện dựa trên một ví dụ duy nhất được chọn thống nhất tại ngẫu nhiên từ tập hợp huấn luyện.

học máy có giám sát

#fundamentals

Đào tạo một mô hình từ các tính năng và nhãn tương ứng. Công nghệ học máy có giám sát cũng tương tự như sang học một môn học bằng cách nghiên cứu một bộ câu hỏi và các câu trả lời tương ứng. Sau khi thành thạo việc liên kết giữa các câu hỏi và đáp án, sau đó học sinh có thể đưa ra đáp án cho bài làm mới (chưa từng thấy trước đây) câu hỏi về cùng một chủ đề.

So sánh với máy học không giám sát.

tính năng tổng hợp

#fundamentals

Tính năng không có trong số các tính năng nhập, nhưng được tạo nên từ một hoặc nhiều dữ liệu. Phương thức tạo các tính năng tổng hợp bao gồm:

Sắp xếp một tính năng liên tục vào các thùng phạm vi.
Tạo nhiều tính năng.
Nhân (hoặc chia) một giá trị đối tượng cho(các) giá trị đối tượng khác hoặc đơn lẻ. Ví dụ: nếu a và b là các tính năng nhập, thì hàm sau đây là ví dụ về các tính năng tổng hợp:
- ab
- a²
Áp dụng hàm xuyên suốt cho một giá trị đối tượng. Ví dụ: nếu c là tính năng đầu vào, thì sau đây là ví dụ về tính năng tổng hợp:
- sin(c)
- ln(c)

Các tính năng được tạo bằng cách chuẩn hoá hoặc điều chỉnh theo tỷ lệ thì chúng không được coi là tính năng tổng hợp.

T

tổn thất thử nghiệm

#fundamentals

Chỉ số thể hiện sự sụt giảm của một mô hình so với tập kiểm thử. Khi xây dựng một mô hình, bạn thường cố gắng giảm thiểu tổn thất kiểm thử. Đó là vì thất bại trong thử nghiệm thấp tín hiệu chất lượng mạnh hơn so với mức hao tổn huấn luyện thấp hoặc mất tính xác thực thấp.

Một khoảng cách lớn giữa mất kiểm thử và mất huấn luyện hoặc mất xác thực đôi khi cho thấy bạn cần tăng tỷ lệ chuẩn hoá.

đào tạo

#fundamentals

Quá trình xác định tham số lý tưởng (trọng số và thiên kiến) bao gồm mô hình. Trong quá trình huấn luyện, hệ thống sẽ đọc ví dụ rồi dần điều chỉnh các tham số. Quá trình huấn luyện sử dụng mỗi ví dụ từ vài lần đến hàng tỷ lần.

ngừng huấn luyện

#fundamentals

Một chỉ số thể hiện sự sụt giảm của một mô hình trong một khoảng thời gian lặp đi lặp lại huấn luyện cụ thể. Ví dụ: giả sử hàm mất là Lỗi bình phương trung bình. Có thể là thời gian mất đào tạo (trung bình Squared Error) cho lần lặp thứ 10 là 2.2 và tổn thất huấn luyện cho lần lặp thứ 100 là 1.9.

Đường cong tổn thất thể hiện số lượng lỗ hổng huấn luyện so với số lượng lặp lại. Đường cong tổn thất cung cấp các gợi ý sau đây về việc huấn luyện:

Độ dốc hướng xuống cho biết mô hình đang cải thiện.
Độ dốc hướng lên cho biết mô hình đang giảm dần.
Độ dốc bằng phẳng ngụ ý rằng mô hình đã đạt đến sự hội tụ.

Ví dụ: đường cong tổn thất được lý tưởng hoá đôi chút sau đây cho thấy:

Đường dốc hướng xuống trong vòng lặp ban đầu, ngụ ý rằng cải tiến mô hình nhanh chóng.
Đường dốc phẳng dần (nhưng vẫn đi xuống) cho đến gần cuối huấn luyện, tức là ngụ ý việc liên tục cải tiến mô hình với mức độ chậm hơn trong vòng lặp đầu tiên.
Một độ dốc phẳng về cuối quá trình huấn luyện, gợi ý sự hội tụ.

Sơ đồ về sự mất mát trong quá trình huấn luyện so với số lần lặp lại. Đường cong mức tổn thất này bắt đầu
có độ dốc đứng xuống. Đường dốc phẳng dần cho đến khi
hệ số góc trở thành 0.

Mặc dù lượng thời gian huấn luyện mất đi là rất quan trọng, hãy xem thêm tổng quát hoá.

lệch hướng phân phát huấn luyện

#fundamentals

Sự khác biệt giữa hiệu suất của mô hình trong khoảng thời gian huấn luyện và hiệu suất của cùng mô hình đó trong khoảng thời gian phân phát.

tập huấn luyện

#fundamentals

Tập hợp con của tập dữ liệu được dùng để huấn luyện một mô hình.

Thông thường, các ví dụ trong tập dữ liệu được chia thành 3 nhóm các tập hợp con riêng biệt:

một bộ bài tập huấn luyện
tập hợp xác thực
tập hợp kiểm thử

Tốt nhất là mỗi ví dụ trong tập dữ liệu chỉ nên thuộc về một trong các tập hợp con trước đó. Ví dụ: một ví dụ không nên thuộc về cả tập huấn luyện và tập xác thực.

âm tính thật (TN)

#fundamentals

Một ví dụ trong đó mô hình dự đoán chính xác lớp phủ định. Ví dụ: mô hình suy luận rằng một nội dung email cụ thể không phải là thư rác và nội dung email đó thực sự là không phải thư rác.

dương tính thật (TP)

#fundamentals

Một ví dụ trong đó mô hình dự đoán chính xác lớp học tích cực. Ví dụ: mô hình suy luận rằng một nội dung email cụ thể là thư rác và nội dung email đó thực sự là thư rác.

tỷ lệ dương tính thật (TPR)

#fundamentals

Từ đồng nghĩa với recall. Đó là:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Tỷ lệ dương thực là trục y trong đường cong ROC.

U

thiếu vải

#fundamentals

Tạo mô hình có khả năng dự đoán kém vì mô hình đó chưa thể hiện hết mức độ phức tạp của dữ liệu huấn luyện. Nhiều bài toán có thể gây ra tình trạng thiếu cân, bao gồm:

Chương trình đào tạo về tập hợp tính năng không chính xác.
Đào tạo cho quá ít khoảng thời gian bắt đầu của hệ thống hoặc với thời lượng quá thấp tốc độ học tập.
Chương trình đào tạo có tỷ lệ chuẩn hoá quá cao.
Cung cấp quá ít lớp ẩn trong một mạng nơron sâu.

ví dụ chưa gắn nhãn

#fundamentals

Một ví dụ có chứa tính năng nhưng không có nhãn. Ví dụ: bảng sau đây hiển thị ba ví dụ chưa gắn nhãn của một ngôi nhà mô hình định giá, mỗi mô hình có ba tính năng nhưng không có giá trị nội bộ:

Số lượng phòng ngủ	Số lượng phòng tắm	Tuổi thọ của nhà
3	2	15
2	1	72
4	2	34

Trong công nghệ học máy có giám sát, sẽ huấn luyện dựa trên các ví dụ được gắn nhãn và đưa ra dự đoán về các ví dụ chưa được gắn nhãn.

Trong chế độ bán giám sát và học tập không có sự giám sát, các ví dụ chưa gắn nhãn được dùng trong quá trình huấn luyện.

Đối chiếu ví dụ chưa gắn nhãn với ví dụ có gắn nhãn.

học máy không giám sát

#clustering

#fundamentals

Huấn luyện một mô hình để tìm các mẫu trong một tập dữ liệu, thường là tập dữ liệu chưa gắn nhãn.

Việc sử dụng công nghệ học máy không giám sát phổ biến nhất là Dữ liệu cụm thành các nhóm ví dụ tương tự nhau. Ví dụ: máy không được giám sát thuật toán học tập có thể nhóm các bài hát dựa trên nhiều thuộc tính của bản nhạc. Các cụm thu được có thể trở thành dữ liệu đầu vào cho máy khác các thuật toán học tập (ví dụ: đến dịch vụ đề xuất âm nhạc). Việc phân cụm có thể giúp ích khi không có hoặc có nhãn hữu ích. Ví dụ: trong các miền như chống hành vi sai trái và lừa đảo, các cụm có thể giúp con người sẽ hiểu rõ hơn về dữ liệu.

Trái ngược với công nghệ học máy có giám sát.

Nhấp vào biểu tượng để xem thêm ghi chú.

Một ví dụ khác về công nghệ học máy không giám sát là phân tích thành phần chính (PCA). Ví dụ: áp dụng PCA trên một tập dữ liệu chứa nội dung của hàng triệu giỏ hàng có thể cho biết rằng các giỏ hàng chứa chanh thường xuyên cũng chứa chất kháng axit.

V

xác thực

#fundamentals

Kết quả đánh giá ban đầu về chất lượng của một mô hình. Chức năng xác thực kiểm tra chất lượng dự đoán của mô hình so với bộ xác thực.

Do bộ xác thực khác với nhóm huấn luyện, quy trình xác thực giúp bảo vệ chống lại tình trạng trang bị quá mức.

Bạn có thể coi việc đánh giá mô hình so với tập hợp xác thực là vòng đầu tiên để thử nghiệm và đánh giá mô hình dựa trên kiểm thử set làm vòng kiểm thử thứ hai.

mất dữ liệu xác thực

#fundamentals

Một chỉ số thể hiện lỗ hổng của một mô hình trên tập hợp xác thực trong một khoảng thời gian lặp lại quá trình huấn luyện.

Xem thêm đường cong tổng quát.

bộ xác thực

#fundamentals

Tập hợp con của tập dữ liệu thực hiện bước đầu tiên dựa trên mô hình đã qua đào tạo. Thông thường, bạn đánh giá mô hình được huấn luyện dựa trên tập hợp xác thực một vài trước khi đánh giá mô hình dựa trên tập kiểm thử.

Thông thường, bạn chia các ví dụ trong tập dữ liệu thành ba nhóm sau các tập hợp con riêng biệt:

W

cân nặng

#fundamentals

Một giá trị mà mô hình nhân với một giá trị khác. Huấn luyện là quá trình xác định trọng số lý tưởng của một mô hình; suy luận là quá trình sử dụng các trọng số đã học được để đưa ra dự đoán.

Nhấp vào biểu tượng để xem ví dụ về trọng số trong mô hình tuyến tính.

Hãy tưởng tượng một mô hình tuyến tính có hai đối tượng. Giả sử quá trình huấn luyện xác định các trọng số sau (và thiên vị):

Độ lệch b có giá trị là 2,2
Trọng số w₁ của một đối tượng là 1, 5.
Trọng số, w₂ được liên kết với đối tượng khác là 0,4.

Bây giờ, hãy tưởng tượng một ví dụ với tính năng sau giá trị:

Giá trị của một tính năng, x₁, là 6.
Giá trị của tính năng còn lại (x₂) là 10.

Mô hình tuyến tính này sử dụng công thức sau đây để tạo dự đoán, y':

$$y' = b + w_1x_1 + w_2x_2$$

Do đó, dự đoán là:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

Nếu trọng số là 0 thì tính năng tương ứng không đóng góp vào mô hình. Ví dụ: nếu w₁ là 0, thì giá trị của x₁ là không liên quan.

tổng có trọng số

#fundamentals

Tổng của tất cả các giá trị đầu vào có liên quan nhân với các giá trị tương ứng trọng số. Ví dụ: giả sử dữ liệu đầu vào có liên quan bao gồm:

giá trị nhập	trọng số đầu vào
2	-1,3
-1	0,6
3	0,4

Do đó, tổng được trọng số là:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Tổng có trọng số là đối số đầu vào cho một giá trị tổng chức năng kích hoạt.

Z

Chuẩn hoá điểm Z

#fundamentals

Kỹ thuật điều chỉnh tỷ lệ thay thế dữ liệu thô Giá trị feature với một giá trị dấu phẩy động biểu thị số độ lệch chuẩn so với giá trị trung bình của đối tượng đó. Ví dụ: hãy xem xét một đối tượng có giá trị trung bình là 800 và có giá trị chuẩn độ lệch là 100. Bảng sau đây trình bày cách chuẩn hoá điểm Z sẽ ánh xạ giá trị thô với điểm Z của nó:

Giá trị thô	Điểm Z
800	0
950	+1,5
575	-2,25

Sau đó, mô hình học máy sẽ huấn luyện dựa trên điểm số Z cho tính năng đó thay vì trên các giá trị thô.

Bảng thuật ngữ về công nghệ máy học: Kiến thức cơ bản về công nghệ học máy

A

độ chính xác

Nhấp vào biểu tượng để xem thêm ghi chú.

hàm kích hoạt

Hãy nhấp vào biểu tượng để xem ví dụ.

trí tuệ nhân tạo

AUC (Diện tích dưới đường cong ROC)

Nhấp vào biểu tượng để tìm hiểu về mối quan hệ giữa đường cong AUC và ROC.

Nhấp vào biểu tượng để biết định nghĩa chính thức hơn về AUC.

B

lan truyền ngược

lô

kích thước lô

thiên kiến (đạo đức/công bằng)

thiên kiến (toán) hoặc thuật ngữ thiên kiến

phân loại nhị phân

phân giỏ

Nhấp vào biểu tượng để xem thêm ghi chú.

C

dữ liệu phân loại

lớp

mô hình phân loại

ngưỡng phân loại

Nhấp vào biểu tượng để xem thêm ghi chú.

tập dữ liệu bất cân bằng về lớp

cắt đoạn

ma trận nhầm lẫn

tính chất liên tục

sự hội tụ

D

DataFrame

tập dữ liệu hoặc tập dữ liệu

mô hình sâu

tính chất mật độ cao

chiều sâu

tính chất rời rạc

linh động

mô hình linh động

E

dừng sớm

Nhấp vào biểu tượng để xem thêm ghi chú.

lớp nhúng

thời gian bắt đầu của hệ thống

ví dụ

F

âm tính giả (FN)

dương tính giả (FP)

tỷ lệ dương tính giả (FPR)

đối tượng

hình chữ thập

kỹ thuật trích xuất tính chất

Nhấp vào biểu tượng để xem thêm ghi chú về TensorFlow.

bộ tính năng

vectơ đối tượng

vòng hồi tiếp

G

tổng quát hoá

Nhấp vào biểu tượng để xem thêm ghi chú.

đường cong tổng quát

phương pháp giảm độ dốc

thông tin thực tế

Nhấp vào biểu tượng để xem thêm ghi chú.

Số lần bị đánh trúng bóng

lớp ẩn

siêu tham số

I

được phân phối độc lập và đồng nhất (i.i.d)

suy luận

lớp đầu vào

mức độ diễn giải

lặp lại

L

Điều chỉnh L0

Nhấp vào biểu tượng để xem thêm ghi chú.

Mất L1

Nhấp vào biểu tượng để xem phép toán chính thức.

Điều chỉnh L1

Giảm L2

Nhấp vào biểu tượng để xem phép toán chính thức.

Điều chỉnh L₀

Mất L₁

Điều chỉnh L₁

Giảm L₂

Điều chỉnh L₂