Bảng thuật ngữ về công nghệ máy học: Kiến thức cơ bản về công nghệ học máy

Trang này chứa các thuật ngữ trong bảng chú giải Kiến thức cơ bản về học máy. Để xem tất cả các thuật ngữ trong bảng chú giải, hãy nhấp vào đây.

A

độ chính xác

#fundamentals
#Chỉ số

Số lượng dự đoán phân loại chính xác chia cho tổng số dự đoán. Đó là:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ví dụ: một mô hình đưa ra 40 dự đoán chính xác và 10 dự đoán không chính xác sẽ có độ chính xác là:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Phân loại nhị phân cung cấp tên cụ thể cho các danh mục khác nhau của dự đoán chính xácdự đoán không chính xác. Vì vậy, công thức tính độ chính xác cho phân loại nhị phân như sau:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

trong đó:

So sánh và đối chiếu độ chính xác với độ đo lường chính xáckhả năng thu hồi.

Hãy xem phần Phân loại: Độ chính xác, khả năng thu hồi, độ đo và các chỉ số liên quan trong Khoá học cấp tốc về học máy để biết thêm thông tin.

hàm kích hoạt

#fundamentals

Một hàm cho phép mạng nơ-ron học các mối quan hệ phi tuyến tính (phức tạp) giữa các đặc điểm và nhãn.

Các hàm kích hoạt phổ biến bao gồm:

Đồ thị của các hàm kích hoạt không bao giờ là đường thẳng đơn lẻ. Ví dụ: biểu đồ của hàm kích hoạt ReLU bao gồm 2 đường thẳng:

Một biểu đồ Descartes gồm 2 đường. Đường thẳng đầu tiên có giá trị y không đổi là 0, chạy dọc theo trục x từ -vô cùng,0 đến 0,-0.
          Đường thứ hai bắt đầu tại 0,0. Đường thẳng này có độ dốc là +1, nên đường thẳng này chạy từ 0,0 đến +vô cực,+vô cực.

Biểu đồ của hàm kích hoạt sigmoid có dạng như sau:

Một biểu đồ cong hai chiều với các giá trị x trải dài trên miền vô cực âm đến vô cực dương, trong khi các giá trị y trải dài trong phạm vi gần 0 đến gần 1. Khi x là 0, y là 0,5. Độ dốc của đường cong luôn dương, với độ dốc cao nhất ở 0,0,5 và độ dốc giảm dần khi giá trị tuyệt đối của x tăng lên.

Hãy xem phần Mạng nơ-ron: Hàm kích hoạt trong Khoá học cấp tốc về học máy để biết thêm thông tin.

trí tuệ nhân tạo

#fundamentals

Một chương trình hoặc mô hình không phải do con người tạo ra, có thể giải quyết các nhiệm vụ phức tạp. Ví dụ: một chương trình hoặc mô hình dịch văn bản hoặc một chương trình hoặc mô hình xác định bệnh từ hình ảnh chụp X-quang đều thể hiện trí tuệ nhân tạo.

Về mặt chính thức, học máy là một lĩnh vực con của trí tuệ nhân tạo. Tuy nhiên, trong những năm gần đây, một số tổ chức đã bắt đầu sử dụng các thuật ngữ trí tuệ nhân tạohọc máy thay thế cho nhau.

AUC (Diện tích dưới đường cong ROC)

#fundamentals
#Chỉ số

Một số từ 0,0 đến 1,0 biểu thị khả năng của mô hình phân loại nhị phân trong việc tách các lớp dương khỏi các lớp âm. AUC càng gần 1.0 thì khả năng tách các lớp của mô hình càng tốt.

Ví dụ: hình minh hoạ sau đây cho thấy một mô hình phân loại tách biệt hoàn toàn các lớp dương (hình bầu dục màu xanh lục) với các lớp âm (hình chữ nhật màu tím). Mô hình hoàn hảo một cách phi thực tế này có AUC là 1.0:

Một trục số có 8 ví dụ dương ở một bên và 9 ví dụ âm ở bên còn lại.

Ngược lại, hình minh hoạ sau đây cho thấy kết quả của một mô hình phân loại đã tạo ra kết quả ngẫu nhiên. Mô hình này có AUC là 0,5:

Một trục số có 6 ví dụ dương và 6 ví dụ âm.
          Trình tự của các ví dụ là dương tính, âm tính, dương tính, âm tính, dương tính, âm tính, dương tính, âm tính, dương tính, âm tính, dương tính, âm tính.

Có, mô hình trước đó có AUC là 0, 5 chứ không phải 0.

Hầu hết các mô hình đều nằm ở khoảng giữa hai thái cực này. Ví dụ: mô hình sau đây tách biệt phần nào các giá trị dương với giá trị âm, do đó có AUC nằm trong khoảng từ 0, 5 đến 1.0:

Một trục số có 6 ví dụ dương và 6 ví dụ âm.
          Trình tự của các ví dụ là tiêu cực, tiêu cực, tiêu cực, tiêu cực, tích cực, tiêu cực, tích cực, tích cực, tiêu cực, tích cực, tích cực, tích cực.

AUC bỏ qua mọi giá trị mà bạn đặt cho ngưỡng phân loại. Thay vào đó, AUC sẽ xem xét tất cả các ngưỡng phân loại có thể có.

Hãy xem phần Phân loại: ROC và AUC trong Khoá học học máy ứng dụng để biết thêm thông tin.

B

lan truyền ngược

#fundamentals

Thuật toán triển khai phương pháp hạ độ dốc trong mạng nơron.

Việc huấn luyện mạng nơ-ron bao gồm nhiều lần lặp lại của chu kỳ hai lượt sau đây:

  1. Trong quá trình truyền xuôi, hệ thống sẽ xử lý một gồm ví dụ để đưa ra(các) dự đoán. Hệ thống so sánh từng dự đoán với từng giá trị nhãn. Khoảng chênh lệch giữa giá trị dự đoán và giá trị nhãn là mất mát cho ví dụ đó. Hệ thống tổng hợp các tổn thất cho tất cả các ví dụ để tính toán tổng tổn thất cho lô hiện tại.
  2. Trong lượt truyền ngược (lan truyền ngược), hệ thống sẽ giảm tổn thất bằng cách điều chỉnh trọng số của tất cả các nơ-ron trong tất cả (các) lớp ẩn.

Mạng nơ-ron thường chứa nhiều nơ-ron trên nhiều lớp ẩn. Mỗi nơ-ron trong số đó đóng góp vào tổn thất tổng thể theo những cách khác nhau. Thuật toán lan truyền ngược xác định xem có nên tăng hay giảm trọng số được áp dụng cho các nơ-ron cụ thể hay không.

Tốc độ học tập là một hệ số nhân kiểm soát mức độ mà mỗi lượt truyền ngược tăng hoặc giảm mỗi trọng số. Tốc độ học tập lớn sẽ tăng hoặc giảm mỗi trọng số nhiều hơn tốc độ học tập nhỏ.

Theo thuật ngữ giải tích, phương pháp lan truyền ngược triển khai quy tắc chuỗi từ giải tích. Tức là quá trình truyền ngược sẽ tính toán đạo hàm riêng phần của sai số đối với từng tham số.

Nhiều năm trước, các chuyên gia về học máy phải viết mã để triển khai phương pháp lan truyền ngược. Các API ML hiện đại như Keras hiện triển khai phương pháp lan truyền ngược cho bạn. Chà!

Hãy xem phần Mạng nơ-ron trong Khoá học học máy ứng dụng để biết thêm thông tin.

#fundamentals

Tập hợp ví dụ được dùng trong một lần lặp lại quá trình huấn luyện. Kích thước lô xác định số lượng ví dụ trong một lô.

Hãy xem epoch để biết nội dung giải thích về mối quan hệ giữa một lô và một epoch.

Hãy xem phần Hồi quy tuyến tính: Siêu tham số trong Khoá học cấp tốc về học máy để biết thêm thông tin.

kích thước lô

#fundamentals

Số lượng ví dụ trong một . Ví dụ: nếu kích thước lô là 100, thì mô hình sẽ xử lý 100 ví dụ cho mỗi lần lặp lại.

Sau đây là các chiến lược kích thước lô phổ biến:

  • Phương pháp giảm độ dốc ngẫu nhiên (SGD), trong đó kích thước lô là 1.
  • Kích thước lô đầy đủ, trong đó kích thước lô là số lượng ví dụ trong toàn bộ tập huấn luyện. Ví dụ: nếu tập huấn luyện chứa một triệu ví dụ, thì kích thước lô sẽ là một triệu ví dụ. Xử lý theo lô đầy đủ thường là một chiến lược không hiệu quả.
  • Tiểu lô, trong đó kích thước lô thường nằm trong khoảng từ 10 đến 1.000. Mini-batch thường là chiến lược hiệu quả nhất.

Hãy xem phần sau đây để biết thêm thông tin:

thiên kiến (đạo đức/tính công bằng)

#responsible
#fundamentals

1. Định kiến, thành kiến hoặc thiên vị đối với một số sự vật, con người hoặc nhóm người so với những người khác. Những thiên kiến này có thể ảnh hưởng đến việc thu thập và diễn giải dữ liệu, thiết kế của một hệ thống và cách người dùng tương tác với hệ thống. Các dạng thiên kiến thuộc loại này bao gồm:

2. Lỗi hệ thống do quy trình lấy mẫu hoặc báo cáo gây ra. Các dạng thiên kiến thuộc loại này bao gồm:

Không nhầm lẫn với hệ số thiên vị trong các mô hình học máy hoặc độ thiên lệch dự đoán.

Hãy xem phần Tính công bằng: Các loại thành kiến trong Khoá học cấp tốc về học máy để biết thêm thông tin.

độ lệch (toán học) hoặc hệ số thiên lệch

#fundamentals

Một điểm cắt hoặc độ lệch so với điểm gốc. Độ lệch là một tham số trong các mô hình học máy, được biểu thị bằng một trong những tham số sau:

  • b
  • w0

Ví dụ: độ lệch là b trong công thức sau:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Trong một đường thẳng hai chiều đơn giản, độ lệch chỉ có nghĩa là "giao điểm với trục y". Ví dụ: độ lệch của đường thẳng trong hình minh hoạ sau đây là 2.

Đồ thị của một đường thẳng có độ dốc là 0,5 và độ lệch (giao điểm với trục y) là 2.

Sai số tồn tại vì không phải tất cả các mô hình đều bắt đầu từ điểm gốc (0,0). Ví dụ: giả sử một công viên giải trí có giá vé vào cửa là 2 EUR và khách hàng phải trả thêm 0,5 EUR cho mỗi giờ ở lại. Do đó, một mô hình ánh xạ tổng chi phí có độ lệch là 2 vì chi phí thấp nhất là 2 EUR.

Không nên nhầm lẫn thiên kiến với thiên kiến về đạo đức và sự công bằng hoặc thiên kiến dự đoán.

Hãy xem phần Hồi quy tuyến tính trong Khoá học học máy ứng dụng để biết thêm thông tin.

phân loại nhị phân

#fundamentals

Một loại tác vụ phân loại dự đoán một trong hai lớp loại trừ lẫn nhau:

Ví dụ: mỗi mô hình học máy sau đây đều thực hiện phân loại nhị phân:

  • Một mô hình xác định xem thư điện tử có phải là thư rác (lớp dương tính) hay không phải thư rác (lớp âm tính).
  • Một mô hình đánh giá các triệu chứng y tế để xác định xem một người có mắc một bệnh cụ thể (lớp dương tính) hay không mắc bệnh đó (lớp âm tính).

Tương phản với phân loại đa mục.

Xem thêm hồi quy logisticngưỡng phân loại.

Hãy xem phần Phân loại trong Khoá học học máy ứng dụng để biết thêm thông tin.

phân giỏ

#fundamentals

Chuyển đổi một đối tượng duy nhất thành nhiều đối tượng nhị phân được gọi là nhóm hoặc thùng, thường dựa trên một dải giá trị. Tính năng bị cắt thường là một tính năng liên tục.

Ví dụ: thay vì biểu thị nhiệt độ dưới dạng một đặc điểm liên tục duy nhất có dấu phẩy động, bạn có thể chia các phạm vi nhiệt độ thành các nhóm rời rạc, chẳng hạn như:

  • <= 10 độ C sẽ là nhóm "lạnh".
  • 11 – 24 độ C sẽ là nhóm "ôn hoà".
  • >= 25 độ C sẽ là nhóm "ấm".

Mô hình sẽ xử lý mọi giá trị trong cùng một nhóm theo cách giống nhau. Ví dụ: giá trị 1322 đều nằm trong nhóm nhiệt độ vừa phải, nên mô hình sẽ xử lý hai giá trị này giống nhau.

Hãy xem phần Dữ liệu dạng số: Phân nhóm trong Khoá học cấp tốc về học máy để biết thêm thông tin.

C

dữ liệu phân loại

#fundamentals

Tính năng có một nhóm giá trị có thể có cụ thể. Ví dụ: hãy xem xét một đặc điểm phân loại có tên là traffic-light-state, chỉ có thể có một trong 3 giá trị có thể có sau đây:

  • red
  • yellow
  • green

Bằng cách biểu thị traffic-light-state dưới dạng một đặc điểm phân loại, mô hình có thể tìm hiểu những tác động khác nhau của red, greenyellow đối với hành vi của người lái xe.

Các đặc điểm phân loại đôi khi được gọi là đặc điểm rời rạc.

Tương phản với dữ liệu dạng số.

Hãy xem bài viết Làm việc với dữ liệu phân loại trong Khoá học cấp tốc về học máy để biết thêm thông tin.

lớp

#fundamentals

Một danh mục mà nhãn có thể thuộc về. Ví dụ:

  • Trong mô hình phân loại nhị phân phát hiện thư rác, hai lớp có thể là thư ráckhông phải thư rác.
  • Trong mô hình phân loại nhiều lớp xác định giống chó, các lớp có thể là chó poodle, chó beagle, chó pug, v.v.

Mô hình phân loại dự đoán một lớp. Ngược lại, mô hình hồi quy dự đoán một số thay vì một lớp.

Hãy xem phần Phân loại trong Khoá học học máy ứng dụng để biết thêm thông tin.

mô hình phân loại

#fundamentals

Một mô hình có dự đoán là một lớp. Ví dụ: sau đây là tất cả các mô hình phân loại:

  • Một mô hình dự đoán ngôn ngữ của câu đầu vào (tiếng Pháp? Tiếng Tây Ban Nha? Tiếng Ý).
  • Một mô hình dự đoán các loài cây (Cây phong? Oak? Bao báp?).
  • Một mô hình dự đoán lớp dương tính hoặc âm tính cho một tình trạng bệnh cụ thể.

Ngược lại, mô hình hồi quy dự đoán các con số thay vì các lớp.

Hai loại mô hình phân loại phổ biến là:

ngưỡng phân loại

#fundamentals

Trong phân loại nhị phân, một số từ 0 đến 1 sẽ chuyển đổi đầu ra thô của mô hình hồi quy logistic thành dự đoán về lớp dương tính hoặc lớp âm tính. Xin lưu ý rằng ngưỡng phân loại là giá trị do con người chọn, chứ không phải giá trị do quá trình huấn luyện mô hình chọn.

Mô hình hồi quy logistic xuất ra một giá trị thô trong khoảng từ 0 đến 1. Sau đó:

  • Nếu giá trị thô này lớn hơn ngưỡng phân loại, thì lớp dương tính sẽ được dự đoán.
  • Nếu giá trị thô này nhỏ hơn ngưỡng phân loại, thì lớp âm tính sẽ được dự đoán.

Ví dụ: giả sử ngưỡng phân loại là 0, 8. Nếu giá trị thô là 0,9, thì mô hình sẽ dự đoán lớp dương. Nếu giá trị thô là 0,7, thì mô hình sẽ dự đoán lớp âm.

Lựa chọn ngưỡng phân loại ảnh hưởng lớn đến số lượng kết quả dương tính giảkết quả âm tính giả.

Hãy xem phần Ngưỡng và ma trận nhầm lẫn trong Khoá học học máy ứng dụng để biết thêm thông tin.

thuật toán phân loại

#fundamentals

Một thuật ngữ thông thường cho mô hình phân loại.

tập dữ liệu bất cân đối về loại

#fundamentals

Một tập dữ liệu cho một phân loại trong đó tổng số nhãn của mỗi lớp khác biệt đáng kể. Ví dụ: hãy xem xét một tập dữ liệu phân loại nhị phân có 2 nhãn được chia như sau:

  • 1.000.000 nhãn phủ định
  • 10 nhãn cho cột giá trị dương

Tỷ lệ nhãn âm tính so với nhãn dương tính là 100.000 trên 1, vì vậy đây là một tập dữ liệu bất cân đối về loại.

Ngược lại, tập dữ liệu sau đây là cân bằng theo lớp vì tỷ lệ nhãn tiêu cực so với nhãn tích cực tương đối gần với 1:

  • 517 nhãn phủ định
  • 483 nhãn dương

Tập dữ liệu nhiều lớp cũng có thể bất cân đối về lớp. Ví dụ: tập dữ liệu phân loại nhiều lớp sau đây cũng bất cân đối về lớp vì một nhãn có nhiều ví dụ hơn hẳn so với hai nhãn còn lại:

  • 1.000.000 nhãn có lớp "xanh lục"
  • 200 nhãn có lớp "tím"
  • 350 nhãn có lớp "orange"

Việc huấn luyện tập dữ liệu bất cân đối về loại có thể gây ra những thách thức đặc biệt. Hãy xem phần Tập dữ liệu không cân bằng trong Khoá học học máy ứng dụng để biết thông tin chi tiết.

Xem thêm entropy, majority classminority class.

cắt

#fundamentals

Một kỹ thuật xử lý giá trị ngoại lệ bằng cách thực hiện một hoặc cả hai thao tác sau:

  • Giảm các giá trị tính năng lớn hơn ngưỡng tối đa xuống ngưỡng tối đa đó.
  • Tăng các giá trị của đối tượng nhỏ hơn ngưỡng tối thiểu lên đến ngưỡng tối thiểu đó.

Ví dụ: giả sử <0, 5% giá trị của một tính năng cụ thể nằm ngoài phạm vi 40–60. Trong trường hợp này, bạn có thể làm như sau:

  • Cắt tất cả các giá trị trên 60 (ngưỡng tối đa) thành chính xác 60.
  • Cắt tất cả các giá trị dưới 40 (ngưỡng tối thiểu) thành chính xác 40.

Giá trị ngoại lệ có thể làm hỏng các mô hình, đôi khi khiến trọng số tràn trong quá trình huấn luyện. Một số giá trị ngoại lệ cũng có thể làm hỏng đáng kể các chỉ số như độ chính xác. Cắt bớt là một kỹ thuật phổ biến để hạn chế thiệt hại.

Giới hạn độ dốc buộc các giá trị độ dốc nằm trong một dải ô được chỉ định trong quá trình huấn luyện.

Hãy xem phần Dữ liệu dạng số: Chuẩn hoá trong Khoá học cấp tốc về học máy để biết thêm thông tin.

ma trận nhầm lẫn

#fundamentals

Một bảng NxN tóm tắt số lượng dự đoán chính xác và không chính xác mà mô hình phân loại đã thực hiện. Ví dụ: hãy xem xét ma trận nhầm lẫn sau đây cho mô hình phân loại nhị phân:

Khối u (dự đoán) Không phải khối u (dự đoán)
Khối u (thông tin thực tế) 18 (TP) 1 (FN)
Không phải khối u (thông tin thực tế) 6 (FP) 452 (TN)

Ma trận nhầm lẫn ở trên cho thấy những điều sau:

  • Trong số 19 dự đoán mà dữ liệu thực tế là U bướu, mô hình đã phân loại chính xác 18 và phân loại không chính xác 1.
  • Trong số 458 dự đoán có dữ liệu thực tế là Không phải khối u, mô hình đã phân loại chính xác 452 và phân loại không chính xác 6.

Ma trận nhầm lẫn cho vấn đề phân loại nhiều lớp có thể giúp bạn xác định các mẫu lỗi. Ví dụ: hãy xem xét ma trận nhầm lẫn sau đây cho một mô hình phân loại nhiều lớp có 3 lớp, phân loại 3 loại hoa diên vĩ khác nhau (Virginica, Versicolor và Setosa). Khi thông tin thực tế là Virginica, ma trận nhầm lẫn cho thấy mô hình có nhiều khả năng dự đoán nhầm Versicolor hơn Setosa:

  Setosa (dự đoán) Versicolor (dự đoán) Virginica (dự đoán)
Setosa (thông tin thực tế) 88 12 0
Versicolor (thông tin thực tế) 6 141 7
Virginica (thông tin thực tế) 2 27 109

Một ví dụ khác là ma trận nhầm lẫn có thể cho thấy rằng một mô hình được huấn luyện để nhận dạng chữ số viết tay có xu hướng dự đoán nhầm 9 thay vì 4 hoặc dự đoán nhầm 1 thay vì 7.

Ma trận nhầm lẫn chứa đủ thông tin để tính toán nhiều chỉ số hiệu suất, bao gồm cả độ chính xáckhả năng thu hồi.

đối tượng liên tục

#fundamentals

Một đặc điểm dấu phẩy động với vô số giá trị có thể có, chẳng hạn như nhiệt độ hoặc trọng lượng.

Tương phản với đối tượng rời rạc.

hội tụ

#fundamentals

Một trạng thái đạt được khi các giá trị mất mát thay đổi rất ít hoặc không thay đổi gì trong mỗi lần lặp lại. Ví dụ: đường cong tổn thất sau đây cho thấy sự hội tụ ở khoảng 700 lần lặp:

Biểu đồ Đề-các. Trục X bị mất. Trục y là số lần lặp lại quá trình huấn luyện. Mất mát rất cao trong vài lần lặp lại đầu tiên, nhưng giảm mạnh. Sau khoảng 100 lần lặp lại, mức hao hụt vẫn giảm nhưng giảm chậm hơn nhiều. Sau khoảng 700 lần lặp lại, mức tổn thất vẫn giữ nguyên.

Một mô hình hội tụ khi việc huấn luyện thêm sẽ không cải thiện mô hình.

Trong học sâu, đôi khi các giá trị tổn thất vẫn giữ nguyên hoặc gần như vậy trong nhiều lần lặp lại trước khi giảm xuống. Trong một khoảng thời gian dài có các giá trị tổn thất không đổi, bạn có thể tạm thời có cảm giác sai lầm về sự hội tụ.

Xem thêm dừng sớm.

Hãy xem phần Đường cong hội tụ và tổn thất của mô hình trong Khoá học cấp tốc về học máy để biết thêm thông tin.

D

DataFrame

#fundamentals

Một kiểu dữ liệu pandas phổ biến để biểu thị tập dữ liệu trong bộ nhớ.

DataFrame tương tự như một bảng hoặc bảng tính. Mỗi cột của DataFrame có một tên (tiêu đề) và mỗi hàng được xác định bằng một số duy nhất.

Mỗi cột trong DataFrame có cấu trúc giống như một mảng 2D, ngoại trừ việc mỗi cột có thể được chỉ định kiểu dữ liệu riêng.

Bạn cũng có thể xem trang tham chiếu pandas.DataFrame chính thức.

tập dữ liệu hoặc tập dữ liệu

#fundamentals

Một tập hợp dữ liệu thô, thường (nhưng không chỉ) được sắp xếp theo một trong các định dạng sau:

  • bảng tính
  • một tệp ở định dạng CSV (giá trị được phân tách bằng dấu phẩy)

mô hình sâu

#fundamentals

Một mạng nơ-ron chứa nhiều lớp ẩn.

Mô hình sâu còn được gọi là mạng nơron sâu.

Tương phản với mô hình rộng.

tính chất dày đặc

#fundamentals

Một đặc điểm trong đó hầu hết hoặc tất cả các giá trị đều khác 0, thường là một Tensor gồm các giá trị dấu phẩy động. Ví dụ: Tensor gồm 10 phần tử sau đây là Tensor dày đặc vì 9 trong số các giá trị của Tensor này khác 0:

8 3 7 5 2 4 0 4 9 6

Tương phản với tính năng thưa.

chiều sâu

#fundamentals

Tổng của những nội dung sau trong mạng nơron:

Ví dụ: một mạng nơ-ron có 5 lớp ẩn và 1 lớp đầu ra có độ sâu là 6.

Xin lưu ý rằng lớp đầu vào không ảnh hưởng đến độ sâu.

tính chất rời rạc

#fundamentals

Một đặc điểm có một tập hợp hữu hạn các giá trị có thể có. Ví dụ: một đối tượng có các giá trị chỉ có thể là động vật, thực vật hoặc khoáng chất là một đối tượng rời rạc (hoặc phân loại).

Tương phản với tính năng liên tục.

linh động

#fundamentals

Một việc được thực hiện thường xuyên hoặc liên tục. Các thuật ngữ độngtrực tuyến là từ đồng nghĩa trong học máy. Sau đây là những cách sử dụng phổ biến của độngtrực tuyến trong học máy:

  • Mô hình động (hoặc mô hình trực tuyến) là mô hình được đào tạo lại thường xuyên hoặc liên tục.
  • Đào tạo linh hoạt (hoặc đào tạo trực tuyến) là quy trình đào tạo thường xuyên hoặc liên tục.
  • Suy luận động (hoặc suy luận trực tuyến) là quy trình tạo ra các dự đoán theo yêu cầu.

mô hình động

#fundamentals

Một mô hình thường xuyên (thậm chí có thể liên tục) được huấn luyện lại. Mô hình động là một "người học tập suốt đời" không ngừng thích ứng với dữ liệu đang phát triển. Mô hình động còn được gọi là mô hình trực tuyến.

Tương phản với mô hình tĩnh.

E

dừng sớm

#fundamentals

Một phương pháp điều chỉnh liên quan đến việc kết thúc đào tạo trước khi quá trình giảm tổn thất đào tạo kết thúc. Trong tính năng dừng sớm, bạn cố ý dừng huấn luyện mô hình khi mức tổn thất trên tập dữ liệu xác thực bắt đầu tăng; tức là khi hiệu suất khái quát hoá giảm.

Tương phản với lối thoát sớm.

lớp nhúng

#fundamentals

Một lớp ẩn đặc biệt huấn luyện trên một đặc điểm phân loại có nhiều chiều để dần dần tìm hiểu một vectơ nhúng có ít chiều hơn. Lớp nhúng cho phép mạng nơ-ron huấn luyện hiệu quả hơn nhiều so với chỉ huấn luyện trên tính năng phân loại nhiều chiều.

Ví dụ: Earth hiện hỗ trợ khoảng 73.000 loài cây. Giả sử loài cây là một đối tượng trong mô hình của bạn, vì vậy,lớp đầu vào của mô hình sẽ bao gồm một vectơ một lần mã hoá có độ dài 73.000 phần tử. Ví dụ: có lẽ baobab sẽ được biểu thị như sau:

Một mảng gồm 73.000 phần tử. 6.232 phần tử đầu tiên có giá trị 0. Phần tử tiếp theo giữ giá trị 1. 66.767 phần tử cuối cùng giữ giá trị bằng 0.

Mảng gồm 73.000 phần tử là rất dài. Nếu bạn không thêm một lớp nhúng vào mô hình, quá trình huấn luyện sẽ mất rất nhiều thời gian do nhân 72.999 số 0. Có thể bạn chọn lớp nhúng bao gồm 12 phương diện. Do đó, lớp nhúng sẽ dần học được một vectơ nhúng mới cho mỗi loài cây.

Trong một số trường hợp, băm là một giải pháp thay thế hợp lý cho lớp nhúng.

Hãy xem bài viết Nhúng trong Khoá học học máy ứng dụng để biết thêm thông tin.

thời gian bắt đầu của hệ thống

#fundamentals

Một lượt huấn luyện đầy đủ trên toàn bộ tập huấn luyện sao cho mỗi ví dụ đã được xử lý một lần.

Một epoch biểu thị N/kích thước lô số lần lặp lại huấn luyện, trong đó N là tổng số ví dụ.

Ví dụ: giả sử như sau:

  • Tập dữ liệu này bao gồm 1.000 ví dụ.
  • Kích thước lô là 50 ví dụ.

Do đó, một giai đoạn duy nhất yêu cầu 20 lần lặp:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Hãy xem phần Hồi quy tuyến tính: Siêu tham số trong Khoá học cấp tốc về học máy để biết thêm thông tin.

ví dụ

#fundamentals

Giá trị của một hàng đặc_trưng và có thể là một nhãn. Các ví dụ về học có giám sát thuộc 2 danh mục chung:

  • Một ví dụ được gắn nhãn bao gồm một hoặc nhiều đối tượng và một nhãn. Các ví dụ được gắn nhãn được dùng trong quá trình huấn luyện.
  • Một ví dụ không được gắn nhãn bao gồm một hoặc nhiều đối tượng nhưng không có nhãn. Các ví dụ không được gắn nhãn sẽ được dùng trong quá trình suy luận.

Ví dụ: giả sử bạn đang huấn luyện một mô hình để xác định mức độ ảnh hưởng của điều kiện thời tiết đến điểm kiểm tra của học viên. Sau đây là 3 ví dụ được gắn nhãn:

Tính năng Hãng nhạc
Nhiệt độ Độ ẩm Áp lực Điểm kiểm tra
15 47 998 Tốt
19 34 1020 Rất tốt
18 92 1012 Kém

Sau đây là 3 ví dụ không được gắn nhãn:

Nhiệt độ Độ ẩm Áp lực  
12 62 1014  
21 47 1017  
19 41 1021  

Hàng của một tập dữ liệu thường là nguồn thô cho một ví dụ. Tức là một ví dụ thường bao gồm một tập hợp con của các cột trong tập dữ liệu. Ngoài ra, các đối tượng trong một ví dụ cũng có thể bao gồm đối tượng tổng hợp, chẳng hạn như đối tượng kết hợp.

Hãy xem phần Học có giám sát trong khoá học Giới thiệu về học máy để biết thêm thông tin.

F

âm tính giả (FN)

#fundamentals
#Chỉ số

Ví dụ về trường hợp mô hình dự đoán nhầm lớp âm tính. Ví dụ: mô hình dự đoán rằng một thư email cụ thể không phải là thư rác (lớp âm tính), nhưng thư email đó thực sự là thư rác.

dương tính giả (FP)

#fundamentals
#Chỉ số

Ví dụ trong đó mô hình dự đoán nhầm lớp dương tính. Ví dụ: mô hình dự đoán rằng một thư email cụ thể là thư rác (lớp dương tính), nhưng thư email đó thực sự không phải là thư rác.

Hãy xem phần Ngưỡng và ma trận nhầm lẫn trong Khoá học học máy ứng dụng để biết thêm thông tin.

tỷ lệ dương tính giả (FPR)

#fundamentals
#Chỉ số

Tỷ lệ ví dụ thực tế có kết quả âm tính mà mô hình dự đoán nhầm thành lớp dương tính. Công thức sau đây dùng để tính tỷ lệ dương tính giả:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Tỷ lệ dương tính giả là trục x trong đường cong ROC.

Hãy xem phần Phân loại: ROC và AUC trong Khoá học học máy ứng dụng để biết thêm thông tin.

tính năng

#fundamentals

Một biến đầu vào cho mô hình học máy. Một ví dụ bao gồm một hoặc nhiều đối tượng. Ví dụ: giả sử bạn đang huấn luyện một mô hình để xác định mức độ ảnh hưởng của điều kiện thời tiết đến điểm kiểm tra của học viên. Bảng sau đây cho thấy 3 ví dụ, mỗi ví dụ chứa 3 đối tượng và 1 nhãn:

Tính năng Hãng nhạc
Nhiệt độ Độ ẩm Áp lực Điểm kiểm tra
15 47 998 92
19 34 1020 84
18 92 1012 87

Độ tương phản với nhãn.

Hãy xem phần Học có giám sát trong khoá học Giới thiệu về học máy để biết thêm thông tin.

nhân chéo tính năng

#fundamentals

Một đặc điểm tổng hợp được hình thành bằng cách "kết hợp" các đặc điểm theo danh mục hoặc theo nhóm.

Ví dụ: hãy xem xét một mô hình "dự báo tâm trạng" biểu thị nhiệt độ trong một trong 4 nhóm sau:

  • freezing
  • chilly
  • temperate
  • warm

Đồng thời biểu thị tốc độ gió theo một trong 3 mức sau:

  • still
  • light
  • windy

Nếu không có tính năng kết hợp, mô hình tuyến tính sẽ huấn luyện độc lập trên từng trong số 7 nhóm khác nhau trước đó. Vì vậy, mô hình sẽ huấn luyện trên freezing (ví dụ) một cách độc lập với việc huấn luyện trên windy (ví dụ).

Ngoài ra, bạn có thể tạo một tổ hợp chéo của nhiệt độ và tốc độ gió. Tính năng tổng hợp này sẽ có 12 giá trị có thể có sau đây:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Nhờ tính năng kết hợp, mô hình có thể tìm hiểu sự khác biệt về tâm trạng giữa một ngày freezing-windy và một ngày freezing-still.

Nếu bạn tạo một đặc điểm tổng hợp từ 2 đặc điểm, mỗi đặc điểm có nhiều nhóm khác nhau, thì đặc điểm kết hợp thu được sẽ có vô số tổ hợp có thể. Ví dụ: nếu một tính năng có 1.000 bộ chứa và tính năng kia có 2.000 bộ chứa, thì tính năng kết hợp thu được sẽ có 2.000.000 bộ chứa.

Về mặt hình thức, dấu thập là một tích Đề các.

Tương tác giữa các đặc điểm chủ yếu được dùng với các mô hình tuyến tính và hiếm khi được dùng với mạng nơ-ron.

Hãy xem phần Dữ liệu phân loại: Tương tác giữa các đối tượng trong Khoá học cấp tốc về học máy để biết thêm thông tin.

kỹ thuật trích xuất tính chất

#fundamentals
#TensorFlow

Một quy trình bao gồm các bước sau:

  1. Xác định những đặc điểm có thể hữu ích trong việc huấn luyện một mô hình.
  2. Chuyển đổi dữ liệu thô từ tập dữ liệu thành các phiên bản hiệu quả của những tính năng đó.

Ví dụ: bạn có thể xác định rằng temperature có thể là một tính năng hữu ích. Sau đó, bạn có thể thử nghiệm với phân nhóm để tối ưu hoá những gì mô hình có thể học được từ các dải temperature khác nhau.

Kỹ thuật đặc trưng đôi khi được gọi là trích xuất đặc trưng hoặc tạo đặc trưng.

Hãy xem phần Dữ liệu dạng số: Cách một mô hình tiếp nhận dữ liệu bằng cách sử dụng vectơ đặc trưng trong Khoá học cấp tốc về học máy để biết thêm thông tin.

tập hợp tính năng

#fundamentals

Nhóm các tính năngmô hình học máy của bạn huấn luyện. Ví dụ: một bộ tính năng đơn giản cho mô hình dự đoán giá nhà có thể bao gồm mã bưu chính, quy mô tài sản và tình trạng tài sản.

vectơ đặc trưng

#fundamentals

Mảng giá trị feature bao gồm một example. Vectơ đặc trưng được nhập trong quá trình huấn luyện và trong quá trình suy luận. Ví dụ: vectơ đặc trưng cho một mô hình có 2 đặc trưng rời rạc có thể là:

[0.92, 0.56]

4 lớp: một lớp đầu vào, 2 lớp ẩn và một lớp đầu ra.
          Lớp đầu vào chứa hai nút, một nút chứa giá trị 0,92 và nút còn lại chứa giá trị 0,56.

Mỗi ví dụ cung cấp các giá trị khác nhau cho vectơ đặc trưng, vì vậy, vectơ đặc trưng cho ví dụ tiếp theo có thể là:

[0.73, 0.49]

Thiết kế đặc điểm xác định cách biểu thị các đặc điểm trong vectơ đặc điểm. Ví dụ: một đặc điểm phân loại nhị phân có 5 giá trị có thể được biểu thị bằng mã hoá một lần nóng. Trong trường hợp này, phần của vectơ đối tượng cho một ví dụ cụ thể sẽ bao gồm 4 số 0 và một số 1.0 ở vị trí thứ ba, như sau:

[0.0, 0.0, 1.0, 0.0, 0.0]

Một ví dụ khác, giả sử mô hình của bạn bao gồm 3 đặc điểm:

  • một đặc điểm phân loại nhị phân có năm giá trị có thể được biểu thị bằng phương pháp mã hoá một lần nóng; ví dụ: [0.0, 1.0, 0.0, 0.0, 0.0]
  • một đặc điểm phân loại nhị phân khác có 3 giá trị có thể được biểu thị bằng mã hoá one-hot; ví dụ: [0.0, 0.0, 1.0]
  • một đối tượng dấu phẩy động; ví dụ: 8.3.

Trong trường hợp này, vectơ đặc trưng cho mỗi ví dụ sẽ được biểu thị bằng 9 giá trị. Với các giá trị mẫu trong danh sách trước đó, vectơ đối tượng sẽ là:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Hãy xem phần Dữ liệu dạng số: Cách một mô hình tiếp nhận dữ liệu bằng cách sử dụng vectơ đặc trưng trong Khoá học cấp tốc về học máy để biết thêm thông tin.

vòng hồi tiếp

#fundamentals

Trong học máy, đây là trường hợp mà các dự đoán của một mô hình ảnh hưởng đến dữ liệu huấn luyện cho cùng một mô hình hoặc một mô hình khác. Ví dụ: một mô hình đề xuất phim sẽ ảnh hưởng đến những bộ phim mà mọi người xem, sau đó sẽ ảnh hưởng đến các mô hình đề xuất phim tiếp theo.

Hãy xem phần Hệ thống học máy trong sản xuất: Những câu hỏi cần đặt ra trong Khoá học cấp tốc về học máy để biết thêm thông tin.

G

khái quát hoá

#fundamentals

Khả năng của mô hình trong việc đưa ra dự đoán chính xác về dữ liệu mới mà trước đây chưa từng thấy. Một mô hình có thể khái quát hoá là mô hình ngược lại với mô hình khớp quá mức.

Hãy xem phần Khái quát hoá trong Khoá học học máy ứng dụng để biết thêm thông tin.

đường cong tổng quát hoá

#fundamentals

Biểu đồ về cả mất mát khi huấn luyệnmất mát khi xác thực dưới dạng một hàm của số lần lặp lại.

Đường cong khái quát hoá có thể giúp bạn phát hiện hiện tượng khớp quá mức. Ví dụ: đường cong khái quát hoá sau đây cho thấy tình trạng khớp quá mức vì tổn thất xác thực cuối cùng cao hơn đáng kể so với tổn thất huấn luyện.

Một biểu đồ Đề-các trong đó trục y được gắn nhãn là tổn thất và trục x được gắn nhãn là số lần lặp. Hai biểu đồ sẽ xuất hiện. Một biểu đồ cho thấy tổn thất huấn luyện và biểu đồ còn lại cho thấy tổn thất xác thực.
          Hai biểu đồ bắt đầu tương tự nhau, nhưng tổn thất trong quá trình huấn luyện cuối cùng sẽ giảm xuống thấp hơn nhiều so với tổn thất trong quá trình xác thực.

Hãy xem phần Khái quát hoá trong Khoá học học máy ứng dụng để biết thêm thông tin.

phương pháp giảm độ dốc

#fundamentals

Một kỹ thuật toán học để giảm thiểu mất mát. Phương pháp hạ dốc điều chỉnh lặp đi lặp lại trọng sốđộ lệch, dần dần tìm ra sự kết hợp tốt nhất để giảm thiểu tổn thất.

Phương pháp hạ độ dốc ra đời trước công nghệ học máy rất lâu.

Hãy xem phần Hồi quy tuyến tính: Phương pháp hạ độ dốc trong Khoá học cấp tốc về học máy để biết thêm thông tin.

dữ liệu thực tế

#fundamentals

Thực tế.

Điều thực sự đã xảy ra.

Ví dụ: hãy xem xét một mô hình phân loại nhị phân dự đoán xem một sinh viên năm nhất có tốt nghiệp trong vòng 6 năm hay không. Đầu ra thực sự cho mô hình này là việc học viên đó có thực sự tốt nghiệp trong vòng 6 năm hay không.

Cao

lớp ẩn

#fundamentals

Một lớp trong mạng nơ-ron giữa lớp đầu vào (các đối tượng) và lớp đầu ra (dự đoán). Mỗi lớp ẩn bao gồm một hoặc nhiều nơ-ron. Ví dụ: mạng nơ-ron sau đây chứa hai lớp ẩn, lớp đầu tiên có 3 nơ-ron và lớp thứ hai có 2 nơ-ron:

Bốn lớp. Lớp đầu tiên là một lớp đầu vào chứa hai đặc điểm. Lớp thứ hai là một lớp ẩn chứa 3 nơ-ron. Lớp thứ ba là một lớp ẩn chứa 2 nơ-ron. Lớp thứ tư là lớp đầu ra. Mỗi đối tượng chứa 3 cạnh, mỗi cạnh trỏ đến một nơ-ron khác nhau trong lớp thứ hai. Mỗi nơ-ron trong lớp thứ hai chứa hai cạnh, mỗi cạnh trỏ đến một nơ-ron khác trong lớp thứ ba. Mỗi nơ-ron trong lớp thứ ba chứa một cạnh, mỗi cạnh trỏ đến lớp đầu ra.

Một mạng nơ-ron sâu chứa nhiều lớp ẩn. Ví dụ: hình minh hoạ trước đó là một mạng nơ-ron sâu vì mô hình này có 2 lớp ẩn.

Hãy xem phần Mạng nơ-ron: Các nút và lớp ẩn trong Khoá học cấp tốc về học máy để biết thêm thông tin.

siêu tham số

#fundamentals

Các biến mà bạn hoặc dịch vụ điều chỉnh siêu tham sốđiều chỉnh trong các lần chạy liên tiếp của việc huấn luyện một mô hình. Ví dụ: tốc độ học tập là một siêu tham số. Bạn có thể đặt tốc độ học thành 0,01 trước một phiên huấn luyện. Nếu xác định rằng 0,01 là quá cao, bạn có thể đặt tốc độ học thành 0,003 cho phiên đào tạo tiếp theo.

Ngược lại, tham số là nhiều trọng sốđộ lệch mà mô hình học được trong quá trình huấn luyện.

Hãy xem phần Hồi quy tuyến tính: Siêu tham số trong Khoá học cấp tốc về học máy để biết thêm thông tin.

I

phân phối độc lập và đồng nhất (i.i.d)

#fundamentals

Dữ liệu được lấy từ một phân phối không thay đổi và trong đó mỗi giá trị được lấy không phụ thuộc vào các giá trị đã được lấy trước đó. i.i.d. là khí lý tưởng của học máy – một cấu trúc toán học hữu ích nhưng hầu như không bao giờ xuất hiện chính xác trong thế giới thực. Ví dụ: việc phân phối khách truy cập vào một trang web có thể là i.i.d. trong một khoảng thời gian ngắn; tức là việc phân phối không thay đổi trong khoảng thời gian ngắn đó và lượt truy cập của một người thường độc lập với lượt truy cập của người khác. Tuy nhiên, nếu bạn mở rộng khoảng thời gian đó, thì sự khác biệt theo mùa về khách truy cập trang web có thể xuất hiện.

Xem thêm nonstationarity.

suy luận

#fundamentals
#generativeAI

Trong công nghệ học máy truyền thống, quy trình đưa ra dự đoán bằng cách áp dụng một mô hình đã được huấn luyện cho các ví dụ chưa được gắn nhãn. Hãy xem phần Học có giám sát trong khoá học Giới thiệu về học máy để tìm hiểu thêm.

Trong mô hình ngôn ngữ lớn, suy luận là quá trình sử dụng một mô hình đã được huấn luyện để tạo ra một phản hồi cho một câu lệnh đầu vào.

Suy luận có một ý nghĩa khác trong thống kê. Hãy xem bài viết trên Wikipedia về suy luận thống kê để biết thông tin chi tiết.

lớp đầu vào

#fundamentals

Lớp của một mạng nơron chứa vectơ đặc trưng. Tức là lớp đầu vào cung cấp ví dụ cho đào tạo hoặc suy luận. Ví dụ: lớp đầu vào trong mạng nơ-ron sau đây bao gồm 2 đặc điểm:

Bốn lớp: một lớp đầu vào, hai lớp ẩn và một lớp đầu ra.

khả năng diễn giải

#fundamentals

Khả năng giải thích hoặc trình bày lý do của mô hình học máy bằng những thuật ngữ dễ hiểu cho con người.

Ví dụ: Hầu hết các mô hình hồi quy tuyến tính đều có khả năng diễn giải cao. (Bạn chỉ cần xem xét trọng số đã được huấn luyện cho từng đối tượng.) Rừng quyết định cũng có khả năng diễn giải cao. Tuy nhiên, một số mô hình yêu cầu hình ảnh trực quan phức tạp để có thể diễn giải.

Bạn có thể sử dụng Công cụ diễn giải việc học (LIT) để diễn giải các mô hình học máy.

lặp lại

#fundamentals

Một lần cập nhật các tham số của mô hìnhtrọng sốđộ lệch của mô hình – trong quá trình huấn luyện. Kích thước lô xác định số lượng ví dụ mà mô hình xử lý trong một lần lặp. Ví dụ: nếu kích thước lô là 20, thì mô hình sẽ xử lý 20 ví dụ trước khi điều chỉnh các tham số.

Khi huấn luyện một mạng nơron, một lần lặp lại duy nhất sẽ bao gồm 2 lượt truyền sau:

  1. Một đường chuyền chuyển tiếp để đánh giá tổn thất trên một lô duy nhất.
  2. Một đường truyền ngược (lan truyền ngược) để điều chỉnh các tham số của mô hình dựa trên mức tổn thất và tốc độ học.

Hãy xem phần Hạ độ dốc trong Khoá học học máy ứng dụng để biết thêm thông tin.

L

Điều hoà L0

#fundamentals

Một loại điều chỉnh sẽ phạt tổng số trọng số khác 0 trong một mô hình. Ví dụ: một mô hình có 11 trọng số khác 0 sẽ bị phạt nhiều hơn một mô hình tương tự có 10 trọng số khác 0.

Điều chuẩn L0 đôi khi được gọi là điều chuẩn L0-norm.

Tổn thất L1

#fundamentals
#Chỉ số

Một hàm tổn thất tính toán giá trị tuyệt đối của mức chênh lệch giữa các giá trị nhãn thực tế và các giá trị mà một mô hình dự đoán. Ví dụ: sau đây là cách tính tổn thất L1 cho một gồm 5 ví dụ:

Giá trị thực tế của ví dụ Giá trị dự đoán của mô hình Giá trị tuyệt đối của delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = tổn thất L1

Mất mát L1 ít nhạy cảm với giá trị ngoại lệ hơn mất mát L2.

Sai số tuyệt đối trung bình là mức tổn thất L1 trung bình trên mỗi ví dụ.

Hãy xem phần Hồi quy tuyến tính: Mất mát trong Khoá học cấp tốc về học máy để biết thêm thông tin.

Điều hoà L1

#fundamentals

Một loại điều chỉnh sẽ phạt trọng số theo tỷ lệ với tổng giá trị tuyệt đối của trọng số. Việc điều chỉnh L1 giúp giảm trọng số của các đặc điểm không liên quan hoặc hầu như không liên quan xuống chính xác bằng 0. Một đặc điểm có trọng số bằng 0 sẽ bị loại bỏ khỏi mô hình.

Tương phản với điều hoà L2.

Tổn thất L2

#fundamentals
#Chỉ số

Một hàm tổn thất tính bình phương của sự khác biệt giữa các giá trị nhãn thực tế và các giá trị mà một mô hình dự đoán. Ví dụ: sau đây là cách tính tổn thất L2 cho một gồm 5 ví dụ:

Giá trị thực tế của ví dụ Giá trị dự đoán của mô hình Bình phương của delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = tổn thất L2

Do bình phương, tổn thất L2 sẽ khuếch đại ảnh hưởng của các giá trị ngoại lai. Tức là tổn thất L2 phản ứng mạnh hơn với các dự đoán không chính xác so với tổn thất L1. Ví dụ: tổn thất L1 cho lô trước đó sẽ là 8 thay vì 16. Xin lưu ý rằng một giá trị ngoại lệ duy nhất chiếm 9 trong số 16 giá trị.

Mô hình hồi quy thường sử dụng tổn thất L2 làm hàm tổn thất.

Sai số bình phương trung bình là tổn thất L2 trung bình trên mỗi ví dụ. Tổn thất bình phương là một tên khác của tổn thất L2.

Hãy xem phần Hồi quy logistic: Hàm mất mát và điều chuẩn trong Khoá học cấp tốc về học máy để biết thêm thông tin.

Điều hoà L2

#fundamentals

Một loại điều chuẩn sẽ phạt trọng số theo tỷ lệ với tổng bình phương của trọng số. Việc điều chỉnh L2 giúp đẩy các trọng số ngoại lai (những trọng số có giá trị dương cao hoặc giá trị âm thấp) gần bằng 0 hơn nhưng không hoàn toàn bằng 0. Các đối tượng có giá trị rất gần với 0 vẫn nằm trong mô hình nhưng không ảnh hưởng nhiều đến dự đoán của mô hình.

Việc điều chỉnh L2 luôn cải thiện khả năng khái quát hoá trong các mô hình tuyến tính.

Tương phản với điều hoà L1.

Hãy xem phần Trang bị quá khớp: Điều chỉnh L2 trong Khoá học học máy ứng dụng để biết thêm thông tin.

nhãn

#fundamentals

Trong học máy có giám sát, phần "câu trả lời" hoặc "kết quả" của một ví dụ.

Mỗi ví dụ được gắn nhãn bao gồm một hoặc nhiều đặc điểm và một nhãn. Ví dụ: trong một tập dữ liệu phát hiện thư rác, nhãn có thể là "thư rác" hoặc "không phải thư rác". Trong một tập dữ liệu về lượng mưa, nhãn có thể là lượng mưa trong một khoảng thời gian nhất định.

Hãy xem phần Học có giám sát trong bài viết Giới thiệu về học máy để biết thêm thông tin.

ví dụ được gắn nhãn

#fundamentals

Một ví dụ chứa một hoặc nhiều đối tượng và một nhãn. Ví dụ: bảng sau đây cho thấy 3 ví dụ được gắn nhãn từ một mô hình định giá nhà, mỗi ví dụ có 3 đối tượng và 1 nhãn:

Số lượng phòng ngủ Số lượng phòng tắm Tuổi của nhà Giá nhà (nhãn)
3 2 15 345.000 USD
2 1 72 $179.000
4 2 34 392.000 USD

Trong công nghệ học máy có giám sát, các mô hình sẽ được huấn luyện dựa trên các ví dụ được gắn nhãn và đưa ra dự đoán về các ví dụ chưa được gắn nhãn.

So sánh ví dụ có nhãn với ví dụ không có nhãn.

Hãy xem phần Học có giám sát trong bài viết Giới thiệu về học máy để biết thêm thông tin.

lambda

#fundamentals

Từ đồng nghĩa với hệ số điều hoà.

Lambda là một thuật ngữ được nạp chồng. Ở đây, chúng ta sẽ tập trung vào định nghĩa của thuật ngữ trong quy trình chuẩn hoá.

lớp

#fundamentals

Một nhóm nơron trong mạng nơron. Sau đây là 3 loại lớp phổ biến:

Ví dụ: hình minh hoạ sau đây cho thấy một mạng nơ-ron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra:

Một mạng nơ-ron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra. Lớp đầu vào bao gồm 2 đối tượng. Lớp ẩn đầu tiên bao gồm 3 nơ-ron và lớp ẩn thứ hai bao gồm 2 nơ-ron. Lớp đầu ra bao gồm một nút duy nhất.

Trong TensorFlow, các lớp cũng là những hàm Python nhận Tensor và các lựa chọn cấu hình làm dữ liệu đầu vào và tạo ra các tensor khác làm dữ liệu đầu ra.

tốc độ học

#fundamentals

Một số thực cho biết thuật toán hạ độ dốc điều chỉnh trọng số và độ lệch mạnh đến mức nào trên mỗi lần lặp lại. Ví dụ: tốc độ học tập là 0,3 sẽ điều chỉnh trọng số và độ lệch mạnh hơn gấp 3 lần so với tốc độ học tập là 0,1.

Tốc độ học tập là một siêu tham số quan trọng. Nếu bạn đặt tốc độ học quá thấp, quá trình huấn luyện sẽ mất quá nhiều thời gian. Nếu bạn đặt tốc độ học tập quá cao, thì quá trình giảm độ dốc thường gặp khó khăn trong việc đạt được sự hội tụ.

Hãy xem phần Hồi quy tuyến tính: Siêu tham số trong Khoá học cấp tốc về học máy để biết thêm thông tin.

tuyến tính

#fundamentals

Mối quan hệ giữa hai hoặc nhiều biến chỉ có thể được biểu thị thông qua phép cộng và phép nhân.

Đồ thị của mối quan hệ tuyến tính là một đường thẳng.

Tương phản với phi tuyến tính.

mô hình tuyến tính

#fundamentals

Một mô hình chỉ định một trọng số cho mỗi đặc điểm để đưa ra dự đoán. (Mô hình tuyến tính cũng kết hợp độ lệch.) Ngược lại, mối quan hệ giữa các đặc điểm với dự đoán trong các mô hình sâu thường là phi tuyến tính.

Các mô hình tuyến tính thường dễ huấn luyện và dễ diễn giải hơn so với các mô hình sâu. Tuy nhiên, các mô hình sâu có thể học được các mối quan hệ phức tạp giữa các đặc điểm.

Hồi quy tuyến tínhhồi quy logistic là hai loại mô hình tuyến tính.

hồi quy tuyến tính

#fundamentals

Một loại mô hình học máy mà cả hai điều kiện sau đều đúng:

  • Mô hình này là một mô hình tuyến tính.
  • Giá trị dự đoán là giá trị dấu phẩy động. (Đây là phần hồi quy của hồi quy tuyến tính.)

So sánh hồi quy tuyến tính với hồi quy logistic. Ngoài ra, hãy so sánh hồi quy với phân loại.

Hãy xem phần Hồi quy tuyến tính trong Khoá học học máy ứng dụng để biết thêm thông tin.

hồi quy logistic

#fundamentals

Một loại mô hình hồi quy dự đoán xác suất. Mô hình hồi quy logistic có các đặc điểm sau:

  • Nhãn này là phân loại. Thuật ngữ hồi quy logistic thường đề cập đến hồi quy logistic nhị phân, tức là một mô hình tính toán xác suất cho các nhãn có 2 giá trị có thể. Một biến thể ít phổ biến hơn, hồi quy logistic đa thức, tính toán xác suất cho các nhãn có nhiều hơn hai giá trị có thể.
  • Hàm tổn thất trong quá trình huấn luyện là Tổn thất nhật ký. (Bạn có thể đặt song song nhiều đơn vị Log Loss cho các nhãn có nhiều hơn 2 giá trị có thể.)
  • Mô hình này có cấu trúc tuyến tính, không phải mạng nơ-ron sâu. Tuy nhiên, phần còn lại của định nghĩa này cũng áp dụng cho mô hình sâu dự đoán xác suất cho nhãn phân loại.

Ví dụ: hãy xem xét một mô hình hồi quy logistic tính toán xác suất của một email đầu vào là thư rác hay không phải thư rác. Trong quá trình suy luận, giả sử mô hình dự đoán là 0,72. Do đó, mô hình này đang ước tính:

  • Email có 72% khả năng là thư rác.
  • Có 28% khả năng email này không phải là thư rác.

Mô hình hồi quy logistic sử dụng cấu trúc gồm 2 bước sau:

  1. Mô hình này tạo ra một dự đoán thô (y') bằng cách áp dụng một hàm tuyến tính của các đặc điểm đầu vào.
  2. Mô hình này sử dụng thông tin dự đoán thô đó làm dữ liệu đầu vào cho một hàm sigmoid. Hàm này chuyển đổi thông tin dự đoán thô thành một giá trị từ 0 đến 1 (không bao gồm 0 và 1).

Giống như mọi mô hình hồi quy, mô hình hồi quy logistic dự đoán một con số. Tuy nhiên, số này thường trở thành một phần của mô hình phân loại nhị phân như sau:

  • Nếu số dự đoán lớn hơn ngưỡng phân loại, thì mô hình phân loại nhị phân sẽ dự đoán lớp dương.
  • Nếu số dự đoán nhỏ hơn ngưỡng phân loại, mô hình phân loại nhị phân sẽ dự đoán lớp âm.

Hãy xem phần Hồi quy logistic trong Khoá học học máy ứng dụng để biết thêm thông tin.

Tổn thất logistic

#fundamentals

Hàm tổn thất được dùng trong hồi quy logistic nhị phân.

Hãy xem phần Hồi quy logistic: Hàm tổn thất và điều chuẩn trong Khoá học cấp tốc về học máy để biết thêm thông tin.

log-odds

#fundamentals

Logarit của tỷ lệ cược của một sự kiện nào đó.

thua

#fundamentals
#Chỉ số

Trong quá trình huấn luyện một mô hình có giám sát, một thước đo cho biết dự đoán của mô hình cách xa nhãn của mô hình bao nhiêu.

Hàm tổn thất tính toán tổn thất.

Hãy xem phần Hồi quy tuyến tính: Mất mát trong Khoá học cấp tốc về học máy để biết thêm thông tin.

đường cong tổn thất

#fundamentals

Biểu đồ mất mát dưới dạng hàm của số lượng lần lặp lại trong quá trình huấn luyện. Biểu đồ sau đây cho thấy một đường cong tổn thất điển hình:

Biểu đồ Đề-các về tổn thất so với các lần lặp lại huấn luyện, cho thấy tổn thất giảm nhanh chóng trong các lần lặp lại ban đầu, sau đó giảm dần và sau đó là độ dốc phẳng trong các lần lặp lại cuối cùng.

Đường cong tổn thất có thể giúp bạn xác định thời điểm mô hình của bạn hội tụ hoặc quá khớp.

Đường cong tổn thất có thể vẽ tất cả các loại tổn thất sau đây:

Xem thêm đường cong khái quát hoá.

Hãy xem phần Huấn luyện quá mức: Giải thích các đường cong tổn thất trong Khoá học cấp tốc về học máy để biết thêm thông tin.

hàm tổn thất

#fundamentals
#Chỉ số

Trong quá trình huấn luyện hoặc kiểm thử, một hàm toán học sẽ tính toán mức tổn thất trên một ví dụ. Hàm tổn thất trả về mức tổn thất thấp hơn cho những mô hình đưa ra dự đoán chính xác so với những mô hình đưa ra dự đoán không chính xác.

Mục tiêu của việc huấn luyện thường là giảm thiểu mức tổn thất mà một hàm tổn thất trả về.

Có nhiều loại hàm tổn thất. Chọn hàm tổn thất phù hợp cho loại mô hình mà bạn đang xây dựng. Ví dụ:

M

học máy

#fundamentals

Một chương trình hoặc hệ thống huấn luyện một mô hình từ dữ liệu đầu vào. Mô hình được huấn luyện có thể đưa ra những dự đoán hữu ích từ dữ liệu mới (chưa từng thấy) được lấy từ cùng một bản phân phối như bản phân phối được dùng để huấn luyện mô hình.

Học máy cũng đề cập đến lĩnh vực nghiên cứu liên quan đến các chương trình hoặc hệ thống này.

Hãy xem khoá học Giới thiệu về học máy để biết thêm thông tin.

lớp đa số

#fundamentals

Nhãn phổ biến hơn trong tập dữ liệu bất cân đối về loại. Ví dụ: với một tập dữ liệu chứa 99% nhãn âm tính và 1% nhãn dương tính, nhãn âm tính là lớp đa số.

Tương phản với lớp thiểu số.

Hãy xem phần Tập dữ liệu: Tập dữ liệu không cân bằng trong Khoá học cấp tốc về học máy để biết thêm thông tin.

lô nhỏ

#fundamentals

Một nhóm nhỏ được chọn ngẫu nhiên trong một được xử lý trong một lần lặp. Kích thước lô của một lô nhỏ thường nằm trong khoảng từ 10 đến 1.000 ví dụ.

Ví dụ: giả sử toàn bộ tập huấn luyện (toàn bộ lô) bao gồm 1.000 ví dụ. Giả sử bạn đặt kích thước lô của mỗi lô nhỏ thành 20. Do đó, mỗi lần lặp lại sẽ xác định mức tổn thất trên 20 ví dụ ngẫu nhiên trong số 1.000 ví dụ,sau đó điều chỉnh trọng sốđộ lệch cho phù hợp.

Việc tính toán mức tổn thất trên một lô nhỏ hiệu quả hơn nhiều so với mức tổn thất trên tất cả các ví dụ trong lô đầy đủ.

Hãy xem phần Hồi quy tuyến tính: Siêu tham số trong Khoá học cấp tốc về học máy để biết thêm thông tin.

nhóm thiểu số

#fundamentals

Nhãn ít phổ biến hơn trong tập dữ liệu không cân bằng theo lớp. Ví dụ: cho một tập dữ liệu chứa 99% nhãn âm và 1% nhãn dương, nhãn dương là lớp thiểu số.

Tương phản với lớp đa số.

Hãy xem phần Tập dữ liệu: Tập dữ liệu không cân bằng trong Khoá học cấp tốc về học máy để biết thêm thông tin.

kiểu máy

#fundamentals

Nói chung, bất kỳ cấu trúc toán học nào xử lý dữ liệu đầu vào và trả về đầu ra. Nói cách khác, mô hình là tập hợp các thông số và cấu trúc cần thiết để một hệ thống đưa ra dự đoán. Trong công nghệ học máy có giám sát, một mô hình sẽ lấy một ví dụ làm dữ liệu đầu vào và suy luận một dự đoán làm dữ liệu đầu ra. Trong học máy có giám sát, các mô hình có sự khác biệt nhất định. Ví dụ:

  • Mô hình hồi quy tuyến tính bao gồm một tập hợp trọng số và một độ lệch.
  • Mô hình mạng nơron bao gồm:
    • Một tập hợp gồm các lớp ẩn, mỗi lớp chứa một hoặc nhiều nơ-ron.
    • Trọng số và độ lệch liên kết với từng nơ-ron.
  • Mô hình cây quyết định bao gồm:
    • Hình dạng của cây; tức là mẫu mà các điều kiện và lá được kết nối.
    • Các điều kiện và lá.

Bạn có thể lưu, khôi phục hoặc tạo bản sao của một mô hình.

Học máy không giám sát cũng tạo ra các mô hình, thường là một hàm có thể liên kết một ví dụ đầu vào với cụm phù hợp nhất.

phân loại đa mục

#fundamentals

Trong học có giám sát, vấn đề phân loại trong đó tập dữ liệu chứa hơn hai lớp nhãn. Ví dụ: nhãn trong tập dữ liệu Iris phải là một trong 3 lớp sau:

  • Iris setosa
  • Iris virginica
  • Iris versicolor

Một mô hình được huấn luyện trên tập dữ liệu Iris để dự đoán loại Iris trên các ví dụ mới đang thực hiện phân loại nhiều lớp.

Ngược lại, các vấn đề phân loại phân biệt chính xác giữa hai lớp là mô hình phân loại nhị phân. Ví dụ: mô hình email dự đoán thư rác hoặc không phải thư rác là mô hình phân loại nhị phân.

Trong các vấn đề về phân cụm, phân loại nhiều lớp đề cập đến hơn hai cụm.

Hãy xem phần Mạng nơ-ron: Phân loại nhiều lớp trong Khoá học cấp tốc về học máy để biết thêm thông tin.

Không

lớp âm

#fundamentals
#Chỉ số

Trong phân loại nhị phân, một lớp được gọi là dương tính và lớp còn lại được gọi là âm tính. Lớp dương là đối tượng hoặc sự kiện mà mô hình đang kiểm thử và lớp âm là khả năng khác. Ví dụ:

  • Lớp âm tính trong một xét nghiệm y tế có thể là "không phải khối u".
  • Lớp âm trong mô hình phân loại email có thể là "không phải thư rác".

Tương phản với lớp dương.

mạng nơ-ron

#fundamentals

Một mô hình chứa ít nhất một lớp ẩn. Mạng nơ-ron sâu là một loại mạng nơ-ron có nhiều lớp ẩn. Ví dụ: sơ đồ sau đây cho thấy một mạng nơ-ron sâu chứa 2 lớp ẩn.

Một mạng nơ-ron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra.

Mỗi nơ-ron trong mạng nơ-ron kết nối với tất cả các nút trong lớp tiếp theo. Ví dụ: trong sơ đồ trước đó, hãy lưu ý rằng mỗi trong số 3 nơ-ron ở lớp ẩn đầu tiên kết nối riêng biệt với cả 2 nơ-ron ở lớp ẩn thứ hai.

Mạng nơron được triển khai trên máy tính đôi khi được gọi là mạng nơron nhân tạo để phân biệt với mạng nơron có trong não và các hệ thần kinh khác.

Một số mạng nơ-ron có thể mô phỏng các mối quan hệ phi tuyến tính cực kỳ phức tạp giữa các đặc điểm và nhãn.

Xem thêm mạng nơron tích chậpmạng nơron hồi quy.

Hãy xem phần Mạng nơ-ron trong Khoá học học máy ứng dụng để biết thêm thông tin.

nơron

#fundamentals

Trong học máy, một đơn vị riêng biệt trong lớp ẩn của một mạng nơ-ron. Mỗi nơ-ron thực hiện hành động gồm 2 bước sau:

  1. Tính tổng có trọng số của các giá trị đầu vào nhân với trọng số tương ứng.
  2. Truyền tổng có trọng số làm dữ liệu đầu vào cho một hàm kích hoạt.

Một nơ-ron trong lớp ẩn đầu tiên chấp nhận dữ liệu đầu vào từ các giá trị của đối tượng trong lớp đầu vào. Một nơ-ron trong bất kỳ lớp ẩn nào ngoài lớp đầu tiên sẽ chấp nhận dữ liệu đầu vào từ các nơ-ron trong lớp ẩn trước đó. Ví dụ: một nơ-ron trong lớp ẩn thứ hai chấp nhận dữ liệu đầu vào từ các nơ-ron trong lớp ẩn thứ nhất.

Hình minh hoạ sau đây làm nổi bật 2 nơ-ron và các đầu vào của chúng.

Một mạng nơ-ron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra. Hai nơ-ron được làm nổi bật: một trong lớp ẩn đầu tiên và một trong lớp ẩn thứ hai. Nơ-ron được làm nổi bật trong lớp ẩn đầu tiên nhận dữ liệu đầu vào từ cả hai đặc điểm trong lớp đầu vào. Nơ-ron được làm nổi bật trong lớp ẩn thứ hai nhận dữ liệu đầu vào từ mỗi trong số 3 nơ-ron trong lớp ẩn thứ nhất.

Một nơron trong mạng nơron mô phỏng hành vi của các nơron trong não và các bộ phận khác của hệ thần kinh.

nút (mạng nơron)

#fundamentals

Một nơron trong một lớp ẩn.

Hãy xem phần Mạng nơ-ron trong Khoá học học máy ứng dụng để biết thêm thông tin.

phi tuyến tính

#fundamentals

Mối quan hệ giữa hai hoặc nhiều biến không thể chỉ được biểu thị thông qua phép cộng và phép nhân. Mối quan hệ tuyến tính có thể được biểu thị dưới dạng một đường thẳng; mối quan hệ phi tuyến tính không thể được biểu thị dưới dạng một đường thẳng. Ví dụ: hãy xem xét 2 mô hình, mỗi mô hình liên kết một tính năng duy nhất với một nhãn duy nhất. Mô hình bên trái là tuyến tính và mô hình bên phải là phi tuyến tính:

Hai lô đất. Một ô là một đường thẳng, vì vậy đây là mối quan hệ tuyến tính.
          Biểu đồ còn lại là một đường cong, nên đây là mối quan hệ phi tuyến tính.

Hãy xem phần Mạng nơ-ron: Các nút và lớp ẩn trong Khoá học cấp tốc về học máy để thử nghiệm nhiều loại hàm phi tuyến tính.

nonstationarity

#fundamentals

Một đối tượng có giá trị thay đổi theo một hoặc nhiều phương diện, thường là thời gian. Ví dụ: hãy xem xét các ví dụ sau về tính không dừng:

  • Số lượng đồ bơi được bán tại một cửa hàng cụ thể sẽ thay đổi theo mùa.
  • Số lượng một loại trái cây cụ thể được thu hoạch ở một khu vực cụ thể là 0 trong phần lớn thời gian của năm nhưng lại rất lớn trong một khoảng thời gian ngắn.
  • Do biến đổi khí hậu, nhiệt độ trung bình hằng năm đang thay đổi.

Tương phản với tính dừng.

chuẩn hoá

#fundamentals

Nói chung, quy trình chuyển đổi phạm vi giá trị thực tế của một biến thành phạm vi giá trị tiêu chuẩn, chẳng hạn như:

  • -1 đến +1
  • 0 đến 1
  • Điểm Z (từ -3 đến +3)

Ví dụ: giả sử phạm vi giá trị thực của một tính năng nhất định là từ 800 đến 2.400. Trong quá trình thiết kế tính năng, bạn có thể chuẩn hoá các giá trị thực xuống một phạm vi tiêu chuẩn, chẳng hạn như từ -1 đến +1.

Chuẩn hoá là một nhiệm vụ phổ biến trong kỹ thuật trích xuất đặc điểm. Các mô hình thường huấn luyện nhanh hơn (và đưa ra dự đoán chính xác hơn) khi mọi đặc điểm số trong vectơ đặc điểm có phạm vi gần như giống nhau.

Xem thêm Chuẩn hoá điểm Z.

Hãy xem phần Dữ liệu dạng số: Chuẩn hoá trong Khoá học cấp tốc về học máy để biết thêm thông tin.

dữ liệu dạng số

#fundamentals

Đối tượng được biểu thị dưới dạng số nguyên hoặc số thực. Ví dụ: mô hình định giá nhà có thể biểu thị quy mô của một ngôi nhà (tính bằng feet vuông hoặc mét vuông) dưới dạng dữ liệu dạng số. Việc biểu thị một đối tượng dưới dạng dữ liệu số cho biết rằng các giá trị của đối tượng có mối quan hệ toán học với nhãn. Tức là số mét vuông trong một ngôi nhà có thể có mối quan hệ toán học nào đó với giá trị của ngôi nhà.

Không phải tất cả dữ liệu số nguyên đều phải được biểu thị dưới dạng dữ liệu dạng số. Ví dụ: mã bưu chính ở một số nơi trên thế giới là số nguyên; tuy nhiên, mã bưu chính số nguyên không được biểu thị dưới dạng dữ liệu dạng số trong các mô hình. Điều này là do mã bưu chính 20000 không có hiệu quả gấp đôi (hoặc bằng một nửa) so với mã bưu chính 10000. Hơn nữa, mặc dù các mã bưu chính khác nhau tương quan với các giá trị bất động sản khác nhau, nhưng chúng ta không thể giả định rằng giá trị bất động sản tại mã bưu chính 20000 có giá trị gấp đôi so với giá trị bất động sản tại mã bưu chính 10000. Thay vào đó, bạn nên trình bày mã bưu chính dưới dạng dữ liệu phân loại.

Các đặc điểm bằng số đôi khi được gọi là đặc điểm liên tục.

Hãy xem phần Làm việc với dữ liệu dạng số trong Khoá học cấp tốc về học máy để biết thêm thông tin.

O

ngoại tuyến

#fundamentals

Từ đồng nghĩa với static.

suy luận ngoại tuyến

#fundamentals

Quy trình tạo một lô dự đoán của mô hình, sau đó lưu các dự đoán đó vào bộ nhớ đệm. Sau đó, các ứng dụng có thể truy cập vào dự đoán suy luận từ bộ nhớ đệm thay vì chạy lại mô hình.

Ví dụ: hãy xem xét một mô hình tạo thông tin dự báo thời tiết tại địa phương (dữ liệu dự đoán) mỗi 4 giờ một lần. Sau mỗi lần chạy mô hình, hệ thống sẽ lưu vào bộ nhớ đệm tất cả thông tin dự báo thời tiết địa phương. Các ứng dụng thời tiết truy xuất thông tin dự báo từ bộ nhớ đệm.

Suy luận ngoại tuyến còn được gọi là suy luận tĩnh.

Tương phản với suy luận trực tuyến. Hãy xem bài viết Hệ thống ML trong sản xuất: Suy luận tĩnh so với suy luận động trong Khoá học cấp tốc về học máy để biết thêm thông tin.

mã hoá one-hot

#fundamentals

Biểu thị dữ liệu phân loại dưới dạng một vectơ trong đó:

  • Một phần tử được đặt thành 1.
  • Tất cả các phần tử khác được đặt thành 0.

Mã hoá một lần thường được dùng để biểu thị các chuỗi hoặc giá trị nhận dạng có một tập hợp hữu hạn các giá trị có thể. Ví dụ: giả sử một tính năng phân loại nhất định có tên là Scandinavia có 5 giá trị có thể có:

  • "Đan Mạch"
  • "Thuỵ Điển"
  • "Na Uy"
  • "Phần Lan"
  • "Iceland"

Phương pháp mã hoá one-hot có thể biểu thị từng giá trị trong số 5 giá trị như sau:

Quốc gia Vectơ
"Đan Mạch" 1 0 0 0 0
"Thuỵ Điển" 0 1 0 0 0
"Na Uy" 0 0 1 0 0
"Phần Lan" 0 0 0 1 0
"Iceland" 0 0 0 0 1

Nhờ phương pháp mã hoá một lần, mô hình có thể tìm hiểu các mối liên kết khác nhau dựa trên từng quốc gia trong số 5 quốc gia.

Biểu thị một đối tượng dưới dạng dữ liệu số là một lựa chọn thay thế cho mã hoá one-hot. Rất tiếc, việc biểu thị các quốc gia Bắc Âu bằng số không phải là một lựa chọn hay. Ví dụ: hãy xem xét biểu diễn bằng số sau đây:

  • "Đan Mạch" là 0
  • "Thuỵ Điển" là 1
  • "Na Uy" là 2
  • "Phần Lan" là 3
  • "Iceland" là 4

Với phương pháp mã hoá bằng số, mô hình sẽ diễn giải các con số thô về mặt toán học và cố gắng huấn luyện dựa trên những con số đó. Tuy nhiên, Iceland không thực sự gấp đôi (hoặc bằng một nửa) một thứ gì đó so với Na Uy, vì vậy, mô hình sẽ đưa ra một số kết luận kỳ lạ.

Hãy xem Dữ liệu phân loại: Từ vựng và mã hoá một lần nóng trong Khoá học cấp tốc về học máy để biết thêm thông tin.

một-với-tất-cả

#fundamentals

Với một vấn đề phân loại có N lớp, một giải pháp bao gồm N mô hình phân loại nhị phân riêng biệt – một mô hình phân loại nhị phân cho mỗi kết quả có thể xảy ra. Ví dụ: cho một mô hình phân loại các ví dụ là động vật, thực vật hoặc khoáng chất, giải pháp một chọi tất cả sẽ cung cấp 3 mô hình phân loại nhị phân riêng biệt sau đây:

  • động vật so với không phải động vật
  • rau củ so với không phải rau củ
  • khoáng chất so với không phải khoáng chất

trực tuyến

#fundamentals

Từ đồng nghĩa với linh động.

suy luận trực tuyến

#fundamentals

Tạo dự đoán theo yêu cầu. Ví dụ: giả sử một ứng dụng truyền dữ liệu đầu vào đến một mô hình và đưa ra yêu cầu dự đoán. Một hệ thống sử dụng suy luận trực tuyến sẽ phản hồi yêu cầu bằng cách chạy mô hình (và trả về kết quả dự đoán cho ứng dụng).

Tương phản với suy luận ngoại tuyến.

Hãy xem bài viết Hệ thống ML trong sản xuất: Suy luận tĩnh so với suy luận động trong Khoá học cấp tốc về học máy để biết thêm thông tin.

lớp đầu ra

#fundamentals

Lớp "cuối cùng" của mạng nơ-ron. Lớp đầu ra chứa thông tin dự đoán.

Hình minh hoạ sau đây cho thấy một mạng nơ-ron sâu nhỏ có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra:

Một mạng nơ-ron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra. Lớp đầu vào bao gồm 2 đối tượng. Lớp ẩn đầu tiên bao gồm 3 nơ-ron và lớp ẩn thứ hai bao gồm 2 nơ-ron. Lớp đầu ra bao gồm một nút duy nhất.

khái quát hoá kém

#fundamentals

Tạo một mô hình khớp với dữ liệu huấn luyện quá sát sao đến mức mô hình không thể đưa ra dự đoán chính xác về dữ liệu mới.

Điều chỉnh có thể giảm tình trạng khớp quá mức. Việc huấn luyện trên một bộ dữ liệu huấn luyện lớn và đa dạng cũng có thể giảm tình trạng khớp quá mức.

Hãy xem phần Quá khớp trong Khoá học học máy ứng dụng để biết thêm thông tin.

Điểm

gấu trúc

#fundamentals

Một API phân tích dữ liệu theo cột được xây dựng dựa trên numpy. Nhiều khung máy học, bao gồm cả TensorFlow, hỗ trợ cấu trúc dữ liệu pandas làm dữ liệu đầu vào. Hãy xem tài liệu về pandas để biết thông tin chi tiết.

tham số

#fundamentals

Trọng sốđộ lệch mà một mô hình học được trong quá trình huấn luyện. Ví dụ: trong mô hình hồi quy tuyến tính, các tham số bao gồm độ lệch (b) và tất cả các trọng số (w1, w2, v.v.) trong công thức sau:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Ngược lại, siêu tham số là những giá trị mà bạn (hoặc dịch vụ điều chỉnh siêu tham số) cung cấp cho mô hình. Ví dụ: tốc độ học tập là một siêu tham số.

lớp dương

#fundamentals
#Chỉ số

Lớp học mà bạn đang kiểm thử.

Ví dụ: lớp dương tính trong mô hình ung thư có thể là "khối u". Lớp dương tính trong mô hình phân loại email có thể là "thư rác".

Tương phản với lớp âm.

hậu xử lý

#responsible
#fundamentals

Điều chỉnh đầu ra của một mô hình sau khi mô hình đó đã chạy. Bạn có thể sử dụng quy trình xử lý hậu kỳ để thực thi các ràng buộc về tính công bằng mà không cần sửa đổi chính các mô hình.

Ví dụ: người ta có thể áp dụng quy trình xử lý hậu kỳ cho một mô hình phân loại nhị phân bằng cách đặt một ngưỡng phân loại sao cho tính bình đẳng về cơ hội được duy trì cho một số thuộc tính bằng cách kiểm tra để đảm bảo rằng tỷ lệ dương tính thực là như nhau đối với tất cả các giá trị của thuộc tính đó.

độ chính xác

#fundamentals
#Chỉ số

Một chỉ số cho các mô hình phân loại giúp trả lời câu hỏi sau:

Khi mô hình dự đoán lớp dương tính, tỷ lệ phần trăm dự đoán chính xác là bao nhiêu?

Sau đây là công thức:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

trong đó:

  • dương tính thật có nghĩa là mô hình đã dự đoán chính xác lớp dương tính.
  • dương tính giả có nghĩa là mô hình đã nhầm lẫn dự đoán hạng mục dương.

Ví dụ: giả sử một mô hình đưa ra 200 dự đoán dương tính. Trong số 200 dự đoán tích cực này:

  • 150 trường hợp là dương tính thật.
  • 50 trường hợp là dương tính giả.

Trong trường hợp này:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Tương phản với độ chính xáckhả năng thu hồi.

Hãy xem phần Phân loại: Độ chính xác, khả năng thu hồi, độ đo và các chỉ số liên quan trong Khoá học cấp tốc về học máy để biết thêm thông tin.

dự đoán

#fundamentals

Đầu ra của một mô hình. Ví dụ:

  • Dự đoán của mô hình phân loại nhị phân là lớp dương hoặc lớp âm.
  • Thông tin dự đoán của mô hình phân loại đa mục là một lớp.
  • Dự đoán của mô hình hồi quy tuyến tính là một con số.

nhãn đại diện

#fundamentals

Dữ liệu dùng để ước chừng nhãn không có sẵn trực tiếp trong một tập dữ liệu.

Ví dụ: giả sử bạn phải huấn luyện một mô hình để dự đoán mức độ căng thẳng của nhân viên. Tập dữ liệu của bạn có nhiều đặc điểm dự đoán nhưng không có nhãn nào tên là mức độ căng thẳng. Không nản lòng, bạn chọn "tai nạn tại nơi làm việc" làm nhãn thay thế cho mức độ căng thẳng. Suy cho cùng, nhân viên chịu nhiều áp lực sẽ gặp nhiều tai nạn hơn so với nhân viên bình tĩnh. Hay là không? Có thể tai nạn tại nơi làm việc thực sự tăng và giảm vì nhiều lý do.

Ví dụ thứ hai: giả sử bạn muốn is it raining? (trời có mưa không?) là nhãn Boolean cho tập dữ liệu của mình, nhưng tập dữ liệu của bạn không chứa dữ liệu về mưa. Nếu có ảnh chụp, bạn có thể thiết lập hình ảnh về người mang ô làm nhãn proxy cho trời có mưa không? Đó có phải là nhãn đại diện phù hợp không? Có thể, nhưng người dân ở một số nền văn hoá có thể mang ô để chống nắng hơn là chống mưa.

Nhãn thay thế thường không hoàn hảo. Khi có thể, hãy chọn nhãn thực tế thay vì nhãn proxy. Tuy nhiên, khi không có nhãn thực tế, hãy chọn nhãn thay thế một cách cẩn thận, chọn nhãn thay thế ít tệ nhất.

Hãy xem phần Tập dữ liệu: Nhãn trong Khoá học học máy ứng dụng để biết thêm thông tin.

Điểm

RAG

#fundamentals

Từ viết tắt của mô hình tạo sinh tăng cường khả năng truy xuất.

người đánh giá

#fundamentals

Một người cung cấp nhãn cho ví dụ. "Người chú thích" là một tên gọi khác của người đánh giá.

Hãy xem phần Dữ liệu phân loại: Các vấn đề thường gặp trong Khoá học cấp tốc về học máy để biết thêm thông tin.

mức độ ghi nhớ

#fundamentals
#Chỉ số

Một chỉ số cho các mô hình phân loại giúp trả lời câu hỏi sau:

Khi dữ liệu thực tếlớp dương tính, mô hình đã xác định chính xác bao nhiêu phần trăm dự đoán là lớp dương tính?

Sau đây là công thức:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

trong đó:

  • dương tính thật có nghĩa là mô hình đã dự đoán chính xác lớp dương tính.
  • âm tính giả nghĩa là mô hình nhầm lẫn dự đoán lớp âm tính.

Ví dụ: giả sử mô hình của bạn đưa ra 200 dự đoán về các ví dụ mà chân lý cơ bản là lớp dương tính. Trong số 200 dự đoán này:

  • 180 trường hợp là dương tính thật.
  • 20 trường hợp là âm tính giả.

Trong trường hợp này:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Hãy xem bài viết Phân loại: Độ chính xác, khả năng thu hồi, độ đo lường và các chỉ số liên quan để biết thêm thông tin.

Rectified Linear Unit (ReLU)

#fundamentals

Một hàm kích hoạt có hành vi sau:

  • Nếu đầu vào là số âm hoặc số 0, thì đầu ra sẽ là 0.
  • Nếu giá trị đầu vào là số dương, thì giá trị đầu ra sẽ bằng giá trị đầu vào.

Ví dụ:

  • Nếu đầu vào là -3, thì đầu ra sẽ là 0.
  • Nếu đầu vào là +3, thì đầu ra là 3.0.

Sau đây là biểu đồ của ReLU:

Một biểu đồ Descartes gồm 2 đường. Đường thẳng đầu tiên có giá trị y không đổi là 0, chạy dọc theo trục x từ -vô cùng,0 đến 0,-0.
          Đường thứ hai bắt đầu tại 0,0. Đường thẳng này có độ dốc là +1, nên đường thẳng này chạy từ 0,0 đến +vô cực,+vô cực.

ReLU là một hàm kích hoạt rất phổ biến. Mặc dù có hành vi đơn giản, nhưng ReLU vẫn cho phép mạng nơ-ron học các mối quan hệ phi tuyến tính giữa các đặc điểmnhãn.

mô hình hồi quy

#fundamentals

Một mô hình tạo ra thông tin dự đoán bằng số. (Ngược lại, mô hình phân loại sẽ tạo ra một dự đoán về lớp.) Ví dụ: sau đây là tất cả các mô hình hồi quy:

  • Một mô hình dự đoán giá trị của một ngôi nhà nhất định bằng Euro, chẳng hạn như 423.000.
  • Một mô hình dự đoán tuổi thọ của một cây cụ thể theo năm, chẳng hạn như 23,2.
  • Một mô hình dự đoán lượng mưa (tính bằng inch) sẽ rơi ở một thành phố nhất định trong 6 giờ tới, chẳng hạn như 0,18.

Hai loại mô hình hồi quy phổ biến là:

  • Hồi quy tuyến tính, tìm ra đường thẳng phù hợp nhất với các giá trị nhãn cho các đối tượng.
  • Hồi quy logistic, tạo ra một xác suất từ 0,0 đến 1,0 mà hệ thống thường ánh xạ đến một dự đoán về lớp.

Không phải mô hình nào đưa ra dự đoán bằng số cũng là mô hình hồi quy. Trong một số trường hợp, dự đoán bằng số thực sự chỉ là một mô hình phân loại có tên lớp bằng số. Ví dụ: một mô hình dự đoán mã bưu chính bằng số là mô hình phân loại chứ không phải mô hình hồi quy.

điều hoà

#fundamentals

Mọi cơ chế giúp giảm hiện tượng khớp quá mức. Các loại điều chuẩn phổ biến bao gồm:

Điều chuẩn hoá cũng có thể được xác định là mức phạt đối với độ phức tạp của mô hình.

Hãy xem phần Quá trình khớp quá mức: Độ phức tạp của mô hình trong Khoá học cấp tốc về học máy để biết thêm thông tin.

tỷ lệ điều hoà

#fundamentals

Một số chỉ định tầm quan trọng tương đối của điều chỉnh trong quá trình huấn luyện. Việc tăng tốc độ điều chỉnh sẽ làm giảm tình trạng quá khớp nhưng có thể làm giảm khả năng dự đoán của mô hình. Ngược lại, việc giảm hoặc bỏ qua tốc độ điều chỉnh sẽ làm tăng tình trạng khớp quá mức.

Hãy xem phần Trang bị quá khớp: Điều chỉnh L2 trong Khoá học học máy ứng dụng để biết thêm thông tin.

ReLU

#fundamentals

Viết tắt của Rectified Linear Unit (Đơn vị tuyến tính được chỉnh sửa).

tạo sinh tăng cường truy xuất (RAG)

#fundamentals

Một kỹ thuật giúp cải thiện chất lượng đầu ra của mô hình ngôn ngữ lớn (LLM) bằng cách liên kết đầu ra đó với các nguồn kiến thức được truy xuất sau khi mô hình được huấn luyện. RAG cải thiện độ chính xác của các câu trả lời của LLM bằng cách cấp cho LLM đã được huấn luyện quyền truy cập vào thông tin được truy xuất từ các cơ sở kiến thức hoặc tài liệu đáng tin cậy.

Sau đây là một số động lực phổ biến để sử dụng phương pháp tạo tăng cường khả năng truy xuất:

  • Tăng độ chính xác về mặt thực tế của các câu trả lời do mô hình tạo.
  • Cung cấp cho mô hình quyền truy cập vào kiến thức mà mô hình chưa được huấn luyện.
  • Thay đổi kiến thức mà mô hình sử dụng.
  • Cho phép mô hình trích dẫn nguồn.

Ví dụ: giả sử một ứng dụng hoá học sử dụng PaLM API để tạo bản tóm tắt liên quan đến các truy vấn của người dùng. Khi nhận được một truy vấn, phần phụ trợ của ứng dụng sẽ:

  1. Tìm kiếm ("truy xuất") dữ liệu liên quan đến cụm từ tìm kiếm của người dùng.
  2. Thêm ("tăng cường") dữ liệu hoá học có liên quan vào cụm từ tìm kiếm của người dùng.
  3. Hướng dẫn LLM tạo bản tóm tắt dựa trên dữ liệu được thêm vào.

Đường cong ROC (đường cong đặc tính hoạt động của máy thu)

#fundamentals
#Chỉ số

Biểu đồ về tỷ lệ dương tính thực so với tỷ lệ dương tính giả cho các ngưỡng phân loại khác nhau trong phân loại nhị phân.

Hình dạng của đường cong ROC cho thấy khả năng của mô hình phân loại nhị phân trong việc tách các lớp dương tính khỏi các lớp âm tính. Ví dụ: giả sử một mô hình phân loại nhị phân tách biệt hoàn toàn tất cả các lớp âm tính với tất cả các lớp dương tính:

Một trục số có 8 ví dụ dương ở bên phải và 7 ví dụ âm ở bên trái.

Đường cong ROC cho mô hình trước đó có dạng như sau:

Đường cong ROC. Trục x là Tỷ lệ dương tính giả và trục y là Tỷ lệ dương tính thật. Đường cong có hình chữ L đảo ngược. Đường cong bắt đầu tại (0.0,0.0) và đi thẳng lên (0.0,1.0). Sau đó, đường cong sẽ chuyển từ (0.0, 1.0) sang (1.0, 1.0).

Ngược lại, hình minh hoạ sau đây vẽ đồ thị các giá trị hồi quy logistic thô cho một mô hình kém không thể tách các lớp âm tính khỏi các lớp dương tính:

Một đường số có các ví dụ dương và các lớp âm hoàn toàn lẫn lộn.

Đường cong ROC cho mô hình này có dạng như sau:

Đường cong ROC, thực chất là một đường thẳng từ (0.0,0.0) đến (1.0,1.0).

Trong khi đó, trong thế giới thực, hầu hết các mô hình phân loại nhị phân đều tách biệt các lớp dương và âm ở một mức độ nào đó, nhưng thường không hoàn hảo. Vì vậy, đường cong ROC điển hình sẽ nằm ở đâu đó giữa hai cực đoan này:

Đường cong ROC. Trục x là Tỷ lệ dương tính giả và trục y là Tỷ lệ dương tính thật. Đường cong ROC xấp xỉ một vòng cung không ổn định, đi qua các điểm la bàn từ Tây sang Bắc.

Điểm trên đường cong ROC gần với (0.0,1.0) nhất về mặt lý thuyết sẽ xác định ngưỡng phân loại lý tưởng. Tuy nhiên, một số vấn đề khác ngoài đời thực ảnh hưởng đến việc lựa chọn ngưỡng phân loại lý tưởng. Ví dụ: có lẽ kết quả âm tính giả gây ra nhiều phiền toái hơn kết quả dương tính giả.

Một chỉ số bằng số có tên là AUC tóm tắt đường cong ROC thành một giá trị dấu phẩy động duy nhất.

Sai số trung bình bình phương (RMSE)

#fundamentals
#Chỉ số

Căn bậc hai của Sai số bình phương trung bình.

S

hàm sigmoid

#fundamentals

Một hàm toán học "nén" giá trị đầu vào vào một phạm vi bị hạn chế, thường là từ 0 đến 1 hoặc từ -1 đến +1. Tức là bạn có thể truyền bất kỳ số nào (2, 1 triệu, âm 1 tỷ, bất kỳ số nào) vào một hàm sigmoid và đầu ra vẫn sẽ nằm trong phạm vi bị hạn chế. Biểu đồ của hàm kích hoạt sigmoid có dạng như sau:

Một biểu đồ cong hai chiều với các giá trị x trải dài trên miền vô cực âm đến vô cực dương, trong khi các giá trị y trải dài trong phạm vi gần 0 đến gần 1. Khi x là 0, y là 0,5. Độ dốc của đường cong luôn dương, với độ dốc cao nhất ở 0,0,5 và độ dốc giảm dần khi giá trị tuyệt đối của x tăng lên.

Hàm sigmoid có một số ứng dụng trong học máy, bao gồm:

softmax

#fundamentals

Một hàm xác định xác suất cho từng lớp có thể có trong mô hình phân loại nhiều lớp. Tổng các xác suất bằng đúng 1.0. Ví dụ: bảng sau đây cho thấy cách hàm softmax phân phối các xác suất khác nhau:

Hình ảnh là một... Xác suất
chó 0,85
mèo 0,13
con ngựa .02

Softmax còn được gọi là softmax đầy đủ.

Tương phản với lấy mẫu ứng viên.

Hãy xem phần Mạng nơ-ron: Phân loại nhiều lớp trong Khoá học cấp tốc về học máy để biết thêm thông tin.

tính chất thưa

#fundamentals

Một đặc điểm mà giá trị chủ yếu là 0 hoặc trống. Ví dụ: một đối tượng chứa một giá trị 1 duy nhất và một triệu giá trị 0 là thưa thớt. Ngược lại, đặc điểm dày đặc có các giá trị chủ yếu không phải là 0 hoặc trống.

Trong học máy, một số lượng đáng ngạc nhiên các đặc điểm là đặc điểm thưa thớt. Các đặc điểm phân loại thường là đặc điểm thưa. Ví dụ: trong số 300 loài cây có thể có trong một khu rừng, một ví dụ duy nhất có thể chỉ xác định một cây phong. Hoặc trong hàng triệu video có thể có trong một thư viện video, một ví dụ duy nhất có thể chỉ xác định "Casablanca".

Trong một mô hình, bạn thường biểu thị các đặc điểm thưa thớt bằng mã hoá one-hot. Nếu mã hoá one-hot có kích thước lớn, bạn có thể đặt một lớp nhúng lên trên mã hoá one-hot để tăng hiệu quả.

biểu diễn thưa

#fundamentals

Chỉ lưu trữ (các) vị trí của các phần tử khác 0 trong một đối tượng thưa.

Ví dụ: giả sử một đặc điểm phân loại có tên là species xác định 36 loài cây trong một khu rừng cụ thể. Giả sử thêm rằng mỗi ví dụ chỉ xác định một loài duy nhất.

Bạn có thể sử dụng một vectơ mã hoá một lần để biểu thị loài cây trong mỗi ví dụ. Một vectơ mã hoá một lần sẽ chứa một 1 (để biểu thị loài cây cụ thể trong ví dụ đó) và 35 0 (để biểu thị 35 loài cây không có trong ví dụ đó). Vì vậy, biểu diễn một lần nóng của maple có thể có dạng như sau:

Một vectơ trong đó các vị trí từ 0 đến 23 giữ giá trị 0, vị trí 24 giữ giá trị 1 và các vị trí từ 25 đến 35 giữ giá trị 0.

Ngoài ra, phương pháp biểu diễn thưa thớt chỉ đơn giản là xác định vị trí của loài cụ thể. Nếu maple ở vị trí 24, thì biểu diễn thưa thớt của maple sẽ chỉ là:

24

Xin lưu ý rằng biểu diễn thưa thớt nhỏ gọn hơn nhiều so với biểu diễn một lần nóng.

Hãy xem phần Làm việc với dữ liệu phân loại trong Khoá học cấp tốc về học máy để biết thêm thông tin.

vectơ thưa

#fundamentals

Một vectơ có hầu hết các giá trị là 0. Xem thêm đặc điểm thưa thớtđộ thưa thớt.

tổn thất bình phương

#fundamentals
#Chỉ số

Từ đồng nghĩa với tổn thất L2.

tĩnh

#fundamentals

Việc được thực hiện một lần thay vì liên tục. Các thuật ngữ tĩnhngoại tuyến là từ đồng nghĩa. Sau đây là những trường hợp sử dụng phổ biến của tĩnhngoại tuyến trong học máy:

  • mô hình tĩnh (hoặc mô hình ngoại tuyến) là mô hình được huấn luyện một lần rồi được dùng trong một thời gian.
  • huấn luyện tĩnh (hoặc huấn luyện ngoại tuyến) là quy trình huấn luyện một mô hình tĩnh.
  • suy luận tĩnh (hoặc suy luận ngoại tuyến) là một quy trình trong đó mô hình tạo ra một loạt dự đoán tại một thời điểm.

Tương phản với động.

suy luận tĩnh

#fundamentals

Từ đồng nghĩa với suy luận ngoại tuyến.

tính dừng

#fundamentals

Một đặc điểm có giá trị không thay đổi trên một hoặc nhiều phương diện, thường là thời gian. Ví dụ: một đối tượng có các giá trị gần như giống nhau vào năm 2021 và 2023 thể hiện tính dừng.

Trong thế giới thực, rất ít đối tượng có tính chất không đổi. Ngay cả những đặc điểm đồng nghĩa với sự ổn định (như mực nước biển) cũng thay đổi theo thời gian.

Tương phản với tính không dừng.

phương pháp giảm độ dốc ngẫu nhiên (SGD)

#fundamentals

Một thuật toán hạ độ dốc trong đó kích thước lô là một. Nói cách khác, SGD huấn luyện trên một ví dụ duy nhất được chọn ngẫu nhiên một cách đồng nhất từ một tập huấn luyện.

Hãy xem bài viết Hồi quy tuyến tính: Siêu tham số trong Khoá học cấp tốc về học máy để biết thêm thông tin.

học máy có giám sát

#fundamentals

Huấn luyện một mô hình từ các đối tượngnhãn tương ứng của chúng. Học máy có giám sát tương tự như việc học một môn học bằng cách nghiên cứu một bộ câu hỏi và câu trả lời tương ứng. Sau khi nắm vững mối liên hệ giữa câu hỏi và câu trả lời, học viên có thể trả lời các câu hỏi mới (chưa từng gặp) về cùng một chủ đề.

So sánh với học máy không giám sát.

Hãy xem phần Học có giám sát trong khoá học Giới thiệu về học máy để biết thêm thông tin.

đối tượng nhân tạo

#fundamentals

Một đối tượng không có trong số các đối tượng đầu vào, nhưng được tập hợp từ một hoặc nhiều đối tượng đầu vào. Các phương pháp tạo đối tượng tổng hợp bao gồm:

  • Phân nhóm một đối tượng liên tục thành các nhóm phạm vi.
  • Tạo một tính năng kết hợp.
  • Nhân (hoặc chia) một giá trị của tính năng với(các) giá trị khác của tính năng hoặc với chính giá trị đó. Ví dụ: nếu ab là các đặc điểm đầu vào, thì sau đây là ví dụ về các đặc điểm tổng hợp:
    • ab
    • a2
  • Áp dụng một hàm siêu việt cho giá trị của một đối tượng. Ví dụ: nếu c là một đối tượng đầu vào, thì sau đây là các ví dụ về đối tượng tổng hợp:
    • sin(c)
    • ln(c)

Các đối tượng được tạo bằng cách chỉ chuẩn hoá hoặc điều chỉnh tỷ lệ không được coi là đối tượng nhân tạo.

T

mất mát trong kiểm thử

#fundamentals
#Chỉ số

Một chỉ số biểu thị mức tổn thất của một mô hình so với tập dữ liệu kiểm thử. Khi tạo một mô hình, bạn thường cố gắng giảm thiểu tổn thất trong quá trình kiểm thử. Đó là vì tổn thất thấp trong quá trình kiểm thử là một tín hiệu chất lượng mạnh hơn so với tổn thất thấp trong quá trình huấn luyện hoặc tổn thất thấp trong quá trình xác thực.

Đôi khi, khoảng cách lớn giữa tổn thất trong quá trình kiểm thử và tổn thất trong quá trình huấn luyện hoặc tổn thất trong quá trình xác thực cho thấy bạn cần tăng tỷ lệ điều chỉnh.

đào tạo

#fundamentals

Quá trình xác định các tham số (trọng số và độ lệch) lý tưởng bao gồm một mô hình. Trong quá trình huấn luyện, hệ thống sẽ đọc các ví dụ và điều chỉnh dần các tham số. Quá trình huấn luyện sử dụng mỗi ví dụ từ vài lần đến hàng tỷ lần.

Hãy xem phần Học có giám sát trong khoá học Giới thiệu về học máy để biết thêm thông tin.

tổn thất trong quá trình huấn luyện

#fundamentals
#Chỉ số

Một chỉ số biểu thị mức tổn thất của mô hình trong một lần lặp lại huấn luyện cụ thể. Ví dụ: giả sử hàm tổn thất là Sai số bình phương trung bình. Có thể tổn thất huấn luyện (Lỗi bình phương trung bình) cho lần lặp thứ 10 là 2,2 và tổn thất huấn luyện cho lần lặp thứ 100 là 1,9.

Đường cong tổn thất vẽ tổn thất trong quá trình huấn luyện so với số lần lặp lại. Đường cong tổn thất cung cấp các gợi ý sau về quá trình huấn luyện:

  • Độ dốc giảm cho thấy mô hình đang cải thiện.
  • Đường dốc lên cho thấy mô hình đang trở nên kém hiệu quả hơn.
  • Độ dốc bằng phẳng cho thấy mô hình đã đạt đến sự hội tụ.

Ví dụ: đường cong tổn thất (khá lý tưởng) sau đây cho thấy:

  • Đường dốc xuống dốc trong các lần lặp lại ban đầu, cho thấy mô hình được cải thiện nhanh chóng.
  • Độ dốc giảm dần (nhưng vẫn đi xuống) cho đến gần cuối quá trình huấn luyện, điều này ngụ ý rằng mô hình tiếp tục cải thiện với tốc độ chậm hơn so với các lần lặp lại ban đầu.
  • Đường dốc bằng phẳng về cuối quá trình huấn luyện, cho thấy sự hội tụ.

Biểu đồ tổn thất huấn luyện so với số lần lặp lại. Đường cong tổn thất này bắt đầu bằng một độ dốc xuống dốc. Độ dốc sẽ giảm dần cho đến khi độ dốc bằng 0.

Mặc dù tổn thất khi huấn luyện là rất quan trọng, nhưng bạn cũng nên xem khả năng khái quát hoá.

độ lệch giữa huấn luyện và phân phát

#fundamentals

Sự khác biệt giữa hiệu suất của một mô hình trong quá trình huấn luyện và hiệu suất của chính mô hình đó trong quá trình phân phát.

tập dữ liệu huấn luyện

#fundamentals

Tập hợp con của tập dữ liệu được dùng để huấn luyện một mô hình.

Theo truyền thống, các ví dụ trong tập dữ liệu được chia thành 3 tập hợp con riêng biệt sau đây:

Tốt nhất là mỗi ví dụ trong tập dữ liệu chỉ nên thuộc một trong các tập hợp con trước đó. Ví dụ: một ví dụ duy nhất không được thuộc cả tập huấn luyện và tập xác thực.

Hãy xem phần Tập dữ liệu: Chia tập dữ liệu gốc trong Khoá học học máy ứng dụng để biết thêm thông tin.

âm tính thật (TN)

#fundamentals
#Chỉ số

Ví dụ trong đó mô hình dự đoán chính xác lớp âm. Ví dụ: mô hình suy luận rằng một thư email cụ thể không phải là thư rác và thư email đó thực sự không phải là thư rác.

dương tính thật (TP)

#fundamentals
#Chỉ số

Ví dụ trong đó mô hình dự đoán chính xác lớp dương tính. Ví dụ: mô hình suy luận rằng một thư email cụ thể là thư rác và thư email đó thực sự là thư rác.

tỷ lệ dương tính thật (TPR)

#fundamentals
#Chỉ số

Từ đồng nghĩa với mức độ ghi nhớ. Đó là:

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Tỷ lệ dương tính thật là trục y trong đường cong ROC.

U

khớp dữ liệu kém

#fundamentals

Tạo ra một mô hình có khả năng dự đoán kém vì mô hình chưa nắm bắt hết độ phức tạp của dữ liệu huấn luyện. Nhiều vấn đề có thể gây ra tình trạng thiếu khớp, bao gồm:

Hãy xem phần Quá khớp trong Khoá học học máy ứng dụng để biết thêm thông tin.

ví dụ không có nhãn

#fundamentals

Ví dụ có các tính năng nhưng không có nhãn. Ví dụ: bảng sau đây cho thấy 3 ví dụ không được gắn nhãn từ một mô hình định giá nhà, mỗi ví dụ có 3 đặc điểm nhưng không có giá trị nhà:

Số lượng phòng ngủ Số lượng phòng tắm Tuổi của nhà
3 2 15
2 1 72
4 2 34

Trong công nghệ học máy có giám sát, các mô hình sẽ được huấn luyện dựa trên các ví dụ được gắn nhãn và đưa ra dự đoán về các ví dụ chưa được gắn nhãn.

Trong quá trình học bán giám sátkhông giám sát, các ví dụ không được gắn nhãn sẽ được dùng trong quá trình huấn luyện.

So sánh ví dụ không có nhãn với ví dụ có nhãn.

học máy không giám sát

#clustering
#fundamentals

Huấn luyện một mô hình để tìm các mẫu trong một tập dữ liệu, thường là một tập dữ liệu chưa được gắn nhãn.

Ứng dụng phổ biến nhất của công nghệ học máy không giám sát là phân cụm dữ liệu thành các nhóm ví dụ tương tự. Ví dụ: một thuật toán học máy không được giám sát có thể phân cụm các bài hát dựa trên nhiều thuộc tính của nhạc. Các cụm kết quả có thể trở thành dữ liệu đầu vào cho các thuật toán học máy khác (ví dụ: cho một dịch vụ đề xuất nhạc). Việc phân cụm có thể giúp ích khi bạn có ít hoặc không có nhãn hữu ích. Ví dụ: trong các lĩnh vực như chống hành vi sai trái và gian lận, các cụm có thể giúp con người hiểu rõ hơn về dữ liệu.

Tương phản với học máy có giám sát.

Hãy xem bài viết Công nghệ học máy là gì? trong khoá học Giới thiệu về ML để biết thêm thông tin.

V

xác thực

#fundamentals

Đánh giá ban đầu về chất lượng của một mô hình. Xác thực kiểm tra chất lượng của các dự đoán của mô hình dựa trên tập hợp xác thực.

Vì tập hợp xác thực khác với tập hợp huấn luyện, nên việc xác thực giúp ngăn chặn tình trạng quá khớp.

Bạn có thể coi việc đánh giá mô hình dựa trên tập hợp xác thực là vòng kiểm thử đầu tiên và đánh giá mô hình dựa trên tập hợp kiểm thử là vòng kiểm thử thứ hai.

mất mát xác thực

#fundamentals
#Chỉ số

Một chỉ số biểu thị mất mát của mô hình trên tập hợp xác thực trong một lần lặp lại cụ thể của quá trình huấn luyện.

Xem thêm đường cong khái quát hoá.

tập xác nhận

#fundamentals

Tập hợp con của tập dữ liệu thực hiện đánh giá ban đầu dựa trên một mô hình đã được huấn luyện. Thông thường, bạn sẽ đánh giá mô hình đã huấn luyện dựa trên tập hợp xác thực nhiều lần trước khi đánh giá mô hình dựa trên tập hợp kiểm thử.

Theo truyền thống, bạn chia các ví dụ trong tập dữ liệu thành 3 tập hợp con riêng biệt sau đây:

Tốt nhất là mỗi ví dụ trong tập dữ liệu chỉ nên thuộc một trong các tập hợp con trước đó. Ví dụ: một ví dụ duy nhất không được thuộc cả tập huấn luyện và tập xác thực.

Hãy xem phần Tập dữ liệu: Chia tập dữ liệu gốc trong Khoá học học máy ứng dụng để biết thêm thông tin.

W

cân nặng

#fundamentals

Giá trị mà một mô hình nhân với một giá trị khác. Huấn luyện là quá trình xác định trọng số lý tưởng của một mô hình; suy luận là quá trình sử dụng những trọng số đã học đó để đưa ra dự đoán.

Hãy xem phần Hồi quy tuyến tính trong Khoá học học máy ứng dụng để biết thêm thông tin.

tổng có trọng số

#fundamentals

Tổng của tất cả các giá trị đầu vào có liên quan nhân với trọng số tương ứng của chúng. Ví dụ: giả sử các dữ liệu đầu vào có liên quan bao gồm những dữ liệu sau:

giá trị đầu vào trọng số đầu vào
2 -1,3
-1 0,6
3 0,4

Do đó, tổng có trọng số là:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Tổng có trọng số là đối số đầu vào cho một hàm kích hoạt.

Z

Chuẩn hoá điểm Z

#fundamentals

Kỹ thuật chia tỷ lệ thay thế giá trị đặc điểm thô bằng giá trị dấu phẩy động biểu thị số độ lệch chuẩn so với giá trị trung bình của đặc điểm đó. Ví dụ: hãy xem xét một đặc điểm có giá trị trung bình là 800 và độ lệch chuẩn là 100. Bảng sau đây cho thấy cách chuẩn hoá điểm Z sẽ liên kết giá trị thô với điểm Z:

Giá trị thô Điểm Z
800 0
950 +1,5
575 -2,25

Sau đó, mô hình học máy sẽ huấn luyện dựa trên điểm Z cho tính năng đó thay vì dựa trên các giá trị thô.

Hãy xem phần Dữ liệu dạng số: Chuẩn hoá trong Khoá học cấp tốc về học máy để biết thêm thông tin.