Bảng thuật ngữ về công nghệ máy học: Kiến thức cơ bản về công nghệ học máy

Trang này chứa các thuật ngữ trong bảng thuật ngữ về Nguyên tắc cơ bản của công nghệ học máy. Để biết tất cả các thuật ngữ trong bảng thuật ngữ, hãy nhấp vào đây.

Đáp

độ chính xác

#fundamentals

Số lượng đề xuất phân loại chính xác chia cho tổng số dự đoán. Đó là:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ví dụ: một mô hình đưa ra 40 dự đoán chính xác và 10 dự đoán không chính xác sẽ có độ chính xác là:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Phân loại nhị phân cung cấp tên cụ thể cho các danh mục dự đoán chính xácdự đoán không chính xác. Vì vậy, công thức chính xác để phân loại tệp nhị phân như sau:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

trong đó:

So sánh và đối chiếu độ chính xác với độ chính xácđộ ghi nhớ.

hàm kích hoạt

#fundamentals

Một hàm cho phép mạng nơron tìm hiểu mối quan hệ phi tuyến tính (phức tạp) giữa các tính năng và nhãn.

Sau đây là các hàm kích hoạt phổ biến:

Đồ thị hàm kích hoạt không bao giờ là một đường thẳng đơn. Ví dụ: biểu đồ của hàm kích hoạt ReLU bao gồm 2 đường thẳng:

Biểu đồ Descartes gồm hai đường. Dòng đầu tiên có giá trị y không đổi bằng 0, chạy dọc theo trục x từ -infinity,0 đến 0,-0.
          Dòng thứ hai bắt đầu từ 0,0. Đường này có độ dốc +1, vì vậy, đường này chạy từ 0,0 đến +vô hạn,+vô hạn.

Sơ đồ về hàm kích hoạt sigmoid sẽ có dạng như sau:

Một biểu đồ cong hai chiều có các giá trị x mở rộng phạm vi từ vô hạn đến + dương, trong khi các giá trị y trải rộng trong phạm vi gần như từ 0 đến gần 1. Khi x bằng 0, y bằng 0,5. Độ dốc của đường cong luôn
          dương, với độ dốc cao nhất là 0,0,5 và giảm dần
          khi giá trị tuyệt đối của x tăng.

trí tuệ nhân tạo

#fundamentals

Một chương trình hoặc model không phải do con người thực hiện có thể giải quyết các công việc phức tạp. Ví dụ: một chương trình hoặc mô hình dịch văn bản hoặc một chương trình hay mô hình xác định bệnh qua hình ảnh phóng xạ đều có trí tuệ nhân tạo.

Về cơ bản, máy học là một lĩnh vực phụ của trí tuệ nhân tạo. Tuy nhiên, trong những năm gần đây, một số tổ chức đã bắt đầu sử dụng thuật ngữ trí tuệ nhân tạohọc máy thay thế cho nhau.

AUC (Diện tích dưới đường cong ROC)

#fundamentals

Một số từ 0,0 đến 1,0 thể hiện khả năng của mô hình phân loại nhị phân để phân tách các lớp dương khỏi các lớp phủ định. AUC càng gần 1.0 thì mô hình càng có khả năng phân tách các lớp với nhau.

Ví dụ: hình minh hoạ sau đây cho thấy một mô hình thuật toán phân loại giúp phân tách hoàn hảo các lớp dương (hình bầu dục màu xanh lục) với các lớp phủ định (hình chữ nhật màu tím). Mô hình hoàn hảo phi thực tế này có AUC là 1,0:

Một trục số có 8 ví dụ dương ở một bên và 9 ví dụ tiêu cực ở bên còn lại.

Ngược lại, hình minh hoạ sau đây cho thấy kết quả của một mô hình thuật toán phân loại đã tạo ra kết quả ngẫu nhiên. Mô hình này có AUC là 0,5:

Một trục số có 6 ví dụ dương và 6 ví dụ âm.
          Trình tự các ví dụ là dương, âm, dương, âm, dương, âm, dương, âm, dương, dương, dương, âm.

Có, mô hình trước đó có AUC là 0,5 chứ không phải 0,0.

Hầu hết các mô hình nằm ở đâu đó giữa hai cực đoan. Ví dụ: mô hình sau đây tách biệt giá trị dương và giá trị âm, do đó có AUC trong khoảng từ 0, 5 đến 1:

Một trục số có 6 ví dụ dương và 6 ví dụ âm.
          Trình tự các ví dụ là âm, âm, âm, âm, dương, âm, dương, dương, âm, dương, dương, dương

AUC bỏ qua mọi giá trị bạn đặt cho ngưỡng phân loại. Thay vào đó, AUC sẽ xem xét tất cả các ngưỡng phân loại có thể có.

B

lan truyền ngược

#fundamentals

Thuật toán triển khai tính năng giảm dần độ dốc trong mạng nơron.

Việc huấn luyện mạng nơron bao gồm nhiều vòng lặp của chu kỳ 2 lượt sau đây:

  1. Trong quá trình chuyển tiếp, hệ thống sẽ xử lý một nhóm ví dụ để tạo ra(các) thông tin dự đoán. Hệ thống so sánh từng dự đoán với từng giá trị label. Sự khác biệt giữa thông tin dự đoán và giá trị nhãn là sự cố của ví dụ đó. Hệ thống sẽ tổng hợp tổn thất của tất cả ví dụ để tính toán tổng tổn thất của lô hiện tại.
  2. Trong quá trình truyền ngược (truyền ngược), hệ thống sẽ giảm tổn thất bằng cách điều chỉnh trọng số của tất cả tách tế bào thần kinh trong mọi lớp ẩn.

Mạng nơron thường chứa nhiều nơron trên nhiều lớp ẩn. Mỗi nơron trong số đó góp phần vào sự mất mát tổng thể theo những cách khác nhau. Lan truyền ngược xác định xem tăng hay giảm trọng số áp dụng cho các nơron cụ thể.

Tốc độ học là hệ số kiểm soát mức độ mà mỗi lượt truyền ngược sẽ tăng hoặc giảm của từng trọng số. Tốc độ học lớn sẽ tăng hoặc giảm từng trọng số nhiều hơn so với tốc độ học nhỏ.

Trong thuật ngữ giải tích, tính năng lan truyền ngược sẽ triển khai quy tắc chuỗi. Từ giải tích. Điều này nghĩa là tính năng lan truyền ngược sẽ tính đạo hàm một phần của lỗi theo từng tham số.

Nhiều năm trước, các chuyên viên ML phải viết mã để triển khai lan truyền ngược. Các API học máy hiện đại như TensorFlow hiện triển khai tính năng lan truyền ngược cho bạn. Chà!

#fundamentals

Tập hợp ví dụ được dùng trong một vòng lặp huấn luyện. Kích thước lô xác định số lượng ví dụ trong một lô.

Xem epoch để biết thông tin giải thích về mối liên hệ giữa một lô với một thời gian bắt đầu của hệ thống.

kích thước lô

#fundamentals

Số lượng ví dụ trong một . Ví dụ: nếu kích thước lô là 100, thì mô hình sẽ xử lý 100 ví dụ cho mỗi vòng lặp.

Sau đây là các chiến lược kích thước hàng loạt phổ biến:

  • Đường xuống chuyển màu ngẫu nhiên (SGD), trong đó kích thước lô là 1.
  • Toàn bộ lô, trong đó kích thước lô là số ví dụ trong toàn bộ bộ huấn luyện. Ví dụ: nếu tập huấn luyện chứa một triệu ví dụ, thì kích thước lô sẽ là một triệu ví dụ. Toàn bộ lô thường là một chiến lược không hiệu quả.
  • mini-batch trong đó kích thước lô thường nằm trong khoảng từ 10 đến 1000. Lô nhỏ thường là chiến lược hiệu quả nhất.

thiên kiến (đạo đức/công bằng)

#fairness
#fundamentals

1. Định kiến, định kiến hoặc thiên vị đối với một số thứ, con người hoặc nhóm người hơn những thứ khác. Những thiên kiến này có thể ảnh hưởng đến việc thu thập và diễn giải dữ liệu, thiết kế của hệ thống và cách người dùng tương tác với hệ thống. Các dạng thiên kiến này bao gồm:

2. Lỗi hệ thống gây ra bởi quy trình lấy mẫu hoặc báo cáo. Các dạng thiên kiến này bao gồm:

Đừng nhầm lẫn với thuật ngữ thiên lệch trong các mô hình học máy hoặc thiên vị dự đoán.

thuật ngữ thiên kiến (toán học) hoặc thiên kiến

#fundamentals

Giao điểm hoặc độ lệch so với một gốc. Độ lệch là một tham số trong các mô hình học máy, được biểu thị bằng một trong những giá trị sau:

  • b
  • t0

Ví dụ: độ chệch là b trong công thức sau:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Trong một đường hai chiều đơn giản, độ lệch chỉ có nghĩa là "giao điểm y". Ví dụ: độ lệch của đường trong hình minh hoạ sau đây là 2.

Biểu đồ của một đường thẳng có hệ số góc 0,5 và độ lệch (giao điểm y) là 2.

Xu hướng tồn tại vì không phải mọi mô hình đều bắt đầu từ nguồn gốc (0,0). Ví dụ: Giả sử một công viên giải trí tốn 2 Euro để vào cửa và thêm 0,5 Euro cho mỗi giờ khách hàng lưu trú. Do đó, mô hình ánh xạ tổng chi phí có độ lệch là 2 vì chi phí thấp nhất là 2 Euro.

Không nên nhầm lẫn thiên kiến với thiên về đạo đức và sự công bằng hoặc thiên vị dự đoán.

phân loại nhị phân

#fundamentals

Loại tác vụ phân loại dự đoán một trong hai lớp loại trừ lẫn nhau:

Ví dụ: 2 mô hình học máy sau đây thực hiện phân loại nhị phân:

  • Mô hình xác định xem email có phải là spam (lớp khẳng định) hay không phải là spam (lớp phủ định).
  • Một mô hình đánh giá các triệu chứng y tế để xác định xem một người mắc bệnh cụ thể (lớp dương tính) hay không có bệnh đó (lớp âm tính).

Trái ngược với tính năng phân loại nhiều lớp.

Hãy xem thêm về hồi quy logisticngưỡng phân loại.

phân giỏ

#fundamentals

Chuyển đổi một tính năng duy nhất thành nhiều tính năng nhị phân, gọi là bộ chứa hoặc thùng, thường dựa trên dải giá trị. Tính năng được cắt bớt thường là tính năng liên tục.

Ví dụ: thay vì biểu thị nhiệt độ dưới dạng một tính năng dấu phẩy động liên tục duy nhất, bạn có thể chia phạm vi nhiệt độ thành các nhóm riêng biệt, chẳng hạn như:

  • <= 10 độ C sẽ là thùng "lạnh".
  • 11 – 24 độ C sẽ là xô "ôn hoà".
  • >= 25 độ C sẽ là xô "ấm".

Mô hình sẽ xử lý mọi giá trị trong cùng một bộ chứa như nhau. Ví dụ: cả hai giá trị 1322 đều nằm trong bộ chứa ôn hoà, vì vậy mô hình sẽ xử lý hai giá trị này như nhau.

C

dữ liệu phân loại

#fundamentals

Tính năng có một tập hợp các giá trị có thể có cụ thể. Chẳng hạn hãy xem xét một tính năng phân loại có tên là traffic-light-state. Tính năng này chỉ có thể có một trong ba giá trị có thể có sau đây:

  • red
  • yellow
  • green

Bằng cách biểu thị traffic-light-state dưới dạng một tính năng phân loại, một mô hình có thể tìm hiểu các tác động khác nhau của red, greenyellow đối với hành vi của người lái xe.

Tính năng phân loại đôi khi được gọi là tính năng riêng biệt.

Trái ngược với dữ liệu số.

lớp

#fundamentals

Một danh mục chứa một nhãn. Ví dụ:

  • Trong mô hình phân loại nhị phân phát hiện nội dung rác, hai lớp đó có thể là nội dung ráckhông phải nội dung rác.
  • Trong mô hình phân loại nhiều lớp giúp xác định các giống chó, các lớp có thể là poodle, beagle, pug, v.v.

Mô hình phân loại dự đoán một lớp. Ngược lại, mô hình hồi quy sẽ dự đoán một số thay vì một lớp.

mô hình phân loại

#fundamentals

Một model có nội dung dự đoán là một model. Ví dụ: sau đây là tất cả mô hình phân loại:

  • Mô hình dự đoán ngôn ngữ của câu nhập vào (tiếng Pháp? Tiếng Tây Ban Nha? Ý?).
  • Mô hình dự đoán loài cây (Maple? Oak? Bao báp?).
  • Một mô hình dự đoán lớp dương tính hoặc âm cho một tình trạng y tế cụ thể.

Ngược lại, mô hình hồi quy dự đoán số thay vì lớp.

Có hai loại mô hình phân loại phổ biến:

ngưỡng phân loại

#fundamentals

Trong phân loại nhị phân, một số nằm trong khoảng từ 0 đến 1 sẽ chuyển đổi đầu ra thô của mô hình hồi quy logistic thành thông tin dự đoán cho lớp dương hoặc lớp phủ định. Lưu ý rằng ngưỡng phân loại là giá trị mà con người chọn, không phải là giá trị được chọn khi huấn luyện mô hình.

Mô hình hồi quy logistic cho ra giá trị thô từ 0 đến 1. Sau đó:

  • Nếu giá trị thô này lớn hơn ngưỡng phân loại, thì lớp dương tính sẽ được dự đoán.
  • Nếu giá trị thô này nhỏ hơn ngưỡng phân loại, thì lớp phủ định sẽ được dự đoán.

Ví dụ: giả sử ngưỡng phân loại là 0, 8. Nếu giá trị thô là 0, 9 thì mô hình sẽ dự đoán lớp dương. Nếu giá trị thô là 0,7, thì mô hình này sẽ dự đoán lớp âm.

Việc lựa chọn ngưỡng phân loại ảnh hưởng mạnh mẽ đến số lượng dương tính giảâm tính giả.

tập dữ liệu bất cân bằng về lớp

#fundamentals

Một tập dữ liệu cho một vấn đề phân loại, trong đó tổng số nhãn của mỗi lớp có sự khác biệt đáng kể. Ví dụ: hãy xem xét một tập dữ liệu phân loại nhị phân có hai nhãn được phân chia như sau:

  • 1.000.000 nhãn phủ định
  • 10 nhãn khẳng định

Tỷ lệ giữa nhãn âm và nhãn dương là 100.000: 1,vì vậy, đây là tập dữ liệu mất cân bằng về lớp.

Ngược lại, tập dữ liệu sau đây không mất cân bằng về lớp vì tỷ lệ nhãn âm so với nhãn dương tương đối gần với 1:

  • 517 nhãn phủ định
  • 483 nhãn khẳng định

Các tập dữ liệu nhiều lớp cũng có thể không cân bằng về lớp. Ví dụ: tập dữ liệu phân loại nhiều lớp sau đây cũng không cân bằng về lớp vì một nhãn có nhiều ví dụ hơn so với hai nhãn còn lại:

  • 1.000.000 nhãn với lớp "green"
  • 200 nhãn có lớp "tím"
  • 350 nhãn thuộc loại "cam"

Xem thêm về entropy, lớp đa sốlớp thiểu số.

cắt xén

#fundamentals

Một kỹ thuật để xử lý các điểm ngoại lai bằng cách thực hiện một hoặc cả hai thao tác sau:

  • Giảm các giá trị feature lớn hơn ngưỡng tối đa xuống ngưỡng tối đa đó.
  • Tăng các giá trị tính năng ít hơn ngưỡng tối thiểu lên đến ngưỡng tối thiểu đó.

Ví dụ: giả sử có <0, 5% giá trị của một đối tượng cụ thể nằm ngoài phạm vi 40–60. Trong trường hợp này, bạn có thể làm như sau:

  • Cắt tất cả các giá trị trên 60 (ngưỡng tối đa) thành 60 chính xác.
  • Cắt tất cả các giá trị dưới 40 (ngưỡng tối thiểu) thành 40 chính xác.

Các điểm ngoại lai có thể làm hỏng mô hình, đôi khi khiến trọng số bị tràn trong quá trình huấn luyện. Một số điểm ngoại lai cũng có thể làm hỏng đáng kể các chỉ số như độ chính xác. Cắt xén là một kỹ thuật phổ biến để hạn chế thiệt hại.

Cắt chuyển màu buộc các giá trị gradient trong phạm vi được chỉ định trong quá trình huấn luyện.

ma trận nhầm lẫn

#fundamentals

Bảng NxN tóm tắt số lượt dự đoán chính xác và không chính xác mà một mô hình phân loại đã đưa ra. Ví dụ: hãy xem xét ma trận nhầm lẫn sau đây cho mô hình phân loại nhị phân:

Khối u (dự đoán) Không phải khối u (dự đoán)
Khối u (sự thật) 18 (TP) 1 (FN)
Không phải khối u (sự thật) 6 (FP) 452 (TN)

Ma trận nhầm lẫn trước đó cho thấy những điều sau:

  • Trong số 19 dự đoán mà sự thật thực tế là Tumor, mô hình này đã phân loại chính xác 18 và phân loại không chính xác 1.
  • Trong số 458 dự đoán mà dữ liệu thực tế không phải là Un-Tumor, mô hình đã phân loại đúng 452 và phân loại không chính xác là 6.

Ma trận nhầm lẫn cho vấn đề phân loại nhiều lớp có thể giúp bạn xác định các quy luật của lỗi. Ví dụ: hãy xem xét ma trận nhầm lẫn sau đây cho mô hình phân loại nhiều lớp gồm 3 lớp, giúp phân loại 3 loại mống mắt khác nhau (Virginica, Versicolor và Setosa). Khi dữ liệu thực tế là Virginica, ma trận nhầm lẫn cho thấy mô hình này có nhiều khả năng dự đoán Versicolor nhầm hơn Setosa:

  Setosa (dự đoán) Versicolor (dự đoán) Virginica (dự đoán)
Setosa (sự thật) 88 12 0
Versicolor (sự thật về mặt đất) 6 141 7
Virginica (sự thật) 2 27 109

Một ví dụ khác là một ma trận nhầm lẫn có thể tiết lộ rằng một mô hình được huấn luyện để nhận dạng chữ số viết tay có xu hướng dự đoán nhầm 9 thay vì 4, hoặc dự đoán nhầm 1 thay vì 7.

Ma trận kết hợp chứa đủ thông tin để tính toán nhiều chỉ số hiệu suất, bao gồm cả độ chính xácđộ ghi nhớ.

tính năng liên tục

#fundamentals

Một tính năng dấu phẩy động có phạm vi vô hạn các giá trị có thể có, chẳng hạn như nhiệt độ hoặc trọng lượng.

Tương phản với tính năng riêng biệt.

hội tụ

#fundamentals

Trạng thái đạt đến khi giá trị mất thay đổi rất ít hoặc hoàn toàn không thay đổi với mỗi vòng lặp. Ví dụ: đường cong tổn thất sau đây cho thấy sự hội tụ ở khoảng 700 lần lặp:

cốt truyện Descartes. Trục X là trục mất. Trục Y là số lần lặp lại huấn luyện. Tỷ lệ mất rất cao trong vài lần lặp lại đầu tiên, nhưng sẽ giảm mạnh. Sau khoảng 100 lần lặp lại, tình trạng mất mát vẫn giảm dần nhưng dần dần. Sau khoảng 700 vòng lặp, tỷ lệ mất mát vẫn không thay đổi.

Một mô hình tập hợp khi quá trình huấn luyện bổ sung sẽ không cải thiện mô hình.

Trong học sâu, giá trị mất đi đôi khi không đổi hoặc gần như trong nhiều lần lặp lại trước khi giảm dần. Trong một thời gian dài giá trị mất đi không đổi, bạn có thể tạm thời có cảm nhận giả về sự hội tụ.

Hãy xem thêm thông tin về việc dừng sớm.

D

DataFrame

#fundamentals

Một loại dữ liệu gấu phổ biến để biểu thị tập dữ liệu trong bộ nhớ.

DataFrame cũng tương tự như một bảng hoặc bảng tính. Mỗi cột của Khung dữ liệu có một tên (tiêu đề) và mỗi hàng được xác định bằng một số duy nhất.

Mỗi cột trong một DataFrame có cấu trúc như một mảng 2D, ngoại trừ việc mỗi cột có thể được chỉ định kiểu dữ liệu riêng.

Hãy xem thêm trang tham khảo chính thức về gấu trúc.DataFrame.

tập dữ liệu hoặc tập dữ liệu

#fundamentals

Tập hợp dữ liệu thô, thường (nhưng không chỉ) được sắp xếp theo một trong các định dạng sau:

  • một bảng tính
  • tệp ở định dạng CSV (các giá trị được phân tách bằng dấu phẩy)

mô hình sâu

#fundamentals

Một mạng nơron chứa nhiều hơn một lớp ẩn.

Mô hình sâu còn được gọi là mạng nơron sâu.

Tương phản với mô hình rộng.

tính chất dày đặc

#fundamentals

Một tính năng trong đó hầu hết hoặc tất cả các giá trị đều khác 0, thường là Tensor của các giá trị dấu phẩy động. Ví dụ: Tensor 10 phần tử sau đây là dày đặc vì 9 giá trị của nó khác 0:

8 3 7 5 2 4 0 4 9 6

Tương phản với tính năng thưa thớ.

chiều sâu

#fundamentals

Tổng của giá trị sau trong mạng nơron:

Ví dụ: một mạng nơron có 5 lớp ẩn và một lớp đầu ra có độ sâu là 6.

Lưu ý rằng lớp đầu vào không ảnh hưởng đến chiều sâu.

tính năng rời rạc

#fundamentals

Một tính năng với một tập hợp các giá trị có thể có hữu hạn. Ví dụ: một đối tượng có các giá trị chỉ có thể là động vật, rau củ hoặc khoáng sản là một tính năng riêng biệt (hoặc phân loại).

Tương phản với tính năng liên tục.

linh động

#fundamentals

Việc gì đó được thực hiện thường xuyên hoặc liên tục. Các thuật ngữ độngtrực tuyến là các từ đồng nghĩa trong công nghệ học máy. Sau đây là một số cách sử dụng phổ biến của phương thức độngtrực tuyến trong công nghệ học máy:

  • Mô hình động (hay mô hình trực tuyến) là một mô hình được đào tạo lại thường xuyên hoặc liên tục.
  • Đào tạo động (hay đào tạo trực tuyến) là quá trình huấn luyện thường xuyên hoặc liên tục.
  • Suy luận động (hay suy luận trực tuyến) là quá trình tạo thông tin dự đoán theo yêu cầu.

mô hình động

#fundamentals

Một model thường xuyên (thậm chí có thể liên tục) được huấn luyện lại. Mô hình linh động là một "người học suốt đời" liên tục thích ứng với dữ liệu không ngừng phát triển. Mô hình động còn được gọi là mô hình trực tuyến.

Tương phản với mô hình tĩnh.

E

dừng sớm

#fundamentals

Phương thức điều chỉnh quy trình bao gồm việc kết thúc huấn luyện trước khi tình trạng ngừng huấn luyện kết thúc việc giảm dần. Khi dừng lại, bạn chủ ý ngừng huấn luyện mô hình khi mức độ mất dữ liệu trên tập dữ liệu xác thực bắt đầu tăng lên; tức là khi hiệu suất tổng quát hoá trở nên kém đi.

lớp nhúng

#language
#fundamentals

Một lớp ẩn đặc biệt được huấn luyện dựa trên tính năng phân loại có chiều cao để tìm hiểu dần một vectơ nhúng có chiều thấp hơn. Lớp nhúng giúp mạng nơron huấn luyện hiệu quả hơn nhiều so với việc chỉ huấn luyện tính năng phân loại đa chiều.

Ví dụ: Trái Đất hiện hỗ trợ khoảng 73.000 loài cây. Giả sử các loài cây là một tính năng trong mô hình của bạn, vì vậy,lớp đầu vào của mô hình bao gồm một vectơ một nóng gồm 73.000 phần tử dài. Ví dụ: có thể baobab sẽ được biểu thị như sau:

Một mảng gồm 73.000 phần tử. 6.232 phần tử đầu tiên có giá trị
     0. Phần tử tiếp theo chứa giá trị 1. 66.767 phần tử cuối cùng có giá trị bằng 0.

Một mảng 73.000 phần tử là rất dài. Nếu bạn không thêm lớp nhúng vào mô hình, thì việc huấn luyện sẽ tốn rất nhiều thời gian do phải nhân 72.999 số 0. Có thể bạn chọn lớp nhúng gồm 12 chiều. Do đó, lớp nhúng sẽ dần học được một vectơ nhúng mới cho từng loài cây.

Trong một số trường hợp nhất định, băm là một lựa chọn thay thế hợp lý cho lớp nhúng.

thời gian bắt đầu của hệ thống

#fundamentals

Một lượt huấn luyện đầy đủ sẽ áp dụng cho toàn bộ bộ huấn luyện, sao cho mỗi ví dụ đều được xử lý một lần.

Thời gian bắt đầu của hệ thống đại diện cho N/kích thước lô huấn luyện vòng lặp, trong đó N là tổng số ví dụ.

Ví dụ: giả sử như sau:

  • Tập dữ liệu bao gồm 1.000 ví dụ.
  • Kích thước lô là 50 ví dụ.

Do đó, một thời gian bắt đầu của hệ thống cần 20 vòng lặp:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

ví dụ

#fundamentals

Giá trị của một hàng tính năng và có thể là nhãn. Ví dụ trong công nghệ học có giám sát thuộc 2 danh mục chung:

  • Ví dụ được gắn nhãn bao gồm một hoặc nhiều tính năng và một nhãn. Các ví dụ có gắn nhãn sẽ được dùng trong quá trình huấn luyện.
  • Ví dụ không được gắn nhãn bao gồm một hoặc nhiều tính năng nhưng không có nhãn. Các ví dụ không có nhãn được sử dụng trong quá trình suy luận.

Ví dụ: giả sử bạn đang huấn luyện một mô hình để xác định ảnh hưởng của điều kiện thời tiết đối với điểm kiểm tra của học sinh. Sau đây là 3 ví dụ được gắn nhãn:

Tính năng Hãng nhạc
Nhiệt độ Độ ẩm Áp lực Điểm kiểm tra
15 47 998 Tốt
19 34 1020 Rất tốt
18 92 1012 Kém

Dưới đây là ba ví dụ không được gắn nhãn:

Nhiệt độ Độ ẩm Áp lực  
12 62 1014  
21 47 1017  
19 41 1021  

Ví dụ: Hàng của tập dữ liệu thường là nguồn thô. Điều này có nghĩa là một ví dụ thường bao gồm một tập hợp con các cột trong tập dữ liệu. Hơn nữa, các tính năng trong một ví dụ cũng có thể bao gồm tính năng tổng hợp, chẳng hạn như các tính năng kết hợp.

F

âm tính giả (FN)

#fundamentals

Một ví dụ trong đó mô hình này dự đoán nhầm lớp phủ định. Ví dụ: mô hình này dự đoán một email cụ thể không phải là thư rác (lớp phủ định), nhưng email đó thực sự là thư rác.

dương tính giả (FP)

#fundamentals

Một ví dụ trong đó mô hình này dự đoán nhầm lớp dương. Ví dụ: mô hình này dự đoán một email cụ thể là thư rác (lớp khẳng định), nhưng email đó thực sự không phải là thư rác.

tỷ lệ dương tính giả (FPR)

#fundamentals

Tỷ lệ các ví dụ phủ định thực tế mà mô hình đã dự đoán nhầm lớp dương. Công thức sau đây sẽ tính tỷ lệ dương tính giả:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Tỷ lệ dương tính giả là trục x trong đường cong ROC.

đối tượng

#fundamentals

Biến đầu vào cho mô hình học máy. Ví dụ bao gồm một hoặc nhiều tính năng. Ví dụ: giả sử bạn đang huấn luyện một mô hình để xác định ảnh hưởng của điều kiện thời tiết đối với điểm kiểm tra của học viên. Bảng sau đây trình bày 3 ví dụ, mỗi ví dụ có 3 tính năng và 1 nhãn:

Tính năng Hãng nhạc
Nhiệt độ Độ ẩm Áp lực Điểm kiểm tra
15 47 998 92
19 34 1020 84
18 92 1012 87

Tương phản với label.

chữ thập

#fundamentals

Một tính năng tổng hợp hình thành do các tính năng phân loại hoặc phân nhóm.

Ví dụ: hãy xem xét mô hình "dự báo tâm trạng" biểu thị nhiệt độ ở một trong 4 nhóm sau:

  • freezing
  • chilly
  • temperate
  • warm

Đồng thời, biểu thị tốc độ gió ở một trong ba nhóm sau:

  • still
  • light
  • windy

Nếu không có đối tượng nào đi qua, mô hình tuyến tính sẽ huấn luyện độc lập trên mỗi bộ chứa trong số 7 bộ chứa trước đó. Ví dụ: mô hình sẽ huấn luyện trên freezing một cách độc lập với hoạt động huấn luyện trên windy, chẳng hạn như.

Ngoài ra, bạn có thể tạo một tính năng gồm nhiệt độ và tốc độ gió. Tính năng tổng hợp này sẽ có thể có 12 giá trị sau:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Nhờ các tính năng chéo, mô hình này có thể tìm hiểu sự khác biệt về tâm trạng giữa một ngày freezing-windy và một ngày freezing-still.

Nếu bạn tạo một tính năng tổng hợp từ hai tính năng mà mỗi tính năng có rất nhiều bộ chứa khác nhau, thì kết quả giao diện tính năng sẽ có rất nhiều tổ hợp khả thi. Ví dụ: nếu một đối tượng có 1.000 bộ chứa và tính năng còn lại có 2.000 bộ chứa, thì kết quả tính năng kết quả sẽ có 2.000.000 bộ chứa.

Chính thức, dấu thập là một sản phẩm Cartesian.

Các tính năng chéo chủ yếu được sử dụng với mô hình tuyến tính và hiếm khi được sử dụng với mạng nơron.

kỹ thuật tính năng

#fundamentals
#TensorFlow

Quy trình bao gồm các bước sau:

  1. Việc xác định tính năng nào có thể hữu ích trong việc huấn luyện mô hình.
  2. Chuyển đổi dữ liệu thô từ tập dữ liệu thành các phiên bản hiệu quả của các tính năng đó.

Ví dụ: bạn có thể xác định rằng temperature có thể là một tính năng hữu ích. Sau đó, bạn có thể thử nghiệm bằng cách phân nhóm để tối ưu hoá những gì mô hình có thể học được từ nhiều phạm vi temperature.

Kỹ thuật tính năng đôi khi được gọi là trích xuất tính năng hoặc tính năng.

bộ tính năng

#fundamentals

Nhóm tính năngmô hình học máy mà bạn sử dụng để huấn luyện. Ví dụ: mã bưu chính, quy mô cơ sở lưu trú và tình trạng bất động sản có thể bao gồm một tập hợp tính năng đơn giản cho một mô hình dự đoán giá nhà ở.

vectơ đặc trưng

#fundamentals

Mảng các giá trị feature bao gồm một ví dụ. Vectơ tính năng được nhập vào trong quá trình huấn luyện và trong quá trình dự đoán. Ví dụ: vectơ đối tượng cho một mô hình có hai tính năng riêng biệt có thể là:

[0.92, 0.56]

Bốn lớp: lớp đầu vào, hai lớp ẩn và một lớp đầu ra.
          Lớp đầu vào chứa hai nút, một nút chứa giá trị 0,92 và nút còn lại chứa giá trị 0,56.

Mỗi ví dụ cung cấp các giá trị khác nhau cho vectơ tính năng, vì vậy, vectơ đặc trưng cho ví dụ tiếp theo có thể là:

[0.73, 0.49]

Kỹ thuật tính năng xác định cách biểu thị các tính năng trong vectơ của tính năng. Ví dụ: một tính năng phân loại nhị phân có 5 giá trị có thể được biểu thị bằng mã hoá một lần nhấn. Trong trường hợp này, phần của vectơ tính năng cho một ví dụ cụ thể sẽ bao gồm bốn số 0 và một số 1.0 ở vị trí thứ ba, như sau:

[0.0, 0.0, 1.0, 0.0, 0.0]

Một ví dụ khác, giả sử mô hình của bạn bao gồm ba tính năng:

  • một tính năng phân loại nhị phân có 5 giá trị có thể có được biểu thị bằng mã hoá một lần; ví dụ: [0.0, 1.0, 0.0, 0.0, 0.0]
  • một tính năng phân loại nhị phân khác có ba giá trị có thể có được biểu thị bằng phương thức mã hoá một lần; ví dụ: [0.0, 0.0, 1.0]
  • một đối tượng dấu phẩy động; ví dụ: 8.3.

Trong trường hợp này, vectơ đối tượng cho từng ví dụ sẽ được biểu thị bằng 9 giá trị. Với các giá trị ví dụ trong danh sách trước đó, vectơ tính năng sẽ là:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

vòng hồi tiếp

#fundamentals

Trong công nghệ học máy, một tình huống trong đó thông tin dự đoán của một mô hình sẽ ảnh hưởng đến dữ liệu huấn luyện cho cùng một mô hình hoặc một mô hình khác. Ví dụ: một mô hình đề xuất phim sẽ tác động đến các phim mà mọi người xem, sau đó sẽ ảnh hưởng đến các mô hình đề xuất phim tiếp theo.

G

tổng quát hoá

#fundamentals

Khả năng đưa ra dự đoán chính xác của mô hình đối với dữ liệu mới chưa từng thấy trước đây. Mô hình có thể tổng quát hoá là mô hình ngược lại với mô hình tập hợp quá mức.

đường cong tổng quát

#fundamentals

Biểu đồ về cả số lần bị mất trong quá trình huấn luyệnmất tính xác thực dưới dạng hàm của số lượng số lần lặp lại.

Đường cong tổng quát hoá có thể giúp bạn phát hiện vấn đề quá mức có thể xảy ra. Ví dụ: đường cong tổng quát sau đây cho thấy việc điều chỉnh quá mức vì tỷ lệ mất xác thực cuối cùng trở nên cao hơn đáng kể so với tổn thất trong quá trình huấn luyện.

Một đồ thị Descartes, trong đó trục y được gắn nhãn là mất và trục x được gắn nhãn là lặp lại. 2 ô sẽ xuất hiện. Một biểu đồ cho thấy tổn thất trong quá trình huấn luyện và biểu đồ còn lại cho thấy tổn thất về mặt xác thực.
          Hai biểu đồ có khởi đầu tương tự nhau, nhưng tổn thất trong quá trình huấn luyện cuối cùng giảm xuống thấp hơn nhiều so với số lượng mất mát xác thực.

phương thức giảm độ dốc

#fundamentals

Một kỹ thuật toán học để giảm thiểu tình trạng mất. Phương pháp giảm độ dốc chuyển dần theo cách lặp lại điều chỉnh trọng sốđộ lệch, dần tìm ra kết hợp phù hợp nhất để giảm thiểu tình trạng mất mát.

Phương pháp giảm dần độ dốc sẽ cũ hơn nhiều so với công nghệ học máy.

thông tin thực tế

#fundamentals

Thực tế.

Sự việc đã xảy ra trên thực tế.

Ví dụ: hãy xem xét mô hình phân loại nhị phân dự đoán liệu một sinh viên trong năm thứ nhất đại học có tốt nghiệp trong vòng 6 năm hay không. Nền tảng của mô hình này là liệu sinh viên đó có thực sự tốt nghiệp trong vòng 6 năm hay không.

Số lần bị đánh trúng bóng

lớp ẩn

#fundamentals

Một lớp trong mạng nơron giữa lớp đầu vào (tính năng) và lớp đầu ra (nội dung dự đoán). Mỗi lớp ẩn bao gồm một hoặc nhiều tế bào thần kinh. Ví dụ: mạng nơron sau đây chứa 2 lớp ẩn, lớp thứ nhất có 3 nơron và lớp thứ hai có 2 nơron:

4 lớp. Lớp đầu tiên là lớp đầu vào chứa hai tính năng. Lớp thứ hai là một lớp ẩn chứa ba nơron. Lớp thứ ba là một lớp ẩn chứa hai nơron. Lớp thứ tư là lớp đầu ra. Mỗi đối tượng chứa 3 cạnh, mỗi cạnh trỏ đến một nơron khác nhau trong lớp thứ hai. Mỗi nơron trong lớp thứ hai chứa hai cạnh, mỗi cạnh trỏ đến một nơron khác trong lớp thứ ba. Mỗi nơron trong lớp thứ ba chứa một cạnh, mỗi cạnh trỏ đến lớp đầu ra.

Một mạng nơron sâu chứa nhiều lớp ẩn. Ví dụ: hình minh hoạ trước là một mạng nơron sâu vì mô hình này chứa 2 lớp ẩn.

siêu tham số

#fundamentals

Các biến mà bạn hoặc dịch vụ điều chỉnh siêu tham sốsẽ điều chỉnh trong các lần chạy huấn luyện mô hình liên tiếp. Ví dụ: tốc độ học tập là một siêu tham số. Bạn có thể đặt tốc độ học là 0,01 trước một phiên đào tạo. Nếu xác định rằng 0,01 là quá cao, có thể bạn có thể đặt tốc độ học thành 0,003 cho lần huấn luyện tiếp theo.

Ngược lại, tham số là các trọng sốđộ lệch mà mô hình học trong quá trình huấn luyện.

I

phân phối độc lập và đồng nhất (i.i.d)

#fundamentals

Dữ liệu được vẽ từ một phân phối không thay đổi, và trong đó mỗi giá trị được vẽ không phụ thuộc vào các giá trị đã được vẽ trước đó. Ví dụ i là khí lý tưởng của công nghệ học máy – một cấu trúc toán học hữu ích nhưng hầu như không được tìm thấy chính xác trong thế giới thực. Ví dụ: việc phân phối khách truy cập vào một trang web có thể là cố định trong một khoảng thời gian ngắn; nghĩa là sự phân phối này không thay đổi trong khoảng thời gian ngắn đó và lượt truy cập của một người thường độc lập với lượt truy cập của người khác. Tuy nhiên, nếu bạn mở rộng khoảng thời gian đó, thì những khác biệt theo mùa về lượng khách truy cập trang web có thể xuất hiện.

Xem thêm về tính không cố định.

suy luận

#fundamentals

Trong công nghệ học máy, quá trình đưa ra thông tin dự đoán bằng cách áp dụng một mô hình đã huấn luyện cho các ví dụ không có nhãn.

Suy luận có ý nghĩa hơi khác trong số liệu thống kê. Vui lòng xem Bài viết trên Wikipedia về suy luận thống kê để biết thông tin chi tiết.

lớp đầu vào

#fundamentals

Lớp của mạng nơron chứa vectơ tính năng. Điều này nghĩa là lớp đầu vào cung cấp ví dụ cho hoạt động huấn luyện hoặc suy luận. Ví dụ: lớp đầu vào trong mạng nơron sau đây bao gồm hai tính năng:

Bốn lớp: lớp đầu vào, hai lớp ẩn và lớp đầu ra.

mức độ diễn giải

#fundamentals

Khả năng giải thích hoặc trình bày lý luận của mô hình học máy bằng các cụm từ dễ hiểu.

Ví dụ: hầu hết các mô hình hồi quy tuyến tính đều dễ hiểu. (Bạn chỉ cần xem xét các trọng số được huấn luyện cho mỗi tính năng.) Rừng quyết định cũng có thể diễn giải cao. Tuy nhiên, một số mô hình yêu cầu hình ảnh trực quan phức tạp để có thể diễn giải được.

Bạn có thể sử dụng Công cụ diễn giải học tập (LIT) để diễn giải các mô hình học máy.

lặp lại

#fundamentals

Cập nhật một lần các tham số của mô hìnhtrọng sốđộ lệch của mô hình trong quá trình huấn luyện. Kích thước lô xác định số lượng ví dụ mà mô hình xử lý trong một vòng lặp. Ví dụ: nếu kích thước lô là 20, thì mô hình sẽ xử lý 20 ví dụ trước khi điều chỉnh tham số.

Khi huấn luyện mạng nơron, một lần lặp sẽ bao gồm 2 lượt truyền sau:

  1. Chuyển tiếp để đánh giá tổn thất trong một lô.
  2. Truyền ngược (backpropagation) để điều chỉnh các thông số của mô hình dựa trên tỷ lệ mất mát và tốc độ học.

L

Chuẩn hoá L0

#fundamentals

Một loại quy chuẩn hoá hình phạt tổng số các trọng số khác 0 trong một mô hình. Ví dụ: một mô hình có 11 trọng số khác 0 sẽ bị phạt nhiều hơn một mô hình tương tự có 10 trọng số khác 0.

Việc chuẩn hoá L0 đôi khi được gọi là điều chỉnh chuẩn L0-norm.

L1 thua

#fundamentals

Một hàm tổn thất tính toán giá trị tuyệt đối của mức chênh lệch giữa các giá trị nhãn thực tế và các giá trị mà một mô hình dự đoán. Ví dụ: dưới đây là cách tính tổn thất L1 cho một gói trong số 5 ví dụ:

Giá trị thực tế của ví dụ Giá trị dự đoán của mô hình Giá trị tuyệt đối của delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1

tổn thất L1 ít nhạy cảm hơn với các điểm ngoại lai so với L2 tổn thất.

Lỗi tuyệt đối trung bình là mức tổn thất trung bình L1 cho mỗi ví dụ.

Chuẩn hoá L1

#fundamentals

Một loại quy tắc chuẩn hoá hình phạt trọng số theo tỷ lệ với tổng giá trị tuyệt đối của các trọng số. Việc chính quy L1 giúp tăng trọng số của các tính năng không liên quan hoặc hầu như không liên quan tới chính xác 0. Một tính năng có trọng số bằng 0 sẽ bị xoá một cách hiệu quả khỏi mô hình.

Trái ngược với quy trình điều chỉnh L2.

L2 thua

#fundamentals

Một hàm mất dữ liệu tính bình phương độ chênh lệch giữa các giá trị nhãn thực tế và các giá trị mà một mô hình dự đoán. Ví dụ: dưới đây là cách tính tổn thất L2 cho một gồm năm ví dụ:

Giá trị thực tế của ví dụ Giá trị dự đoán của mô hình Quảng trường delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 lỗ

Do bình phương, tổn thất L2 làm tăng mức ảnh hưởng của các điểm ngoại lai. Nghĩa là, tổn thất L2 phản ứng mạnh hơn với các dự đoán xấu so với L1 tổn thất Ví dụ: tổn thất L1 của lô trước đó sẽ là 8 thay vì 16. Xin lưu ý rằng một điểm ngoại lai chiếm 9/16.

Mô hình hồi quy thường sử dụng tỷ lệ mất L2 làm hàm tổn thất.

Lỗi bình phương trung bình là mức tổn thất trung bình L2 cho mỗi ví dụ. Tỷ lệ mất hình bình phương là tên khác của tổn thất L2.

Chuẩn hoá L2

#fundamentals

Một loại quy chuẩn hoá hình phạt trọng số theo tỷ lệ với tổng bình phương của các trọng số. Việc chuẩn hoá L2 giúp thúc đẩy trọng số ngoại lệ (những người có giá trị dương cao hoặc âm thấp) về gần 0 nhưng không hoàn toàn bằng 0. Các tính năng có giá trị rất gần bằng 0 vẫn tồn tại trong mô hình nhưng không ảnh hưởng nhiều đến thông tin dự đoán của mô hình.

Việc chuẩn hoá L2 luôn cải thiện việc tổng quát hoá trong mô hình tuyến tính.

Trái ngược với quy trình điều chỉnh L1.

nhãn

#fundamentals

Trong công nghệ học máy có giám sát, phần "câu trả lời" hoặc "kết quả" của một ví dụ.

Mỗi ví dụ được gắn nhãn bao gồm một hoặc nhiều tính năng và một nhãn. Ví dụ: trong một tập dữ liệu phát hiện thư rác, nhãn có thể sẽ là "thư rác" hoặc "không phải thư rác". Trong tập dữ liệu về lượng mưa, nhãn này có thể là lượng mưa đã rơi trong một khoảng thời gian nhất định.

ví dụ được gắn nhãn

#fundamentals

Ví dụ chứa một hoặc nhiều tính năng và một nhãn. Ví dụ: bảng sau đây cho thấy 3 ví dụ được gắn nhãn từ mô hình định giá ngôi nhà, trong đó mỗi ví dụ có 3 tính năng và một nhãn:

Số lượng phòng ngủ Số lượng phòng tắm Tuổi Giá nhà (nhãn)
3 2 15 $345.000
2 1 72 $179.000
4 2 34 $392.000

Trong công nghệ học máy có giám sát, các mô hình sẽ huấn luyện dựa trên các ví dụ được gắn nhãn và đưa ra dự đoán trên các ví dụ không có nhãn.

So sánh ví dụ được gắn nhãn với ví dụ chưa được gắn nhãn.

hàm lambda

#fundamentals

Từ đồng nghĩa với tỷ lệ chuẩn hoá.

Lambda là một thuật ngữ bị quá tải. Ở đây, chúng tôi đang tập trung vào định nghĩa về thuật ngữ này trong quy trình điều chỉnh theo chuẩn.

lớp

#fundamentals

Một tập hợp nơ-ron trong một mạng nơron. Sau đây là 3 loại lớp phổ biến:

Ví dụ: hình minh hoạ sau đây cho thấy một mạng nơron có một lớp đầu vào, 2 lớp ẩn và một lớp đầu ra:

Một mạng nơron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra. Lớp đầu vào bao gồm hai tính năng. Lớp ẩn đầu tiên bao gồm ba nơron và lớp ẩn thứ hai gồm hai nơron. Lớp đầu ra bao gồm một nút duy nhất.

Trong TensorFlow, lớp cũng là các hàm Python. Hàm này lấy Tensor và các tuỳ chọn cấu hình làm dữ liệu đầu vào cũng như tạo ra các tensor khác làm dữ liệu đầu ra.

tốc độ học

#fundamentals

Số dấu phẩy động cho biết thuật toán giảm xuống chuyển tiếp (gradient xuống) mức độ điều chỉnh trọng số và độ chệch trên mỗi lần lặp lại. Ví dụ: tốc độ học 0,3 sẽ điều chỉnh trọng số và độ chệch hiệu quả hơn gấp 3 lần so với tốc độ học là 0,1.

Tốc độ tìm hiểu là một siêu tham số chính. Nếu bạn đặt tốc độ học quá thấp, thì việc đào tạo sẽ mất quá nhiều thời gian. Nếu bạn đặt tốc độ học quá cao, thì phương pháp giảm độ dốc thường gặp khó khăn với việc tiếp cận mức độ hội tụ.

tuyến tính

#fundamentals

Mối quan hệ giữa hai hoặc nhiều biến chỉ có thể được biểu thị thông qua phép cộng và nhân.

Biểu đồ của mối quan hệ tuyến tính là một đường.

Tương phản với phi tuyến tính.

mô hình tuyến tính

#fundamentals

Một model chỉ định một model cho mỗi model để đưa ra model. (Mô hình tuyến tính cũng kết hợp thiên vị.) Ngược lại, mối quan hệ của các tính năng với dự đoán trong mô hình sâu thường là phi tuyến tính.

Mô hình tuyến tính thường dễ huấn luyện hơn và dễ hiểu hơn so với mô hình sâu. Tuy nhiên, các mô hình sâu có thể tìm hiểu mối quan hệ phức tạp giữa các tính năng.

Hồi quy tuyến tínhhồi quy logistic là hai loại mô hình tuyến tính.

hồi quy tuyến tính

#fundamentals

Một loại mô hình học máy đáp ứng cả hai điều kiện sau:

  • Mô hình này là một mô hình tuyến tính.
  • Thông tin dự đoán là một giá trị dấu phẩy động. (Đây là phần hồi quy của hồi quy tuyến tính.)

Đối chiếu hồi quy tuyến tính với hồi quy logistic. Ngoài ra, đối chiếu sự hồi quy với tính năng phân loại.

hồi quy logistic

#fundamentals

Một loại mô hình hồi quy dự đoán một xác suất. Mô hình hồi quy logistic có các đặc điểm sau:

  • Nhãn này là phân loại. Thuật ngữ hồi quy logistic thường đề cập đến hồi quy logistic nhị phân, tức là đến một mô hình tính xác suất cho các nhãn có 2 giá trị khả thi. Một biến thể ít phổ biến hơn là hồi quy logistic đa thức, tính xác suất cho các nhãn có nhiều hơn 2 giá trị có thể có.
  • Hàm bị mất trong quá trình huấn luyện là Log loss. (Có thể đặt nhiều đơn vị tổn thất nhật ký song song cho các nhãn có nhiều hơn hai giá trị có thể có.)
  • Mô hình này có kiến trúc tuyến tính chứ không phải mạng nơron sâu. Tuy nhiên, phần còn lại của định nghĩa này cũng áp dụng cho mô hình sâu giúp dự đoán xác suất cho các nhãn phân loại.

Ví dụ: hãy xem xét mô hình hồi quy logistic để tính xác suất một email đầu vào là thư rác hoặc không phải thư rác. Trong quá trình suy luận, giả sử mô hình dự đoán giá trị 0,72. Do đó, mô hình này sẽ ước tính:

  • 72% khả năng email là thư rác.
  • 28% khả năng email không phải là thư rác.

Mô hình hồi quy logistic sử dụng cấu trúc hai bước sau:

  1. Mô hình này tạo thông tin dự đoán thô (y") bằng cách áp dụng hàm tuyến tính của các tính năng đầu vào.
  2. Mô hình sử dụng thông tin dự đoán thô đó làm dữ liệu đầu vào cho hàm sigmoid. Hàm này sẽ chuyển đổi dự đoán thô thành giá trị nằm trong khoảng từ 0 đến 1.

Giống như mọi mô hình hồi quy khác, mô hình hồi quy logistic dự đoán một số. Tuy nhiên, số này thường trở thành một phần của mô hình phân loại nhị phân như sau:

  • Nếu số dự đoán lớn hơn ngưỡng phân loại, thì mô hình phân loại nhị phân sẽ dự đoán lớp dương.
  • Nếu số dự đoán nhỏ hơn ngưỡng phân loại, thì mô hình phân loại nhị phân sẽ dự đoán lớp phủ định.

tổn thất nhật ký

#fundamentals

Hàm mất dữ liệu được dùng trong hồi quy logistic nhị phân.

tỷ lệ nhật ký

#fundamentals

Lôgarit xác suất của một số sự kiện.

thua

#fundamentals

Trong quá trình huấn luyện mô hình được giám sát, thước đo khoảng cách giữa dự đoán của mô hình so với nhãn của mô hình đó.

Hàm tổn thất tính toán tổn thất.

đường cong tổn thất

#fundamentals

Biểu đồ mất dưới dạng hàm của số lượng vòng lặp huấn luyện. Biểu đồ sau đây cho thấy một đường cong tổn thất thông thường:

Biểu đồ Descartes về số lần lặp lại bị mất so với số lần lặp lại trong quá trình huấn luyện, cho thấy sự sụt giảm nhanh chóng trong số lần lặp lại ban đầu, sau đó giảm dần và sau đó là một đường dốc phẳng trong các lần lặp cuối cùng.

Đường cong tổn thất có thể giúp bạn xác định thời điểm mô hình hội tụ hoặc tập hợp quá mức.

Đường cong tổn thất có thể biểu thị tất cả các loại tổn thất sau đây:

Xem thêm đường cong tổng quát hoá.

hàm mất dữ liệu

#fundamentals

Trong quá trình huấn luyện hoặc kiểm thử, một hàm toán học sẽ tính toán tổn thất trên một số lô ví dụ. Hàm tổn thất sẽ trả về mức tổn thất thấp hơn đối với các mô hình đưa ra dự đoán phù hợp so với các mô hình đưa ra dự đoán không chính xác.

Mục tiêu của việc huấn luyện thường là giảm thiểu tổn thất do hàm mất trả về.

Có nhiều loại hàm mất dữ liệu. Chọn hàm suy hao phù hợp cho loại mô hình mà bạn đang xây dựng. Ví dụ:

M

học máy

#fundamentals

Một chương trình hoặc hệ thống đào tạo mô hình từ dữ liệu đầu vào. Mô hình đã huấn luyện có thể đưa ra các dự đoán hữu ích từ dữ liệu mới (chưa từng thấy trước đó) được rút ra từ cùng một bản phân phối với dữ liệu dùng để huấn luyện mô hình.

Công nghệ học máy cũng là lĩnh vực nghiên cứu liên quan đến các chương trình hoặc hệ thống này.

lớp đa số

#fundamentals

Nhãn phổ biến hơn trong tập dữ liệu bất cân bằng lớp. Ví dụ: với một tập dữ liệu chứa 99% nhãn âm và 1% nhãn dương, thì các nhãn âm sẽ chiếm phần lớn lớp.

Ngược lại với lớp thiểu số.

lô nhỏ

#fundamentals

Một tập hợp con nhỏ, được chọn ngẫu nhiên của một được xử lý trong một vòng lặp. Kích thước lô của một lô nhỏ thường nằm trong khoảng từ 10 đến 1.000 ví dụ.

Ví dụ: giả sử toàn bộ tập hợp huấn luyện (toàn bộ lô) bao gồm 1.000 ví dụ. Ngoài ra, giả sử bạn đặt kích thước lô của mỗi lô nhỏ thành 20. Do đó, mỗi lần lặp lại sẽ xác định tổn thất trên 20 ví dụ ngẫu nhiên trong số 1.000 ví dụ,sau đó điều chỉnh trọng sốđộ lệch cho phù hợp.

Việc tính toán tổn thất trên một lô nhỏ hiệu quả hơn nhiều so với việc mất dữ liệu trên tất cả ví dụ trong toàn bộ lô.

lớp dân tộc thiểu số

#fundamentals

Nhãn ít phổ biến hơn trong tập dữ liệu mất cân bằng lớp. Ví dụ: với một tập dữ liệu chứa 99% nhãn âm và 1% nhãn dương, thì các nhãn dương tính là lớp thiểu số.

Tương phản với lớp đa số.

model

#fundamentals

Nói chung, mọi cấu trúc toán học xử lý dữ liệu đầu vào và trả về đầu ra. Diễn đạt theo cách khác, mô hình là tập hợp các tham số và cấu trúc cần thiết để hệ thống đưa ra dự đoán. Trong công nghệ học máy có giám sát, một mô hình sẽ lấy một ví dụ làm dữ liệu đầu vào và dự đoán một dự đoán làm đầu ra. Trong công nghệ học máy có giám sát, các mô hình sẽ có chút khác biệt. Ví dụ:

  • Mô hình hồi quy tuyến tính bao gồm một tập hợp trọng sốđộ lệch.
  • Mô hình mạng nơron bao gồm:
    • Một tập hợp lớp ẩn, mỗi lớp chứa một hoặc nhiều nơron.
    • Các trọng số và độ chệch liên quan đến mỗi nơron.
  • Mô hình cây quyết định bao gồm:
    • Hình dạng của cây; tức là mẫu kết nối các điều kiện và lá.
    • Điều kiện và lá cây.

Bạn có thể lưu, khôi phục hoặc tạo bản sao của mô hình.

Công nghệ học máy không được giám sát cũng tạo các mô hình, thường là một hàm có khả năng liên kết một mẫu dữ liệu đầu vào với cụm phù hợp nhất.

phân loại nhiều lớp

#fundamentals

Trong chế độ học có giám sát, vấn đề phân loại xảy ra, trong đó tập dữ liệu chứa nhiều lớp nhãn. Ví dụ: các nhãn trong tập dữ liệu Iris phải là một trong ba lớp sau:

  • Hoa diên vĩ
  • Hoa diên vĩ
  • Hoa diên vĩ

Một mô hình được huấn luyện dựa trên tập dữ liệu Iris để dự đoán kiểu Iris trên các ví dụ mới đang thực hiện việc phân loại nhiều lớp.

Ngược lại, các bài toán phân loại phân biệt chính xác hai lớp là mô hình phân loại nhị phân. Ví dụ: một mô hình email dự đoán thư rác hoặc không phải thư rác là mô hình phân loại nhị phân.

Trong các bài toán phân cụm, việc phân loại nhiều lớp đề cập đến nhiều hơn 2 cụm.

N

lớp phủ định

#fundamentals

Trong quá trình phân loại nhị phân, một lớp được gọi là dương và lớp còn lại có tên âm. Lớp dương là sự vật hoặc sự kiện mà mô hình đang kiểm thử còn lớp phủ định là khả năng khác. Ví dụ:

  • Lớp âm tính trong xét nghiệm y tế có thể "không phải khối u".
  • Lớp phủ định trong thuật toán phân loại email có thể là "không phải thư rác".

Tương phản với lớp tích cực.

mạng nơron

#fundamentals

Một model chứa ít nhất một model. Mạng nơron sâu là một loại mạng nơron chứa nhiều lớp ẩn. Ví dụ: sơ đồ sau đây cho thấy một mạng nơron sâu chứa hai lớp ẩn.

Một mạng nơron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra.

Mỗi nơron trong một mạng nơron đều kết nối với tất cả các nút trong lớp tiếp theo. Ví dụ: trong sơ đồ trước, bạn có thể thấy rằng mỗi nơron trong lớp ẩn đầu tiên kết nối riêng biệt với cả 2 nơron trong lớp ẩn thứ hai.

Mạng nơron triển khai trên máy tính đôi khi được gọi là mạng nơron nhân tạo để phân biệt chúng với mạng nơron có trong não và các hệ thần kinh khác.

Một số mạng nơron có thể bắt chước các mối quan hệ phi tuyến cực kỳ phức tạp giữa các tính năng và nhãn.

Hãy xem thêm nội dung về mạng nơron tích chậpmạng nơron định kỳ.

nơron

#fundamentals

Trong công nghệ học máy, một đơn vị riêng biệt trong lớp ẩn của mạng nơron. Mỗi nơron thực hiện hành động gồm 2 bước sau đây:

  1. Tính toán tổng có trọng số của các giá trị đầu vào nhân với trọng số tương ứng của chúng.
  2. Truyền tổng có trọng số làm dữ liệu đầu vào vào một hàm kích hoạt.

Một nơron trong lớp ẩn đầu tiên sẽ chấp nhận dữ liệu đầu vào từ các giá trị tính năng trong lớp đầu vào. Một nơron trong bất kỳ lớp ẩn nào ngoài lớp đầu tiên sẽ chấp nhận dữ liệu đầu vào từ các nơron trong lớp ẩn trước đó. Ví dụ: một nơron trong lớp ẩn thứ hai sẽ chấp nhận dữ liệu đầu vào từ các nơron trong lớp ẩn thứ nhất.

Hình minh hoạ sau đây làm nổi bật 2 nơron và dữ liệu đầu vào của chúng.

Một mạng nơron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra. Hai nơron được làm nổi bật: một ở lớp ẩn thứ nhất và một ở lớp ẩn thứ hai. Ô-ron được đánh dấu trong lớp ẩn đầu tiên nhận dữ liệu đầu vào từ cả hai tính năng trong lớp đầu vào. Ô nơron được đánh dấu trong lớp ẩn thứ hai nhận dữ liệu đầu vào từ mỗi trong số ba nơron ở lớp ẩn đầu tiên.

Một tế bào thần kinh trong mạng lưới thần kinh bắt chước hành vi của tế bào thần kinh trong bộ não và các bộ phận khác của hệ thần kinh.

nút (mạng nơron)

#fundamentals

Một nơ-ron trong một lớp ẩn.

phi tuyến tính

#fundamentals

Mối quan hệ giữa hai hoặc nhiều biến không thể chỉ biểu diễn thông qua phép cộng và nhân. Mối quan hệ tuyến tính có thể được biểu thị dưới dạng đường; mối quan hệ phi tuyến tính không thể được biểu thị dưới dạng đường. Ví dụ: hãy xem xét hai mô hình, trong đó mỗi mô hình liên kết một tính năng với một nhãn duy nhất. Mô hình bên trái là mô hình tuyến tính còn mô hình bên phải là mô hình phi tuyến tính:

Hai lô đất. Mỗi biểu đồ là một đường, vì vậy đây là mối quan hệ tuyến tính.
          Đồ thị còn lại là một đường cong, vì vậy, đây là mối quan hệ phi tuyến tính.

tính không cố định

#fundamentals

Một đối tượng có giá trị thay đổi trên một hoặc nhiều phương diện, thường là thời gian. Ví dụ: hãy xem xét các ví dụ sau đây về tình trạng không ổn định:

  • Số lượng bộ đồ bơi bán tại một cửa hàng cụ thể sẽ thay đổi theo mùa.
  • Số lượng trái cây cụ thể được thu hoạch tại một khu vực cụ thể bằng 0 trong phần lớn năm nhưng lớn trong một khoảng thời gian ngắn.
  • Do biến đổi khí hậu, nhiệt độ trung bình hằng năm đang thay đổi.

Trái ngược với sự ổn định.

chuẩn hoá

#fundamentals

Nói chung, đây là quá trình chuyển đổi phạm vi giá trị thực tế của một biến thành một dải giá trị chuẩn, chẳng hạn như:

  • -1 đến +1
  • 0 đến 1
  • phân phối chuẩn

Ví dụ: giả sử phạm vi thực tế của các giá trị của một tính năng nhất định là từ 800 đến 2.400. Trong quá trình kỹ thuật tính năng, bạn có thể chuẩn hoá các giá trị thực tế xuống một phạm vi chuẩn, chẳng hạn như -1 đến +1.

Chuẩn hoá là một tác vụ phổ biến trong kỹ thuật tính năng. Các mô hình thường huấn luyện nhanh hơn (và đưa ra thông tin dự đoán chính xác hơn) khi mọi đối tượng dạng số trong vectơ đặc trưng có phạm vi gần bằng nhau.

dữ liệu số

#fundamentals

Tính năng được biểu thị dưới dạng số nguyên hoặc số có giá trị thực. Ví dụ: mô hình định giá ngôi nhà có thể biểu thị kích thước của một ngôi nhà (tính bằng bộ vuông hoặc mét vuông) dưới dạng dữ liệu số. Biểu thị một đối tượng dưới dạng dữ liệu số cho biết rằng các giá trị của đối tượng đó có mối quan hệ toán học với nhãn. Nghĩa là, số mét vuông trong một ngôi nhà có thể có mối quan hệ toán học nào đó với giá trị của ngôi nhà.

Không phải tất cả dữ liệu số nguyên đều được biểu diễn dưới dạng dữ liệu số. Ví dụ: mã bưu chính ở một số nơi trên thế giới là số nguyên; tuy nhiên, không được biểu thị mã bưu chính bằng số nguyên dưới dạng dữ liệu số trong mô hình. Nguyên nhân là do mã bưu chính của 20000 không mạnh gấp đôi (hoặc một nửa) so với mã bưu chính 10000. Hơn nữa, mặc dù các mã bưu chính khác nhau tương quan với các giá trị bất động sản khác nhau, nhưng chúng tôi không thể giả định rằng giá trị bất động sản tại mã bưu chính 20000 có giá trị gấp đôi so với giá trị bất động sản tại mã bưu chính 10000. Mã bưu chính phải được biểu thị dưới dạng dữ liệu phân loại.

Các tính năng số đôi khi được gọi là tính năng liên tục.

O

ngoại tuyến

#fundamentals

Từ đồng nghĩa với static.

suy luận ngoại tuyến

#fundamentals

Quy trình mô hình tạo một loạt đề xuất, sau đó lưu vào bộ nhớ đệm (lưu) các dự đoán đó. Sau đó, các ứng dụng có thể truy cập vào thông tin dự đoán từ bộ nhớ đệm thay vì chạy lại mô hình.

Ví dụ: hãy xem xét một mô hình tạo dự báo thời tiết địa phương (dự đoán) bốn giờ một lần. Sau mỗi mô hình chạy, hệ thống sẽ lưu tất cả thông tin dự báo thời tiết địa phương vào bộ nhớ đệm. Các ứng dụng thời tiết truy xuất thông tin dự báo từ bộ nhớ đệm.

Suy luận ngoại tuyến còn được gọi là suy luận tĩnh.

Trái ngược với suy luận trực tuyến.

mã hoá một nóng

#fundamentals

Biểu diễn dữ liệu phân loại dưới dạng một vectơ trong đó:

  • Một phần tử được đặt thành 1.
  • Tất cả các phần tử khác được đặt thành 0.

Phương thức mã hoá một nóng thường dùng để biểu thị các chuỗi hoặc giá trị nhận dạng có một tập hợp hữu hạn gồm các giá trị có thể có. Ví dụ: giả sử một tính năng phân loại nhất định có tên là Scandinavia có thể có 5 giá trị:

  • "Đan Mạch"
  • "Thuỵ Điển"
  • "Na Uy"
  • "Phần Lan"
  • "Iceland"

Mã hoá một nóng có thể đại diện cho từng giá trị trong số năm giá trị như sau:

country Vectơ
"Đan Mạch" 1 0 0 0 0
"Thuỵ Điển" 0 1 0 0 0
"Na Uy" 0 0 1 0 0
"Phần Lan" 0 0 0 1 0
"Iceland" 0 0 0 0 1

Nhờ phương thức mã hoá một nóng, một mô hình có thể học nhiều kiểu kết nối dựa trên từng quốc gia trong số 5 quốc gia.

Việc trình bày một tính năng dưới dạng dữ liệu dạng số là giải pháp thay thế cho phương thức mã hoá một lần. Thật không may, việc đại diện cho các quốc gia Scandinavia bằng số không phải là một lựa chọn hay. Ví dụ: hãy xem xét cách biểu diễn dạng số sau đây:

  • "Đan Mạch" là 0
  • "Thuỵ Điển" là 1
  • "Na Uy" là 2
  • "Phần Lan" là 3
  • "Iceland" là 4

Với phương thức mã hoá số, một mô hình sẽ diễn giải số thô theo toán học và sẽ cố gắng huấn luyện các số đó. Tuy nhiên, Iceland thực sự không nhiều gấp đôi (hoặc một nửa) so với Na Uy, vì vậy, mô hình này sẽ đi đến một số kết luận kỳ lạ.

một so với tất cả

#fundamentals

Do vấn đề phân loại xảy ra với các lớp N, một giải pháp bao gồm N thuật toán phân loại nhị phân riêng biệt – một thuật toán phân loại nhị phân cho từng kết quả có thể xảy ra. Ví dụ: trong một mô hình phân loại các ví dụ là động vật, rau củ hoặc khoáng sản, giải pháp một so với tất cả sẽ cung cấp 3 thuật toán phân loại nhị phân riêng biệt sau đây:

  • động vật so với không phải động vật
  • rau so với không rau
  • khoáng sản so với không khoáng sản

trực tuyến

#fundamentals

Từ đồng nghĩa với dynamic.

suy luận trực tuyến

#fundamentals

Tạo thông tin dự đoán theo yêu cầu. Ví dụ: giả sử một ứng dụng truyền dữ liệu đầu vào vào mô hình và đưa ra yêu cầu cho thông tin dự đoán. Một hệ thống sử dụng thông tin dự đoán trực tuyến sẽ phản hồi yêu cầu bằng cách chạy mô hình (và trả về thông tin dự đoán cho ứng dụng).

Trái ngược với suy luận ngoại tuyến.

lớp đầu ra

#fundamentals

Lớp "cuối cùng" của mạng nơron. Lớp đầu ra chứa thông tin dự đoán.

Hình minh hoạ sau đây cho thấy một mạng nơron sâu nhỏ có một lớp đầu vào, 2 lớp ẩn và một lớp đầu ra:

Một mạng nơron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra. Lớp đầu vào bao gồm hai tính năng. Lớp ẩn đầu tiên bao gồm ba nơron và lớp ẩn thứ hai gồm hai nơron. Lớp đầu ra bao gồm một nút duy nhất.

thừa vùng

#fundamentals

Tạo một model khớp với model để mô hình không thể đưa ra dự đoán chính xác về dữ liệu mới.

Việc chuẩn hoá có thể giảm tình trạng quá mức. Việc tập luyện trong một bộ bài tập lớn và đa dạng cũng có thể giúp giảm hoạt động tập luyện quá mức.

Điểm

gấu trúc

#fundamentals

API phân tích dữ liệu theo cột, được xây dựng dựa trên numpy. Nhiều khung máy học, bao gồm cả TensorFlow, hỗ trợ cấu trúc dữ liệu gấu trúc làm dữ liệu đầu vào. Xem tài liệu về gấu trúc để biết thông tin chi tiết.

tham số

#fundamentals

Trọng sốthành kiến mà mô hình học được trong quá trình huấn luyện. Ví dụ: trong mô hình hồi quy tuyến tính, các tham số bao gồm độ chệch (b) và tất cả trọng số (w1, w2, v.v.) trong công thức sau:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Ngược lại, siêu tham số là các giá trị mà bạn (hoặc dịch vụ biến siêu tham số) cung cấp cho mô hình. Ví dụ: tốc độ học tập là một siêu tham số.

lớp dương

#fundamentals

Lớp mà bạn đang kiểm thử.

Ví dụ: lớp dương tính trong một mô hình ung thư có thể là "bướu". Lớp khẳng định trong thuật toán phân loại email có thể là "spam".

Đối chiếu với lớp phủ định.

xử lý hậu kỳ

#fairness
#fundamentals

Điều chỉnh đầu ra của mô hình sau khi mô hình đã chạy. Bạn có thể sử dụng quy trình xử lý hậu kỳ để thực thi các quy tắc ràng buộc về tính công bằng mà không cần sửa đổi mô hình.

Ví dụ: Người dùng có thể áp dụng xử lý hậu kỳ cho một thuật toán phân loại nhị phân bằng cách đặt một ngưỡng phân loại sao cho duy trì sự tương đương của cơ hội cho một số thuộc tính bằng cách kiểm tra để đảm bảo rằng tỷ lệ dương tính thực đối với tất cả các giá trị của thuộc tính đó là giống nhau.

dự đoán

#fundamentals

Đầu ra của mô hình. Ví dụ:

  • Thông tin dự đoán của mô hình phân loại nhị phân là lớp dương hoặc lớp phủ định.
  • Dự đoán của mô hình phân loại nhiều lớp là một lớp.
  • Dự đoán của mô hình hồi quy tuyến tính là một số.

nhãn proxy

#fundamentals

Dữ liệu dùng để ước chừng các nhãn không có sẵn trực tiếp trong một tập dữ liệu.

Ví dụ: giả sử bạn phải huấn luyện một mô hình để dự đoán mức độ căng thẳng của nhân viên. Tập dữ liệu của bạn có chứa nhiều tính năng dự đoán nhưng không có nhãn mức độ căng thẳng. Không phải lo lắng, bạn chọn "tai nạn tại nơi làm việc" làm nhãn proxy cho mức độ căng thẳng. Suy cho cùng, những nhân viên chịu áp lực cao lại gặp phải nhiều tai nạn hơn là những nhân viên bình tĩnh. Hay vậy? Có thể tai nạn tại nơi làm việc thực sự tăng và giảm vì nhiều lý do.

Ví dụ thứ hai, giả sử bạn muốn đặt nhãn trời có đang mưa không? phải là nhãn Boolean cho tập dữ liệu, nhưng tập dữ liệu của bạn không chứa dữ liệu về mưa. Nếu có ảnh chụp, bạn có thể lấy ảnh chụp mọi người mang ô để gắn nhãn đại diện cho trời có mưa không? Đó có phải là một nhãn proxy tốt không? Có thể xảy ra, nhưng mọi người ở một số nền văn hoá có nhiều khả năng mang ô để chống nắng hơn là mưa.

Nhãn proxy thường không hoàn hảo. Khi có thể, hãy chọn nhãn thực tế thay vì nhãn proxy. Tuy nhiên, khi không có nhãn thực sự, hãy chọn nhãn proxy rất cẩn thận, chọn nhãn proxy tối thiểu.

R

THẺ RAG

#fundamentals

Tên viết tắt của phương pháp tạo bằng cách truy xuất tăng cường.

người đánh giá

#fundamentals

Người cung cấp nhãn để ví dụ. "Người chú thích" là một tên khác của người đánh giá.

Đơn vị tuyến tính chỉnh hình (ReLU)

#fundamentals

Một hàm kích hoạt có hành vi sau đây:

  • Nếu đầu vào là số âm hoặc 0 thì đầu ra sẽ bằng 0.
  • Nếu đầu vào là số dương thì đầu ra sẽ bằng đầu vào.

Ví dụ:

  • Nếu đầu vào là -3 thì đầu ra là 0.
  • Nếu đầu vào là +3 thì đầu ra là 3.0.

Dưới đây là sơ đồ ReLU:

Biểu đồ Descartes gồm hai đường. Dòng đầu tiên có giá trị y không đổi bằng 0, chạy dọc theo trục x từ -infinity,0 đến 0,-0.
          Dòng thứ hai bắt đầu từ 0,0. Đường này có độ dốc +1, vì vậy, đường này chạy từ 0,0 đến +vô hạn,+vô hạn.

ReLU là chức năng kích hoạt rất phổ biến. Mặc dù có hành vi đơn giản, ReLU vẫn cho phép một mạng nơron tìm hiểu mối quan hệ phi tuyến tính giữa tính năngnhãn.

mô hình hồi quy

#fundamentals

Một mô hình tạo ra dự đoán dạng số một cách không chính thức. (Ngược lại, mô hình phân loại sẽ tạo thông tin dự đoán lớp.) Ví dụ: sau đây là tất cả các mô hình hồi quy:

  • Mô hình dự đoán giá trị của một ngôi nhà nhất định, chẳng hạn như 423.000 Euro.
  • Một mô hình dự đoán tuổi thọ của một cây nhất định, chẳng hạn như 23,2 năm.
  • Một mô hình dự đoán lượng mưa sẽ rơi ở một thành phố nhất định trong 6 giờ tới, chẳng hạn như 0,18 inch.

Hai loại mô hình hồi quy phổ biến là:

  • Hồi quy tuyến tính: Phương pháp này tìm đường phù hợp nhất với giá trị nhãn cho các đối tượng.
  • Hồi quy logic, tạo ra xác suất trong khoảng từ 0 đến 1 mà hệ thống thường ánh xạ tới dự đoán lớp.

Không phải mô hình nào đưa ra dự đoán dạng số là mô hình hồi quy. Trong một số trường hợp, dự đoán dạng số thực sự chỉ là một mô hình phân loại có tên lớp dạng số. Ví dụ: mô hình dự đoán một mã bưu chính dạng số là mô hình phân loại, không phải mô hình hồi quy.

điều chỉnh

#fundamentals

Bất kỳ cơ chế nào giúp giảm hiện tượng tập hợp quá mức. Các loại chính quy phổ biến bao gồm:

Việc chính quy cũng có thể được định nghĩa là hình phạt đối với độ phức tạp của mô hình.

tỷ lệ điều chỉnh

#fundamentals

Một số chỉ định tầm quan trọng tương đối của việc chuẩn hoá trong quá trình huấn luyện. Việc tăng tốc độ chuẩn hoá sẽ làm giảm việc điều chỉnh quá mức nhưng có thể làm giảm khả năng dự đoán của mô hình. Ngược lại, việc giảm hoặc bỏ qua tỷ lệ chính quy sẽ làm tăng tình trạng quá mức.

ReLU

#fundamentals

Tên viết tắt của Đơn vị tuyến tính chỉnh sửa.

tạo tăng cường truy xuất (RAG)

#fundamentals

Một kỹ thuật để cải thiện chất lượng của đầu ra mô hình ngôn ngữ lớn (LLM) bằng cách cung cấp nền tảng cho dữ liệu đó với các nguồn kiến thức được truy xuất sau khi mô hình được huấn luyện. RAG cải thiện độ chính xác của phản hồi của các LLM bằng cách cung cấp cho các LLM đã đào tạo quyền truy cập vào thông tin truy xuất từ các cơ sở kiến thức hoặc tài liệu đáng tin cậy.

Sau đây là một số động lực phổ biến khi sử dụng tính năng tạo dữ liệu tăng cường truy xuất:

  • Tăng độ chính xác thực tế của các câu trả lời do mô hình tạo ra.
  • Cấp cho mô hình quyền truy cập vào kiến thức mà mô hình không được huấn luyện.
  • Thay đổi kiến thức mà mô hình sử dụng.
  • Bật mô hình để trích dẫn nguồn.

Ví dụ: giả sử một ứng dụng hoá học sử dụng API PaLM để tạo bản tóm tắt liên quan đến truy vấn của người dùng. Khi phần phụ trợ của ứng dụng nhận được một truy vấn, phần phụ trợ sẽ:

  1. Tìm kiếm dữ liệu ("truy xuất") có liên quan đến cụm từ tìm kiếm của người dùng.
  2. Thêm ("augments") dữ liệu hoá học có liên quan vào cụm từ tìm kiếm của người dùng.
  3. Hướng dẫn LLM tạo bản tóm tắt dựa trên dữ liệu được thêm vào.

Đường cong ROC (đặc tính hoạt động của máy thu)

#fundamentals

Biểu đồ về tỷ lệ dương tính thực so với tỷ lệ dương tính giả đối với các ngưỡng phân loại khác nhau trong quá trình phân loại tệp nhị phân.

Hình dạng của đường cong ROC cho thấy khả năng của mô hình phân loại nhị phân trong việc phân tách các lớp dương khỏi lớp phủ định. Ví dụ: giả sử rằng mô hình phân loại nhị phân tách biệt hoàn toàn tất cả lớp phủ định khỏi tất cả các lớp dương:

Một trục số có 8 ví dụ ở bên phải và 7 ví dụ phủ định ở bên trái.

Đường cong ROC của mô hình trước đó như sau:

Đường cong ROC. Trục x là Tỷ lệ dương tính giả và trục y là Tỷ lệ dương tính đúng. Đường cong có hình chữ L đảo ngược. Đường cong
          bắt đầu từ (0.0,0.0) và đi thẳng lên (0.0,1.0). Sau đó, đường cong này đi từ (0.0,1.0) đến (1.0,1.0).

Ngược lại, hình minh hoạ sau đây vẽ biểu đồ các giá trị hồi quy logistic thô cho một mô hình rất tệ, không thể tách lớp âm khỏi lớp dương tính hoàn toàn:

Một trục số chứa các ví dụ dương và lớp phủ định được pha trộn hoàn toàn.

Đường cong ROC của mô hình này được thể hiện như sau:

Đường cong ROC, thực ra là một đường thẳng từ (0,0,0,0) đến (1,0,1,0).

Trong khi đó, trong thực tế, hầu hết các mô hình phân loại nhị phân đều tách các lớp dương và âm ở một mức độ nào đó, nhưng thường không hoàn hảo. Vì vậy, đường cong ROC điển hình nằm ở đâu đó giữa hai cực trị:

Đường cong ROC. Trục x là Tỷ lệ dương tính giả và trục y là Tỷ lệ dương tính đúng. Đường cong ROC ước tính một vòng cung rung chuyển đi qua các điểm la bàn từ Tây sang Bắc.

Điểm trên đường cong ROC gần nhất với (0,0,1.0) về mặt lý thuyết sẽ xác định ngưỡng phân loại lý tưởng. Tuy nhiên, một số vấn đề thực tế khác ảnh hưởng đến việc lựa chọn ngưỡng phân loại lý tưởng. Ví dụ: có thể kết quả âm tính giả sẽ gây nhiều khó chịu hơn so với kết quả dương tính giả.

Chỉ số dạng số có tên là AUC tóm tắt đường cong ROC thành một giá trị dấu phẩy động duy nhất.

sai số bình phương trung bình cơ bản (RMSE)

#fundamentals

Căn bậc hai của Lỗi bình phương trung bình.

S

hàm sigmoid

#fundamentals

Một hàm toán học "chuyển đổi" giá trị đầu vào thành một phạm vi bị ràng buộc, thường là 0 đến 1 hoặc -1 đến +1. Tức là bạn có thể truyền bất kỳ số nào (hai, một triệu, tỷ lệ âm, bất kỳ) đến sigmoid và kết quả đầu ra vẫn sẽ nằm trong phạm vi bị hạn chế. Sơ đồ về hàm kích hoạt sigmoid sẽ có dạng như sau:

Một biểu đồ cong hai chiều có các giá trị x mở rộng phạm vi từ vô hạn đến + dương, trong khi các giá trị y trải rộng trong phạm vi gần như từ 0 đến gần 1. Khi x bằng 0, y bằng 0,5. Độ dốc của đường cong luôn
          dương, với độ dốc cao nhất là 0,0,5 và giảm dần
          khi giá trị tuyệt đối của x tăng.

Hàm sigmoid có một số ứng dụng trong công nghệ học máy, bao gồm:

softmax

#fundamentals

Một hàm xác định xác suất cho từng lớp có thể có trong mô hình phân loại nhiều lớp. Các xác suất cộng lại bằng chính xác là 1,0. Ví dụ: bảng sau đây cho thấy cách Softmax phân phối các xác suất khác nhau:

Hình ảnh là... Xác suất
chó 0,85
cat 0,13
con ngựa 0,02

Softmax còn được gọi là softmax đầy đủ.

Trái ngược với chế độ lấy mẫu đề xuất.

đối tượng thưa

#language
#fundamentals

Một tính năng có giá trị chủ yếu là 0 hoặc trống. Ví dụ: một tính năng chứa một giá trị 1 và một triệu 0 giá trị là rất thưa thớt. Ngược lại, một tính năng dày đặc có các giá trị chủ yếu không bằng 0 hoặc trống.

Trong công nghệ học máy, rất nhiều tính năng đáng ngạc nhiên lại là các tính năng thưa thớt. Đối tượng phân loại thường là các đối tượng thưa thớt. Ví dụ: trong số 300 loài cây có thể có trong rừng, một ví dụ duy nhất có thể chỉ xác định được một cây phong. Hoặc trong số hàng triệu video có thể có trong thư viện video, một ví dụ duy nhất có thể xác định đúng là "Casablanca".

Trong mô hình, bạn thường biểu thị các tính năng thưa bằng mã hoá một lần. Nếu mã hoá một video nóng có kích thước lớn, bạn có thể đặt một lớp nhúng lên trên phương thức mã hoá một lần nóng để đạt được hiệu quả cao hơn.

biểu diễn thưa

#language
#fundamentals

Chỉ lưu trữ (các) vị trí của các phần tử khác 0 trong một đối tượng thưa.

Ví dụ: giả sử một đối tượng phân loại có tên là species xác định 36 loài cây trong một khu rừng cụ thể. Ngoài ra, giả định rằng mỗi ví dụ chỉ xác định một loài duy nhất.

Bạn có thể sử dụng vectơ một màu nóng để đại diện cho các loài cây trong mỗi ví dụ. Vectơ một nóng sẽ chứa một 1 duy nhất (để đại diện cho các loài cây cụ thể trong ví dụ đó) và 35 0 (để đại diện cho 35 loài cây không trong ví dụ đó). Vì vậy, nội dung biểu diễn một lần của maple có thể có dạng như sau:

Vectơ chứa giá trị 0 đến vị trí 23 chứa giá trị 0, vị trí
          24 chứa giá trị 1 và vị trí từ 25 đến 35 chứa giá trị 0.

Ngoài ra, cách biểu diễn thưa thớt chỉ đơn giản là xác định vị trí của các loài cụ thể. Nếu maple nằm ở vị trí 24, thì giá trị biểu diễn thưa thớt của maple sẽ chỉ là:

24

Lưu ý rằng cách biểu diễn thưa thớt gọn gàng hơn nhiều so với cách biểu diễn một lần nóng.

vectơ thưa

#fundamentals

Vectơ có các giá trị hầu hết là số 0. Hãy xem thêm về tính năng thưa thớttính không đều đặn.

tổn thất bình phương

#fundamentals

Từ đồng nghĩa với mất L2.

tĩnh

#fundamentals

Thực hiện hành động một lần thay vì liên tục. Các thuật ngữ tĩnhngoại tuyến là từ đồng nghĩa. Sau đây là một số cách sử dụng phương pháp tĩnhngoại tuyến phổ biến trong công nghệ học máy:

  • mô hình tĩnh (hay mô hình ngoại tuyến) là mô hình được huấn luyện một lần và sau đó được sử dụng trong một thời gian.
  • huấn luyện tĩnh (hay huấn luyện ngoại tuyến) là quá trình huấn luyện một mô hình tĩnh.
  • suy luận tĩnh (hay suy luận ngoại tuyến) là quá trình trong đó mô hình tạo ra một loạt các dự đoán cùng một lúc.

Tương phản với động.

suy luận tĩnh

#fundamentals

Từ đồng nghĩa với suy luận ngoại tuyến.

ổn định

#fundamentals

Một đối tượng có giá trị không thay đổi trên một hoặc nhiều phương diện, thường là theo thời gian. Ví dụ: một đối tượng có giá trị tương tự nhau vào năm 2021 và 2023 thể hiện sự ổn định.

Trong thế giới thực, rất ít đối tượng thể hiện sự cố định. Ngay cả các tính năng đồng nghĩa với sự thay đổi về độ ổn định (như mực nước biển) theo thời gian.

Trái ngược với tính không ổn định.

phương pháp giảm độ dốc ngẫu nhiên (SGD)

#fundamentals

Thuật toán chuyển xuống dốc, trong đó kích thước lô là một. Nói cách khác, SGD huấn luyện trên một ví dụ duy nhất được chọn thống nhất ở ngẫu nhiên trong bộ huấn luyện.

học máy có giám sát

#fundamentals

Đào tạo một model từ modelmodel tương ứng. Công nghệ học máy có giám sát cũng tương tự như việc học một đối tượng bằng cách nghiên cứu một bộ câu hỏi và câu trả lời tương ứng cho các câu hỏi đó. Sau khi thành thạo cách liên kết giữa các câu hỏi và câu trả lời, học viên có thể đưa ra câu trả lời cho những câu hỏi mới (chưa từng thấy) về cùng một chủ đề.

So sánh với công nghệ học máy không được giám sát.

tính năng tổng hợp

#fundamentals

Một tính năng không có trong số các tính năng nhập nhưng được tập hợp từ một hoặc nhiều tính năng đó. Sau đây là các phương thức tạo tính năng tổng hợp:

  • Nhóm một đối tượng liên tục vào các thùng khoảng.
  • Tạo bảng tính năng.
  • Nhân (hoặc chia) một giá trị đối tượng với(các) giá trị của đối tượng khác hoặc với chính nó. Ví dụ: nếu ab là các tính năng đầu vào, thì sau đây là ví dụ về các tính năng tổng hợp:
    • ab
    • a2
  • Áp dụng một hàm siêu nghiệm cho một giá trị đối tượng. Ví dụ: nếu c là một tính năng đầu vào, thì sau đây là ví dụ về các tính năng tổng hợp:
    • sin(c)
    • ln(c)

Các tính năng được tạo bằng cách chuẩn hoá hoặc điều chỉnh theo tỷ lệ không được xem là tính năng tổng hợp.

T

tổn thất

#fundamentals

Một chỉ số thể hiện mức giảm của mô hình so với nhóm kiểm thử. Khi xây dựng một model, bạn thường cố gắng giảm thiểu tình trạng mất kiểm thử. Lý do là tỷ lệ mất mát trong kiểm thử thấp là tín hiệu chất lượng mạnh hơn so với mất trong quá trình huấn luyện hoặc mất xác thực ở mức thấp.

Đôi khi, khoảng cách lớn giữa tình trạng mất kiểm thử và mất quá trình huấn luyện hoặc mất xác thực đôi khi cho thấy bạn cần tăng tỷ lệ chuẩn hoá.

đào tạo

#fundamentals

Quá trình xác định các tham số (trọng số và độ lệch) lý tưởng bao gồm mô hình. Trong quá trình huấn luyện, hệ thống sẽ đọc ví dụ và dần dần điều chỉnh các tham số. Quy trình huấn luyện sử dụng mỗi ví dụ ở bất cứ đâu từ vài lần đến hàng tỷ lần.

tổn thất trong quá trình huấn luyện

#fundamentals

Một chỉ số thể hiện sự sụt giảm của một mô hình trong một lần lặp lại huấn luyện cụ thể. Ví dụ: giả sử hàm tổn thất là Mean Squared Error (Lỗi bình phương trung bình). Có thể tổn thất trong quá trình huấn luyện (Lỗi bình phương trung bình) của vòng lặp thứ 10 là 2,2 và tổn thất trong quá trình huấn luyện ở lần lặp thứ 100 là 1,9.

Đường cong giảm hao tổn biểu thị mức độ mất mát trong quá trình huấn luyện so với số lần lặp lại. Đường cong thua lỗ cung cấp các gợi ý sau đây về việc huấn luyện:

  • Đường dốc xuống cho biết mô hình đang được cải thiện.
  • Đường dốc đi lên cho biết mô hình đang trở nên kém hơn.
  • Đường dốc phẳng có nghĩa là mô hình đã đạt đến sự hội tụ.

Ví dụ: đường cong thua lỗ tương đối lý tưởng sau đây cho thấy:

  • Đường dốc xuống dốc trong những lần lặp lại đầu tiên, ngụ ý việc cải thiện mô hình một cách nhanh chóng.
  • Dạng dốc làm phẳng dần (nhưng vẫn đi xuống) cho đến khi gần kết thúc quá trình huấn luyện, ngụ ý việc tiếp tục cải thiện mô hình với tốc độ chậm hơn đôi chút so với trong những lần lặp lại ban đầu.
  • Một đường dốc phẳng về phía cuối quá trình huấn luyện, cho thấy sự hội tụ.

Biểu đồ tỷ lệ mất mát trong quá trình huấn luyện so với số lần lặp lại. Đường cong tổn thất này bắt đầu với một đường dốc hướng xuống. Độ dốc sẽ làm phẳng dần cho đến khi độ dốc bằng 0.

Mặc dù tổn thất trong quá trình huấn luyện rất quan trọng, nhưng hãy xem thêm phần tổng quát.

sai lệch phân phát quảng cáo

#fundamentals

Sự khác biệt giữa hiệu suất của một mô hình trong quá trình huấn luyện và hiệu suất của chính mô hình đó trong quá trình phân phát.

bộ huấn luyện

#fundamentals

Tập hợp con của tập dữ liệu được dùng để huấn luyện một mô hình.

Thông thường, các ví dụ trong tập dữ liệu được chia thành 3 tập con riêng biệt sau đây:

Tốt nhất là mỗi ví dụ trong tập dữ liệu chỉ nên thuộc về một trong các tập hợp con trước. Ví dụ: một ví dụ không được thuộc về cả tập huấn luyện và tập hợp xác thực.

âm tính thật (TN)

#fundamentals

Một ví dụ trong đó mô hình này dự đoán chính xác lớp phủ định. Ví dụ: mô hình này suy luận rằng một email cụ thể không phải là thư rác và thư email đó thực sự không phải là thư rác.

dương tính thật (TP)

#fundamentals

Một ví dụ trong đó mô hình này dự đoán chính xác lớp dương. Ví dụ: mô hình này sẽ suy luận rằng một email cụ thể là thư rác và email đó thực sự là thư rác.

tỷ lệ dương tính thực (TPR)

#fundamentals

Từ đồng nghĩa với recall. Đó là:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Tỷ lệ dương tính thực là trục y trong đường cong ROC.

U

giảm cân

#fundamentals

Tạo một model có khả năng dự đoán kém vì mô hình này chưa nắm bắt được đầy đủ độ phức tạp của dữ liệu huấn luyện. Nhiều vấn đề có thể gây ra tình trạng thiếu phù hợp, bao gồm:

ví dụ chưa gắn nhãn

#fundamentals

Ví dụ có chứa tính năng nhưng không có nhãn. Ví dụ: bảng sau đây cho thấy 3 ví dụ không được gắn nhãn trong mô hình định giá ngôi nhà, mỗi ví dụ có 3 đặc điểm nhưng không có giá trị căn nhà:

Số lượng phòng ngủ Số lượng phòng tắm Tuổi
3 2 15
2 1 72
4 2 34

Trong công nghệ học máy có giám sát, các mô hình sẽ huấn luyện dựa trên các ví dụ được gắn nhãn và đưa ra dự đoán trên các ví dụ không có nhãn.

Trong mô hình học tập nửa giám sátkhông được giám sát, các ví dụ không được gắn nhãn sẽ được sử dụng trong quá trình huấn luyện.

Đối chiếu ví dụ chưa gắn nhãn với ví dụ có nhãn.

học máy không giám sát

#clustering
#fundamentals

Đào tạo một model để tìm các mẫu trong một tập dữ liệu, thường là một tập dữ liệu chưa được gắn nhãn.

Việc sử dụng công nghệ học máy không được giám sát phổ biến nhất là để nhóm dữ liệu thành các nhóm gồm các ví dụ tương tự nhau. Ví dụ: một thuật toán học máy không được giám sát có thể nhóm các bài hát dựa trên nhiều thuộc tính của bản nhạc. Các cụm thu được có thể trở thành dữ liệu đầu vào cho các thuật toán học máy khác (ví dụ: cho một dịch vụ đề xuất nhạc). Việc phân cụm có thể hữu ích khi không có hoặc không có nhiều nhãn hữu ích. Ví dụ: trong các miền như chống hành vi sai trái và lừa đảo, các cụm có thể giúp con người hiểu rõ hơn về dữ liệu.

Trái ngược với công nghệ học máy có giám sát.

V

xác thực

#fundamentals

Đánh giá ban đầu về chất lượng của mô hình. Quy trình xác thực kiểm tra chất lượng dự đoán của mô hình so với bộ xác thực.

Vì bộ xác thực khác với bộ huấn luyện, nên quy trình xác thực sẽ giúp ngăn ngừa tình trạng tập hợp quá mức.

Bạn có thể coi việc đánh giá mô hình dựa trên tập hợp xác thực là vòng kiểm thử đầu tiên và đánh giá mô hình so với nhóm kiểm thử là vòng kiểm thử thứ hai.

mất xác thực

#fundamentals

Một chỉ số thể hiện sự sụt giảm của mô hình trên bộ xác thực trong một vòng lặp cụ thể của quá trình huấn luyện.

Xem thêm đường cong tổng quát hoá.

bộ xác thực

#fundamentals

Tập hợp con của tập dữ liệu thực hiện đánh giá ban đầu so với một mô hình đã huấn luyện. Thông thường, bạn đánh giá mô hình đã huấn luyện dựa trên nhóm xác thực nhiều lần trước khi đánh giá mô hình đó dựa trên nhóm kiểm thử.

Thông thường, bạn chia các ví dụ trong tập dữ liệu thành 3 tập con riêng biệt sau đây:

Tốt nhất là mỗi ví dụ trong tập dữ liệu chỉ nên thuộc về một trong các tập hợp con trước. Ví dụ: một ví dụ không được thuộc về cả tập huấn luyện và tập hợp xác thực.

W

cân nặng

#fundamentals

Một giá trị mà mô hình nhân với một giá trị khác. Huấn luyện là quá trình xác định trọng số lý tưởng của một mô hình; dự đoán là quá trình sử dụng các trọng số đã học đó để đưa ra dự đoán.

tổng có trọng số

#fundamentals

Tổng của tất cả giá trị đầu vào có liên quan nhân với trọng số tương ứng. Ví dụ: giả sử các dữ liệu đầu vào có liên quan bao gồm:

giá trị đầu vào trọng số đầu vào
2 -1,3
-1 0,6
3 0,4

Do đó, tổng có trọng số là:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Tổng có trọng số là đối số đầu vào cho một hàm kích hoạt.

Z

Chuẩn hoá điểm Z

#fundamentals

Kỹ thuật điều chỉnh theo tỷ lệ thay thế một giá trị thô của tính năng bằng một giá trị dấu phẩy động biểu thị số độ lệch chuẩn so với giá trị trung bình của tính năng đó. Ví dụ: hãy xem xét một đối tượng có giá trị trung bình là 800 và có độ lệch chuẩn là 100. Bảng sau đây cho thấy cách chuẩn hoá điểm Z sẽ liên kết giá trị thô với điểm Z:

Giá trị thô Điểm Z
800 0
950 +1,5
575 -2,25

Sau đó, mô hình học máy sẽ huấn luyện dựa trên điểm Z cho tính năng đó thay vì các giá trị thô.