Bảng thuật ngữ về công nghệ máy học: Kiến thức cơ bản về công nghệ học máy

Trang này chứa các thuật ngữ trong từ điển về Kiến thức cơ bản về học máy. Để xem tất cả các thuật ngữ trong từ điển, hãy nhấp vào đây.

A

độ chính xác

#fundamentals

Số dự đoán phân loại chính xác chia cho tổng số dự đoán. Đó là:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ví dụ: một mô hình đưa ra 40 dự đoán chính xác và 10 dự đoán không chính xác sẽ có độ chính xác là:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Phân loại nhị phân cung cấp tên cụ thể cho các danh mục dự đoán chính xácdự đoán không chính xác. Vì vậy, công thức độ chính xác cho phương pháp phân loại nhị phân sẽ như sau:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

trong đó:

So sánh và đối chiếu độ chính xác với độ chính xácđộ chính xác.

Hãy xem phần Phân loại: Độ chính xác, tỷ lệ thu hồi, độ chính xác và các chỉ số liên quan trong khoá học cấp tốc về học máy để biết thêm thông tin.

hàm kích hoạt

#fundamentals

Một hàm cho phép mạng nơron tìm hiểu các mối quan hệ phi tuyến tính (phức tạp) giữa các đặc điểm và nhãn.

Các hàm kích hoạt phổ biến bao gồm:

Biểu đồ của hàm kích hoạt không bao giờ là một đường thẳng. Ví dụ: Biểu đồ của hàm kích hoạt ReLU bao gồm hai đường thẳng:

Biểu đồ Descartes của hai đường. Dòng đầu tiên có giá trị y không đổi là 0, chạy dọc theo trục x từ -vô cực,0 đến 0,-0.
          Dòng thứ hai bắt đầu tại 0,0. Đường này có độ dốc là +1, vì vậy, nó chạy từ 0,0 đến +vô cực, +vô cực.

Biểu đồ của hàm kích hoạt sigmoid có dạng như sau:

Biểu đồ cong hai chiều với các giá trị x trải dài từ miền -vô cực đến +dương, trong khi các giá trị y trải dài từ gần 0 đến gần 1. Khi x là 0, y là 0,5. Độ dốc của đường cong luôn dương, với độ dốc cao nhất tại 0,0,5 và độ dốc giảm dần khi giá trị tuyệt đối của x tăng lên.

Xem phần Mạng nơron: Hàm kích hoạt trong khoá học Học nhanh về học máy để biết thêm thông tin.

trí tuệ nhân tạo

#fundamentals

Một chương trình hoặc mô hình không phải con người có thể giải quyết các nhiệm vụ phức tạp. Ví dụ: một chương trình hoặc mô hình dịch văn bản hoặc một chương trình hoặc mô hình xác định bệnh từ hình ảnh X-quang đều thể hiện trí tuệ nhân tạo.

Theo cách chính thức, học máy là một lĩnh vực phụ của trí tuệ nhân tạo. Tuy nhiên, trong những năm gần đây, một số tổ chức đã bắt đầu sử dụng các thuật ngữ trí tuệ nhân tạohọc máy thay thế cho nhau.

AUC (Diện tích dưới đường cong ROC)

#fundamentals

Một số từ 0 đến 1 thể hiện khả năng của mô hình phân loại nhị phân để tách các lớp dương khỏi các lớp âm. AUC càng gần 1.0 thì mô hình càng có khả năng phân tách các lớp với nhau.

Ví dụ: hình minh hoạ sau đây cho thấy một mô hình phân loại tách biệt hoàn toàn các lớp dương tính (hình bầu dục màu xanh lục) với các lớp âm tính (hình chữ nhật màu tím). Mô hình hoàn hảo không thực tế này có AUC là 1,0:

Một đường số có 8 ví dụ dương ở một bên và
          9 ví dụ âm ở bên kia.

Ngược lại, hình minh hoạ sau đây cho thấy kết quả của một mô hình phân loại tạo ra kết quả ngẫu nhiên. Mô hình này có AUC là 0,5:

Một đường số có 6 ví dụ tích cực và 6 ví dụ tiêu cực.
          Trình tự các ví dụ là dương, âm, dương, âm, dương, âm, dương, âm, dương, âm, dương.

Có, mô hình trước đó có AUC là 0,5 chứ không phải 0,0.

Hầu hết các mô hình đều nằm ở đâu đó giữa hai thái cực này. Ví dụ: mô hình sau đây phân tách các giá trị dương khỏi các giá trị âm, do đó có AUC nằm trong khoảng từ 0,5 đến 1,0:

Một đường số có 6 ví dụ tích cực và 6 ví dụ tiêu cực.
          Trình tự các ví dụ là âm, âm, âm, âm, dương, âm, dương, dương, âm, dương, dương, dương.

AUC bỏ qua mọi giá trị bạn đặt cho ngưỡng phân loại. Thay vào đó, AUC xem xét tất cả ngưỡng phân loại có thể có.

Hãy xem phần Phân loại: ROC và AUC trong Khoá học học máy ứng dụng để biết thêm thông tin.

B

lan truyền ngược

#fundamentals

Thuật toán triển khai phương pháp giảm độ dốc trong mạng nơron.

Quá trình huấn luyện mạng nơron bao gồm nhiều iterations của chu kỳ hai lượt sau:

  1. Trong quá trình truyền thẳng, hệ thống xử lý một gồm ví dụ để đưa ra(các) kết quả dự đoán. Hệ thống so sánh từng dự đoán với từng giá trị nhãn. Sự khác biệt giữa giá trị dự đoán và giá trị nhãn là lỗ hổng cho ví dụ đó. Hệ thống tổng hợp các tổn thất cho tất cả các ví dụ để tính tổng tổn thất cho lô hiện tại.
  2. Trong quá trình truyền ngược (truyền ngược), hệ thống giảm tổn thất bằng cách điều chỉnh trọng số của tất cả neuron trong tất cả lớp ẩn.

Mạng nơron thường chứa nhiều tế bào thần kinh trên nhiều lớp ẩn. Mỗi tế bào thần kinh trong số đó đều đóng góp vào tổn thất tổng thể theo nhiều cách. Phương pháp truyền ngược xác định việc tăng hay giảm trọng số áp dụng cho các tế bào thần kinh cụ thể.

Tốc độ học là một hệ số kiểm soát mức độ mà mỗi lượt truyền ngược tăng hoặc giảm mỗi trọng số. Tốc độ học lớn sẽ làm tăng hoặc giảm mỗi trọng số nhiều hơn so với tốc độ học nhỏ.

Trong thuật toán vi tích phân, phương pháp truyền ngược triển khai quy tắc chuỗi từ vi tích phân. Tức là, phương pháp truyền ngược tính toán đạo hàm riêng của lỗi theo từng tham số.

Cách đây nhiều năm, những người làm việc trong lĩnh vực học máy phải viết mã để triển khai phương pháp hồi quy. Các API máy học hiện đại như Keras hiện đã triển khai tính năng hồi quy cho bạn. Chà!

Hãy xem phần Mạng nơron trong Khoá học học máy ứng dụng để biết thêm thông tin.

#fundamentals

Tập hợp ví dụ được sử dụng trong một lặp lại huấn luyện. Kích thước lô xác định số lượng ví dụ trong một lô.

Hãy xem phần thời gian bắt đầu để biết nội dung giải thích về mối quan hệ giữa một lô với thời gian bắt đầu.

Hãy xem phần Phương pháp hồi quy tuyến tính: Thông số siêu dữ liệu trong khoá học cấp tốc về học máy để biết thêm thông tin.

kích thước lô

#fundamentals

Số lượng ví dụ trong một . Ví dụ: nếu kích thước lô là 100, thì mô hình sẽ xử lý 100 ví dụ cho mỗi lần lặp.

Sau đây là các chiến lược kích thước lô phổ biến:

  • Giảm độ dốc ngẫu nhiên (SGD), trong đó kích thước lô là 1.
  • Hàng loạt đầy đủ, trong đó kích thước lô là số lượng ví dụ trong toàn bộ tập huấn luyện. Ví dụ: nếu tập huấn luyện chứa một triệu ví dụ, thì kích thước lô sẽ là một triệu ví dụ. Chiến lược toàn bộ lô thường là một chiến lược không hiệu quả.
  • tập hợp nhỏ, trong đó kích thước lô thường nằm trong khoảng từ 10 đến 1000. Tệp tối thiểu thường là chiến lược hiệu quả nhất.

Hãy xem những nội dung sau để biết thêm thông tin:

thiên kiến (đạo đức/công bằng)

#fairness
#fundamentals

1. Nội dung tạo ra định kiến, thành kiến hoặc thiên vị một số người, nhóm người hoặc sự vật hơn những người, nhóm người hoặc sự vật khác. Những thành kiến này có thể ảnh hưởng đến việc thu thập và diễn giải dữ liệu, thiết kế hệ thống và cách người dùng tương tác với hệ thống. Sau đây là một số hình thức của loại thiên kiến này:

2. Lỗi hệ thống do quy trình lấy mẫu hoặc báo cáo gây ra. Sau đây là một số hình thức của loại thiên kiến này:

Đừng nhầm lẫn với hệ số chệch trong mô hình học máy hoặc chệch dự đoán.

Hãy xem phần Tính công bằng: Các loại thiên kiến trong Khoá học cấp tốc về học máy để biết thêm thông tin.

thiên kiến (toán học) hoặc thuật ngữ thiên kiến

#fundamentals

Giá trị cắt hoặc độ dời từ một gốc. Sai số là một tham số trong các mô hình học máy, được biểu thị bằng một trong các ký hiệu sau:

  • b
  • w0

Ví dụ: độ lệch là b trong công thức sau:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Trong một đường hai chiều đơn giản, độ lệch chỉ có nghĩa là "điểm giao cắt y". Ví dụ: độ lệch của đường trong hình minh hoạ sau là 2.

Biểu đồ của một đường có độ dốc là 0,5 và độ lệch (giao điểm y) là 2.

Sự thiên lệch tồn tại vì không phải tất cả mô hình đều bắt đầu từ gốc (0,0). Ví dụ: giả sử một công viên giải trí có giá vé vào cổng là 2 Euro và thêm 0,5 Euro cho mỗi giờ khách hàng ở lại. Do đó, mô hình liên kết tổng chi phí có độ lệch là 2 vì chi phí thấp nhất là 2 Euro.

Không nên nhầm lẫn thiên kiến với thiên kiến về đạo đức và sự công bằng hoặc thiên kiến dự đoán.

Hãy xem phần Phương pháp hồi quy tuyến tính trong khoá học Học máy ứng dụng để biết thêm thông tin.

phân loại nhị phân

#fundamentals

Một loại tác vụ phân loại dự đoán một trong hai lớp loại trừ lẫn nhau:

Ví dụ: hai mô hình học máy sau đây đều thực hiện việc phân loại nhị phân:

  • Mô hình xác định xem thư email là thư rác (lớp dương) hay không phải thư rác (lớp âm).
  • Mô hình đánh giá các triệu chứng y tế để xác định xem một người có mắc một bệnh cụ thể hay không (lớp dương tính) hoặc không mắc bệnh đó (lớp âm tính).

Tương phản với phân loại đa lớp.

Xem thêm về biến hồi quy logisticngưỡng phân loại.

Hãy xem phần Phân loại trong Khoá học học máy ứng dụng để biết thêm thông tin.

phân giỏ

#fundamentals

Chuyển đổi một tính năng thành nhiều tính năng nhị phân được gọi là vùng chứa hoặc bin, thường dựa trên một dải giá trị. Tính năng cắt thường là một tính năng liên tục.

Ví dụ: thay vì biểu thị nhiệt độ dưới dạng một tính năng dấu phẩy động liên tục, bạn có thể cắt các phạm vi nhiệt độ thành các bộ chứa riêng biệt, chẳng hạn như:

  • <= 10 độ C sẽ là bộ chứa "lạnh".
  • 11 – 24 độ C sẽ là nhóm "trung bình".
  • >= 25 độ C sẽ là bộ chứa "nóng".

Mô hình sẽ xử lý mọi giá trị trong cùng một nhóm giống nhau. Ví dụ: các giá trị 1322 đều nằm trong bộ chứa ôn đới, do đó mô hình sẽ xử lý hai giá trị này giống nhau.

Hãy xem phần Dữ liệu số: Phân nhóm trong khoá học cấp tốc về học máy để biết thêm thông tin.

C

dữ liệu phân loại

#fundamentals

Tính năng có một tập hợp giá trị có thể có. Ví dụ: hãy xem xét một tính năng phân loại có tên là traffic-light-state. Tính năng này chỉ có thể có một trong ba giá trị sau:

  • red
  • yellow
  • green

Bằng cách biểu thị traffic-light-state dưới dạng một tính năng phân loại, mô hình có thể tìm hiểu các tác động khác nhau của red, greenyellow đối với hành vi của người lái xe.

Đôi khi, các tính năng phân loại được gọi là tính năng rời rạc.

Tương phản với dữ liệu dạng số.

Hãy xem phần Xử lý dữ liệu phân loại trong khoá học cấp tốc về học máy để biết thêm thông tin.

lớp

#fundamentals

Danh mục mà nhãn có thể thuộc về. Ví dụ:

  • Trong mô hình phân loại nhị phân phát hiện thư rác, hai lớp có thể là thư ráckhông phải thư rác.
  • Trong mô hình phân loại nhiều lớp xác định giống chó, các lớp có thể là poodle, beagle, pug, v.v.

Mô hình phân loại dự đoán một lớp. Ngược lại, mô hình hồi quy dự đoán một con số thay vì một lớp.

Hãy xem phần Phân loại trong Khoá học học máy ứng dụng để biết thêm thông tin.

mô hình phân loại

#fundamentals

Mô hình có kết quả dự đoán là một lớp. Ví dụ: sau đây là tất cả các mô hình phân loại:

  • Mô hình dự đoán ngôn ngữ của một câu đầu vào (tiếng Pháp? Tiếng Tây Ban Nha? Tiếng Ý?).
  • Mô hình dự đoán loài cây (Cây phong?) Gỗ sồi? Bao báp?).
  • Mô hình dự đoán lớp dương tính hoặc âm tính cho một tình trạng bệnh cụ thể.

Ngược lại, mô hình hồi quy dự đoán số liệu thay vì các lớp.

Có hai loại mô hình phân loại phổ biến là:

ngưỡng phân loại

#fundamentals

Trong một lớp phân loại nhị phân, một số từ 0 đến 1 sẽ chuyển đổi đầu ra thô của mô hình biến hồi quy logistic thành một dự đoán về lớp tích cực hoặc lớp tiêu cực. Xin lưu ý rằng ngưỡng phân loại là một giá trị do con người chọn, không phải giá trị do quá trình huấn luyện mô hình chọn.

Mô hình hồi quy logistic sẽ xuất ra một giá trị thô trong khoảng từ 0 đến 1. Sau đó:

  • Nếu giá trị thô này lớn hơn ngưỡng phân loại, thì lớp dương tính sẽ được dự đoán.
  • Nếu giá trị thô này nhỏ hơn ngưỡng phân loại, thì lớp âm sẽ được dự đoán.

Ví dụ: giả sử ngưỡng phân loại là 0, 8. Nếu giá trị thô là 0,9, thì mô hình sẽ dự đoán lớp dương. Nếu giá trị thô là 0,7, thì mô hình sẽ dự đoán lớp âm.

Lựa chọn ngưỡng phân loại ảnh hưởng rất lớn đến số lượng dương tính giảâm tính giả.

Hãy xem phần Ngưỡng và ma trận nhiễu trong khoá học Học máy ứng dụng để biết thêm thông tin.

tập dữ liệu bất cân đối về loại

#fundamentals

Một tập dữ liệu cho một vấn đề phân loại, trong đó tổng số nhãn của mỗi lớp khác nhau đáng kể. Ví dụ: hãy xem xét một tập dữ liệu phân loại nhị phân có hai nhãn được chia như sau:

  • 1.000.000 nhãn phủ định
  • 10 nhãn dương

Tỷ lệ nhãn âm so với nhãn dương là 100.000 trên 1,vì vậy, đây là một tập dữ liệu bất cân đối về loại.

Ngược lại, tập dữ liệu sau đây không mất cân bằng lớp vì tỷ lệ nhãn âm so với nhãn dương tương đối gần với 1:

  • 517 nhãn phủ định
  • 483 nhãn dương

Tập dữ liệu nhiều lớp cũng có thể không cân bằng về lớp. Ví dụ: tập dữ liệu phân loại nhiều lớp sau đây cũng bất cân đối về lớp vì một nhãn có nhiều ví dụ hơn nhiều so với hai nhãn còn lại:

  • 1.000.000 nhãn có lớp "green"
  • 200 nhãn có lớp "purple"
  • 350 nhãn có lớp "orange"

Xem thêm entropy, lớp đa sốlớp thiểu số.

cắt bớt

#fundamentals

Một kỹ thuật để xử lý điểm ngoại lai bằng cách thực hiện một hoặc cả hai việc sau:

  • Giảm các giá trị tính năng lớn hơn ngưỡng tối đa xuống ngưỡng tối đa đó.
  • Tăng giá trị đặc điểm nhỏ hơn ngưỡng tối thiểu lên ngưỡng tối thiểu đó.

Ví dụ: giả sử <0, 5% giá trị của một tính năng cụ thể nằm ngoài phạm vi 40–60. Trong trường hợp này, bạn có thể làm như sau:

  • Cắt tất cả các giá trị trên 60 (ngưỡng tối đa) thành đúng 60.
  • Cắt tất cả các giá trị dưới 40 (ngưỡng tối thiểu) thành đúng 40.

Giá trị ngoại lai có thể làm hỏng mô hình, đôi khi khiến trọng số tràn trong quá trình huấn luyện. Một số giá trị ngoại lai cũng có thể làm hỏng đáng kể các chỉ số như độ chính xác. Cắt là một kỹ thuật phổ biến để hạn chế thiệt hại.

Tính năng cắt phông màu buộc các giá trị phông màu nằm trong một phạm vi được chỉ định trong quá trình huấn luyện.

Hãy xem phần Dữ liệu số: Bình thường hoá trong khoá học cấp tốc về học máy để biết thêm thông tin.

ma trận nhầm lẫn

#fundamentals

Bảng NxN tóm tắt số lượng dự đoán chính xác và không chính xác mà mô hình phân loại đưa ra. Ví dụ: hãy xem xét ma trận nhầm lẫn sau đây cho mô hình phân loại nhị phân:

U (dự đoán) Không phải khối u (dự đoán)
U (thông tin thực tế) 18 (TP) 1 (FN)
Không phải khối u (thông tin thực tế) 6 (FP) 452 (TN)

Ma trận nhầm lẫn trước đó cho thấy những thông tin sau:

  • Trong số 19 lần dự đoán mà giá trị thực tế là U bướu, mô hình đã phân loại chính xác 18 lần và phân loại không chính xác 1 lần.
  • Trong số 458 kết quả dự đoán mà giá trị thực tế là Không phải khối u, mô hình đã phân loại chính xác 452 kết quả và phân loại không chính xác 6 kết quả.

Ma trận nhầm lẫn cho vấn đề phân loại nhiều lớp có thể giúp bạn xác định các mẫu lỗi. Ví dụ: hãy xem xét ma trận nhầm lẫn sau đây cho mô hình phân loại nhiều lớp 3 lớp, phân loại 3 loại hoa iris khác nhau (Virginica, Versicolor và Setosa). Khi giá trị thực tế là Virginica, ma trận nhầm lẫn cho thấy mô hình có nhiều khả năng dự đoán nhầm Versicolor hơn Setosa:

  Setosa (dự đoán) Versicolor (dự đoán) Virginica (dự đoán)
Setosa (thông tin thực tế) 88 12 0
Versicolor (thông tin thực tế) 6 141 7
Virginica (thông tin thực tế) 2 27 109

Ví dụ khác: một ma trận nhầm lẫn có thể cho thấy rằng một mô hình được huấn luyện để nhận dạng chữ số viết tay có xu hướng dự đoán nhầm 9 thay vì 4 hoặc dự đoán nhầm 1 thay vì 7.

Ma trận nhầm lẫn chứa đủ thông tin để tính toán nhiều chỉ số hiệu suất, bao gồm cả độ chính xácđộ hồi quy.

tính năng liên tục

#fundamentals

Tính năng dấu phẩy động có phạm vi vô hạn các giá trị có thể có, chẳng hạn như nhiệt độ hoặc trọng lượng.

Tương phản với tính năng rời rạc.

sự hội tụ

#fundamentals

Trạng thái đạt được khi các giá trị mất thay đổi rất ít hoặc hoàn toàn không thay đổi với mỗi lặp lại. Ví dụ: Đường cong tổn thất sau đây cho thấy sự hội tụ ở khoảng 700 lần lặp:

Biểu đồ Descartes. Trục X là mất. Trục Y là số lần lặp lại quá trình huấn luyện. Mức hao tổn rất cao trong vài lần lặp lại đầu tiên, nhưng giảm mạnh. Sau khoảng 100 lần lặp lại, tổn thất vẫn giảm nhưng chậm hơn nhiều. Sau khoảng 700 lần lặp lại, tổn thất vẫn giữ nguyên.

Mô hình hội tụ khi quá trình huấn luyện bổ sung không cải thiện mô hình.

Trong học sâu, các giá trị tổn thất đôi khi giữ nguyên hoặc gần như vậy trong nhiều lần lặp lại trước khi cuối cùng giảm dần. Trong một khoảng thời gian dài có các giá trị tổn thất không đổi, bạn có thể tạm thời có cảm giác hội tụ sai.

Xem thêm phần dừng sớm.

Hãy xem phần Đường cong tổn thất và hội tụ mô hình trong khoá học cấp tốc về học máy để biết thêm thông tin.

D

DataFrame

#fundamentals

Loại dữ liệu pandas phổ biến để biểu thị tập dữ liệu trong bộ nhớ.

DataFrame tương tự như một bảng hoặc bảng tính. Mỗi cột của DataFrame có một tên (tiêu đề) và mỗi hàng được xác định bằng một số duy nhất.

Mỗi cột trong DataFrame có cấu trúc giống như một mảng 2D, ngoại trừ việc mỗi cột có thể được gán kiểu dữ liệu riêng.

Xem thêm trang tham khảo chính thức về pandas.DataFrame.

tập dữ liệu

#fundamentals

Một tập hợp dữ liệu thô, thường (nhưng không chỉ) được sắp xếp theo một trong các định dạng sau:

  • bảng tính
  • tệp ở định dạng CSV (giá trị được phân tách bằng dấu phẩy)

mô hình sâu

#fundamentals

Mạng nơron chứa nhiều lớp ẩn.

Mô hình sâu còn được gọi là mạng nơron sâu.

Tương phản với mô hình rộng.

tính năng dày đặc

#fundamentals

Một tính năng trong đó hầu hết hoặc tất cả các giá trị đều khác 0, thường là một Tensor của các giá trị dấu phẩy động. Ví dụ: Tensor 10 phần tử sau đây là dày đặc vì 9 trong số các giá trị của tensor này khác 0:

8 3 7 5 2 4 0 4 9 6

Tương phản với tính năng thưa.

chiều sâu

#fundamentals

Tổng của các giá trị sau trong một mạng nơron:

Ví dụ: một mạng nơron có 5 lớp ẩn và 1 lớp đầu ra có chiều sâu là 6.

Lưu ý rằng lớp đầu vào không ảnh hưởng đến chiều sâu.

tính năng rời rạc

#fundamentals

Một tính năng có một tập hợp các giá trị có thể có hữu hạn. Ví dụ: một đặc điểm có giá trị chỉ có thể là động vật, rau hoặc khoáng sản là một đặc điểm riêng biệt (hoặc phân loại).

Tương phản với tính năng liên tục.

linh động

#fundamentals

Một việc gì đó được thực hiện thường xuyên hoặc liên tục. Thuật ngữ độngtrực tuyến là đồng nghĩa trong học máy. Sau đây là các cách sử dụng phổ biến của dữ liệu độngtrực tuyến trong học máy:

  • Mô hình động (hoặc mô hình trực tuyến) là mô hình được huấn luyện lại thường xuyên hoặc liên tục.
  • Đào tạo động (hoặc đào tạo trực tuyến) là quá trình đào tạo thường xuyên hoặc liên tục.
  • Suy luận động (hoặc suy luận trực tuyến) là quá trình tạo dự đoán theo yêu cầu.

mô hình động

#fundamentals

Một mô hình thường xuyên (thậm chí có thể liên tục) được huấn luyện lại. Mô hình động là một "người học suốt đời" liên tục thích ứng với dữ liệu đang phát triển. Mô hình động còn được gọi là mô hình trực tuyến.

Tương phản với mô hình tĩnh.

E

dừng sớm

#fundamentals

Một phương thức điều chỉnh liên quan đến việc kết thúc quá trình huấn luyện trước khi tổn thất huấn luyện kết thúc giảm. Trong phương pháp dừng sớm, bạn chủ ý ngừng huấn luyện mô hình khi tổn thất trên dữ liệu tập hợp xác thực bắt đầu tăng lên; tức là khi hiệu suất tổng quát hoá giảm sút.

lớp nhúng

#language
#fundamentals

Một lớp ẩn đặc biệt huấn luyện trên một tính năng phân loại có nhiều chiều để dần dần học một vectơ nhúng có chiều thấp hơn. Lớp nhúng cho phép mạng nơron huấn luyện hiệu quả hơn nhiều so với việc chỉ huấn luyện trên tính năng phân loại có nhiều chiều.

Ví dụ: Earth hiện hỗ trợ khoảng 73.000 loài cây. Giả sử loài cây là một tính năng trong mô hình của bạn, do đó,lớp đầu vào của mô hình bao gồm một vectơ một chiều dài 73.000 phần tử. Ví dụ: có thể baobab sẽ được biểu thị như sau:

Một mảng gồm 73.000 phần tử. 6.232 phần tử đầu tiên chứa giá trị 0. Phần tử tiếp theo chứa giá trị 1. 66.767 phần tử cuối cùng chứa giá trị 0.

Mảng 73.000 phần tử rất dài. Nếu bạn không thêm lớp nhúng vào mô hình, quá trình huấn luyện sẽ mất rất nhiều thời gian do phải nhân 72.999 số 0. Có thể bạn chọn lớp nhúng bao gồm 12 phương diện. Do đó, lớp nhúng sẽ dần học được một vectơ nhúng mới cho từng loài cây.

Trong một số trường hợp, hàm băm là một giải pháp thay thế hợp lý cho lớp nhúng.

Hãy xem phần Nội dung nhúng trong khoá học Học máy ứng dụng để biết thêm thông tin.

thời gian bắt đầu của hệ thống

#fundamentals

Một lượt huấn luyện đầy đủ sẽ trải qua toàn bộ tập dữ liệu huấn luyện sao cho mỗi ví dụ được xử lý một lần.

Một epoch đại diện cho N/kích thước lô huấn luyện số lần lặp lại, trong đó N là tổng số ví dụ.

Ví dụ: giả sử như sau:

  • Tập dữ liệu này bao gồm 1.000 ví dụ.
  • Kích thước lô là 50 ví dụ.

Do đó, một epoch cần 20 lần lặp lại:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Hãy xem phần Phương pháp hồi quy tuyến tính: Thông số siêu dữ liệu trong khoá học cấp tốc về học máy để biết thêm thông tin.

ví dụ

#fundamentals

Giá trị của một hàng tính năng và có thể là một nhãn. Các ví dụ về học có giám sát thuộc hai danh mục chung:

  • Ví dụ được gắn nhãn bao gồm một hoặc nhiều đặc điểm và một nhãn. Các ví dụ được gắn nhãn được dùng trong quá trình huấn luyện.
  • Ví dụ chưa gắn nhãn bao gồm một hoặc nhiều tính năng nhưng không có nhãn. Các ví dụ chưa được gắn nhãn được dùng trong quá trình suy luận.

Ví dụ: giả sử bạn đang huấn luyện một mô hình để xác định ảnh hưởng của điều kiện thời tiết đến điểm kiểm tra của học sinh. Dưới đây là 3 ví dụ được gắn nhãn:

Tính năng Hãng nhạc
Nhiệt độ Độ ẩm Áp lực Điểm kiểm tra
15 47 998 Tốt
19 34 1020 Rất tốt
18 92 1012 Kém

Sau đây là 3 ví dụ chưa được gắn nhãn:

Nhiệt độ Độ ẩm Áp lực  
12 62 1014  
21 47 1017  
19 41 1021  

Hàng của một tập dữ liệu thường là nguồn thô cho một ví dụ. Tức là một ví dụ thường bao gồm một tập hợp con các cột trong tập dữ liệu. Hơn nữa, các tính năng trong ví dụ cũng có thể bao gồm các tính năng tổng hợp, chẳng hạn như các điểm giao nhau của tính năng.

Hãy xem phần Học có giám sát trong khoá học Giới thiệu về công nghệ học máy để biết thêm thông tin.

F

âm tính giả (FN)

#fundamentals

Ví dụ về trường hợp mô hình dự đoán nhầm lớp âm tính. Ví dụ: mô hình dự đoán rằng một email cụ thể không phải là thư rác (lớp âm) nhưng email đó thực sự là thư rác.

dương tính giả (FP)

#fundamentals

Ví dụ về trường hợp mô hình dự đoán nhầm lớp dương tính. Ví dụ: mô hình dự đoán một email cụ thể là thư rác (lớp dương tính), nhưng email đó thực sự không phải là thư rác.

Hãy xem phần Ngưỡng và ma trận nhiễu trong khoá học Học máy ứng dụng để biết thêm thông tin.

tỷ lệ dương tính giả (FPR)

#fundamentals

Tỷ lệ phần trăm các ví dụ âm tính thực tế mà mô hình dự đoán nhầm là lớp dương tính. Công thức sau đây tính tỷ lệ dương tính giả:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Tỷ lệ dương tính giả là trục x trong đường cong ROC.

Hãy xem phần Phân loại: ROC và AUC trong Khoá học học máy ứng dụng để biết thêm thông tin.

đối tượng

#fundamentals

Biến đầu vào cho mô hình học máy. Một ví dụ bao gồm một hoặc nhiều tính năng. Ví dụ: giả sử bạn đang huấn luyện một mô hình để xác định ảnh hưởng của điều kiện thời tiết đến điểm số của học viên. Bảng sau đây cho thấy 3 ví dụ, mỗi ví dụ chứa 3 tính năng và 1 nhãn:

Tính năng Hãng nhạc
Nhiệt độ Độ ẩm Áp lực Điểm kiểm tra
15 47 998 92
19 34 1020 84
18 92 1012 87

Tương phản với nhãn.

Hãy xem phần Học có giám sát trong khoá học Giới thiệu về học máy để biết thêm thông tin.

nhân chéo tính chất

#fundamentals

Tính năng tổng hợp được tạo bằng cách "giao nhau" các tính năng dạng danh mục hoặc được nhóm lại.

Ví dụ: hãy xem xét mô hình "dự đoán tâm trạng" đại diện cho nhiệt độ trong một trong 4 nhóm sau:

  • freezing
  • chilly
  • temperate
  • warm

Và thể hiện tốc độ gió trong một trong ba nhóm sau:

  • still
  • light
  • windy

Nếu không có giao nhau của các tính năng, mô hình tuyến tính sẽ huấn luyện độc lập trên từng nhóm trong số 7 nhóm trước đó. Vì vậy, mô hình sẽ huấn luyện trên, ví dụ: freezing độc lập với việc huấn luyện trên, ví dụ: windy.

Ngoài ra, bạn có thể tạo một giao điểm đặc điểm của nhiệt độ và tốc độ gió. Tính năng tổng hợp này sẽ có 12 giá trị có thể có sau:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Nhờ các giao điểm tính năng, mô hình có thể tìm hiểu sự khác biệt về tâm trạng giữa ngày freezing-windy và ngày freezing-still.

Nếu bạn tạo một tính năng tổng hợp từ hai tính năng, mỗi tính năng có nhiều nhóm khác nhau, thì tính năng chéo thu được sẽ có rất nhiều tổ hợp có thể xảy ra. Ví dụ: nếu một đặc điểm có 1.000 bộ chứa và đặc điểm còn lại có 2.000 bộ chứa, thì phép lai đặc điểm thu được sẽ có 2.000.000 bộ chứa.

Theo cách chính thức, phép nhân là một sản phẩm Descartes.

Tính năng chéo chủ yếu được dùng với các mô hình tuyến tính và hiếm khi được dùng với mạng nơron.

Hãy xem phần Dữ liệu dạng danh mục: Giá trị chéo của tính năng trong Khoá học học máy ứng dụng để biết thêm thông tin.

kỹ thuật trích xuất tính năng

#fundamentals
#TensorFlow

Một quy trình bao gồm các bước sau:

  1. Xác định các tính năng có thể hữu ích trong việc huấn luyện mô hình.
  2. Chuyển đổi dữ liệu thô từ tập dữ liệu thành các phiên bản hiệu quả của các tính năng đó.

Ví dụ: bạn có thể xác định rằng temperature có thể là một tính năng hữu ích. Sau đó, bạn có thể thử nghiệm với tính năng nhóm để tối ưu hoá nội dung mà mô hình có thể học được từ các dải temperature khác nhau.

Đôi khi, kỹ thuật xử lý đặc điểm được gọi là trích xuất đặc điểm hoặc tạo đặc điểm.

Hãy xem phần Dữ liệu số: Cách mô hình nhập dữ liệu bằng vectơ tính năng trong khoá học Học nhanh về học máy để biết thêm thông tin.

tập hợp tính năng

#fundamentals

Nhóm tính năngmô hình học máy của bạn huấn luyện. Ví dụ: mã bưu chính, diện tích nhà và tình trạng nhà có thể tạo thành một tập hợp tính năng đơn giản cho mô hình dự đoán giá nhà.

vectơ đặc trưng

#fundamentals

Mảng các giá trị tính năng bao gồm một ví dụ. Vectơ đặc điểm được nhập trong quá trình huấn luyện và trong quá trình suy luận. Ví dụ: vectơ đặc điểm cho một mô hình có hai đặc điểm riêng biệt có thể là:

[0.92, 0.56]

Bốn lớp: một lớp đầu vào, hai lớp ẩn và một lớp đầu ra.
          Lớp đầu vào chứa hai nút, một nút chứa giá trị 0,92 và nút còn lại chứa giá trị 0,56.

Mỗi ví dụ cung cấp các giá trị khác nhau cho vectơ đặc điểm, vì vậy, vectơ đặc điểm cho ví dụ tiếp theo có thể là:

[0.73, 0.49]

Kỹ thuật xử lý đặc điểm xác định cách biểu thị các đặc điểm trong vectơ đặc điểm. Ví dụ: một đặc điểm phân loại nhị phân có năm giá trị có thể được biểu thị bằng mã hoá một nóng. Trong trường hợp này, phần vectơ đặc trưng cho một ví dụ cụ thể sẽ bao gồm 4 số 0 và 1.0 ở vị trí thứ ba, như sau:

[0.0, 0.0, 1.0, 0.0, 0.0]

Ví dụ khác: giả sử mô hình của bạn bao gồm 3 đặc điểm:

  • một đặc điểm phân loại nhị phân có năm giá trị có thể được biểu thị bằng mã hoá một nóng; ví dụ: [0.0, 1.0, 0.0, 0.0, 0.0]
  • một đặc điểm phân loại nhị phân khác có ba giá trị có thể được biểu thị bằng mã hoá một nóng; ví dụ: [0.0, 0.0, 1.0]
  • một tính năng dấu phẩy động; ví dụ: 8.3.

Trong trường hợp này, vectơ đặc trưng cho mỗi ví dụ sẽ được biểu thị bằng chín giá trị. Với các giá trị mẫu trong danh sách trước, vectơ đặc điểm sẽ là:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Hãy xem phần Dữ liệu số: Cách mô hình nhập dữ liệu bằng vectơ tính năng trong khoá học Học nhanh về học máy để biết thêm thông tin.

vòng hồi tiếp

#fundamentals

Trong học máy, một tình huống mà dự đoán của mô hình ảnh hưởng đến dữ liệu huấn luyện cho cùng một mô hình hoặc một mô hình khác. Ví dụ: một mô hình đề xuất phim sẽ ảnh hưởng đến những bộ phim mà mọi người xem, từ đó ảnh hưởng đến các mô hình đề xuất phim tiếp theo.

Hãy xem phần Hệ thống ML thương mại: Câu hỏi cần đặt trong khoá học cấp tốc về học máy để biết thêm thông tin.

G

tổng quát hoá

#fundamentals

Khả năng của mô hình trong việc đưa ra dự đoán chính xác về dữ liệu mới, chưa từng thấy trước đây. Mô hình có thể khái quát là đối lập với mô hình quá thích ứng.

Hãy xem phần Tổng quát hoá trong Khoá học học máy ứng dụng để biết thêm thông tin.

đường cong tổng quát hoá

#fundamentals

Biểu đồ của cả mất mát trong quá trình huấn luyệnmất mát trong quá trình xác thực dưới dạng hàm của số lặp lại.

Đường cong tổng quát hoá có thể giúp bạn phát hiện trường hợp thừa khớp. Ví dụ: đường cong tổng quát sau đây cho thấy tình trạng phù hợp quá mức vì tổn thất xác thực cuối cùng sẽ cao hơn đáng kể so với tổn thất huấn luyện.

Biểu đồ Descartes trong đó trục y được gắn nhãn là tổn thất và trục x được gắn nhãn là số lần lặp lại. Hai biểu đồ sẽ xuất hiện. Một biểu đồ cho thấy tổn thất huấn luyện và biểu đồ còn lại cho thấy tổn thất xác thực.
          Hai biểu đồ bắt đầu tương tự nhau, nhưng cuối cùng, tổn thất trong quá trình huấn luyện sẽ giảm xuống thấp hơn nhiều so với tổn thất trong quá trình xác thực.

Hãy xem phần Tổng quát hoá trong Khoá học học máy ứng dụng để biết thêm thông tin.

phương pháp giảm độ dốc

#fundamentals

Một kỹ thuật toán học để giảm thiểu mất mát. Phương pháp hạ dần theo độ dốc sẽ điều chỉnh lặp lại trọng sốđộ lệch, dần dần tìm ra tổ hợp tốt nhất để giảm thiểu tổn thất.

Phương pháp giảm dần theo độ dốc đã xuất hiện từ lâu, lâu hơn rất nhiều so với công nghệ học máy.

Xem phần Phương pháp hồi quy tuyến tính: Phương pháp hạ gradient trong khoá học cấp tốc về học máy để biết thêm thông tin.

thông tin thực tế

#fundamentals

Thực tế.

Điều thực sự đã xảy ra.

Ví dụ: hãy xem xét một mô hình phân loại nhị phân dự đoán liệu một sinh viên năm nhất đại học có tốt nghiệp trong vòng 6 năm hay không. Giá trị thực tế cho mô hình này là liệu học viên đó có thực sự tốt nghiệp trong vòng 6 năm hay không.

Cao

lớp ẩn

#fundamentals

Một lớp trong mạng nơron giữa lớp đầu vào (các đặc điểm) và lớp đầu ra (dự đoán). Mỗi lớp ẩn bao gồm một hoặc nhiều neuron. Ví dụ: mạng nơron sau đây chứa hai lớp ẩn, lớp đầu tiên có 3 tế bào thần kinh và lớp thứ hai có 2 tế bào thần kinh:

Bốn lớp. Lớp đầu tiên là lớp đầu vào chứa hai tính năng. Lớp thứ hai là lớp ẩn chứa ba tế bào thần kinh. Lớp thứ ba là lớp ẩn chứa hai tế bào thần kinh. Lớp thứ tư là lớp đầu ra. Mỗi đặc điểm chứa ba cạnh, mỗi cạnh trỏ đến một tế bào thần kinh khác nhau trong lớp thứ hai. Mỗi tế bào thần kinh trong lớp thứ hai chứa hai cạnh, mỗi cạnh trỏ đến một tế bào thần kinh khác trong lớp thứ ba. Mỗi tế bào thần kinh trong lớp thứ ba chứa một cạnh, mỗi cạnh trỏ đến lớp đầu ra.

Mạng nơron sâu chứa nhiều lớp ẩn. Ví dụ: hình minh hoạ trước là một mạng nơron sâu vì mô hình chứa hai lớp ẩn.

Hãy xem phần Mạng nơron: Nút và lớp ẩn trong khoá học cấp tốc về máy học để biết thêm thông tin.

siêu tham số

#fundamentals

Các biến mà bạn hoặc dịch vụ điều chỉnh tham số siêu dữ liệu điều chỉnh trong các lần chạy liên tiếp để huấn luyện mô hình. Ví dụ: tốc độ học là một tham số siêu dữ liệu. Bạn có thể đặt tốc độ học thành 0,01 trước một phiên huấn luyện. Nếu xác định rằng 0,01 là quá cao, bạn có thể đặt tốc độ học là 0,003 cho phiên huấn luyện tiếp theo.

Ngược lại, tham số là các trọng sốsai số khác nhau mà mô hình học được trong quá trình huấn luyện.

Hãy xem phần Phương pháp hồi quy tuyến tính: Thông số siêu dữ liệu trong khoá học cấp tốc về học máy để biết thêm thông tin.

I

phân phối độc lập và đồng nhất (i.i.d)

#fundamentals

Dữ liệu được lấy từ một phân phối không thay đổi và mỗi giá trị được vẽ không phụ thuộc vào các giá trị đã được vẽ trước đó. I.i.d. là khí lý tưởng của học máy – một cấu trúc toán học hữu ích nhưng hầu như không bao giờ tìm thấy chính xác trong thế giới thực. Ví dụ: việc phân phối khách truy cập đến một trang web có thể là i.i.d. trong một khoảng thời gian ngắn; tức là việc phân phối không thay đổi trong khoảng thời gian ngắn đó và lượt truy cập của một người thường độc lập với lượt truy cập của người khác. Tuy nhiên, nếu bạn mở rộng khoảng thời gian đó, sự khác biệt theo mùa trong số khách truy cập trang web có thể xuất hiện.

Xem thêm về tính không ổn định.

suy luận

#fundamentals

Trong học máy, quá trình đưa ra dự đoán bằng cách áp dụng mô hình đã huấn luyện cho các ví dụ chưa được gắn nhãn.

Suy luận có ý nghĩa hơi khác trong thống kê. Hãy xem bài viết trên Wikipedia về suy luận thống kê để biết thông tin chi tiết.

Hãy xem phần Học có giám sát trong khoá học Giới thiệu về học máy để biết vai trò của suy luận trong hệ thống học có giám sát.

lớp đầu vào

#fundamentals

Lớp của một mạng nơron chứa vectơ đặc điểm. Tức là lớp đầu vào cung cấp ví dụ để huấn luyện hoặc xác định. Ví dụ: lớp đầu vào trong mạng nơron sau đây bao gồm hai đặc điểm:

Bốn lớp: một lớp đầu vào, hai lớp ẩn và một lớp đầu ra.

khả năng diễn giải

#fundamentals

Khả năng giải thích hoặc trình bày lý do của mô hình học máy bằng các thuật ngữ mà con người có thể hiểu được.

Ví dụ: hầu hết các mô hình biến hồi quy tuyến tính đều có thể diễn giải được. (Bạn chỉ cần xem trọng số đã huấn luyện cho từng tính năng.) Rừng quyết định cũng có khả năng diễn giải cao. Tuy nhiên, một số mô hình yêu cầu hình ảnh trực quan phức tạp để có thể diễn giải.

Bạn có thể sử dụng Công cụ diễn giải học tập (LIT) để diễn giải các mô hình học máy.

lặp lại

#fundamentals

Một lần cập nhật tham số của mô hìnhtrọng sốsai số của mô hình – trong quá trình huấn luyện. Kích thước lô xác định số lượng ví dụ mà mô hình xử lý trong một lần lặp. Ví dụ: nếu kích thước lô là 20, thì mô hình sẽ xử lý 20 ví dụ trước khi điều chỉnh các tham số.

Khi huấn luyện một mạng nơron, một vòng lặp duy nhất sẽ bao gồm hai lượt truyền sau:

  1. Một lượt truyền thẳng để đánh giá tổn thất trên một lô.
  2. Truyền ngược (backpropagation) để điều chỉnh các tham số của mô hình dựa trên tổn thất và tốc độ học.

L

Điều hoà L0

#fundamentals

Một loại quy tắc chuẩn hoá sẽ phạt tổng số trọng số không bằng 0 trong một mô hình. Ví dụ: một mô hình có 11 trọng số khác 0 sẽ bị phạt nhiều hơn một mô hình tương tự có 10 trọng số khác 0.

Đôi khi, quy trình điều hoà L0 được gọi là quy trình điều hoà theo chuẩn L0.

Mất L1

#fundamentals

Hàm tổn thất tính toán giá trị tuyệt đối của chênh lệch giữa các giá trị thẻ thực tế và các giá trị mà mô hình dự đoán. Ví dụ: sau đây là cách tính toán tổn thất L1 cho một gồm 5 ví dụ:

Giá trị thực tế của ví dụ Giá trị dự đoán của mô hình Giá trị tuyệt đối của delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = tổn thất L1

Mất mát L1 ít nhạy cảm với điểm ngoại lai hơn mất mát L2.

Sai số tuyệt đối trung bình là tổn thất trung bình L1 trên mỗi ví dụ.

Điều hoà L1

#fundamentals

Một loại quy tắc chuẩn hoá phạt trọng số theo tỷ lệ với tổng giá trị tuyệt đối của trọng số. Phương pháp chuẩn hoá L1 giúp tăng trọng số của các đặc điểm không liên quan hoặc gần như không liên quan lên chính xác là 0. Một tính năng có trọng số là 0 sẽ bị xoá hiệu quả khỏi mô hình.

Tương phản với quy trình điều hoà L2.

Mất L2

#fundamentals

Hàm tổn thất tính toán bình phương của chênh lệch giữa các giá trị thẻ thực tế và các giá trị mà mô hình dự đoán. Ví dụ: sau đây là cách tính toán tổn thất L2 cho một gồm 5 ví dụ:

Giá trị thực tế của ví dụ Giá trị dự đoán của mô hình Delta vuông
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = tổn thất L2

Do việc bình phương, tổn thất L2 làm tăng ảnh hưởng của các điểm ngoại lai. Tức là tổn thất L2 phản ứng mạnh mẽ hơn với các dự đoán không chính xác so với tổn thất L1. Ví dụ: tổn thất L1 cho lô trước đó sẽ là 8 thay vì 16. Lưu ý rằng một giá trị ngoại lai chiếm 9 trong số 16 giá trị.

Các mô hình hồi quy thường sử dụng hàm tổn thất L2 làm hàm tổn thất.

Sai số bình phương trung bình là tổn thất trung bình L2 trên mỗi ví dụ. Tổn thất bình phương là một tên khác của tổn thất L2.

Điều hoà L2

#fundamentals

Một loại quy tắc chuẩn hoá phạt trọng số theo tỷ lệ với tổng hình vuông của các trọng số. Phương pháp chuẩn hoá L2 giúp tăng trọng số điểm ngoại lai (những điểm có giá trị dương cao hoặc giá trị âm thấp) gần với 0 nhưng không hoàn toàn bằng 0. Các tính năng có giá trị rất gần với 0 vẫn nằm trong mô hình nhưng không ảnh hưởng nhiều đến kết quả dự đoán của mô hình.

Quy trình chuẩn hoá L2 luôn cải thiện khả năng khái quát hoá trong mô hình tuyến tính.

Tương phản với quy trình điều hoà L1.

nhãn

#fundamentals

Trong học máy có giám sát, phần "câu trả lời" hoặc "kết quả" của một ví dụ.

Mỗi ví dụ được gắn nhãn bao gồm một hoặc nhiều tính năng và một nhãn. Ví dụ: trong tập dữ liệu phát hiện nội dung rác, nhãn có thể là "rác" hoặc "không phải rác". Trong tập dữ liệu về lượng mưa, nhãn có thể là lượng mưa trong một khoảng thời gian nhất định.

ví dụ về dữ liệu có nhãn

#fundamentals

Một ví dụ chứa một hoặc nhiều tính năng và một nhãn. Ví dụ: bảng sau đây cho thấy 3 ví dụ được gắn nhãn từ một mô hình định giá nhà, mỗi ví dụ có 3 đặc điểm và 1 nhãn:

Số lượng phòng ngủ Số lượng phòng tắm Tuổi nhà Giá nhà (nhãn)
3 2 15 345.000 đô la
2 1 72 179.000 đô la
4 2 34 392.000 đô la

Trong công nghệ học máy có giám sát, các mô hình được huấn luyện dựa trên các ví dụ được gắn nhãn và đưa ra dự đoán dựa trên các ví dụ không được gắn nhãn.

So sánh ví dụ có gắn nhãn với ví dụ không gắn nhãn.

lambda

#fundamentals

Đồng nghĩa với hệ số điều hoà.

Lambda là một thuật ngữ nạp chồng. Ở đây, chúng ta sẽ tập trung vào định nghĩa của thuật ngữ này trong quá trình điều chỉnh.

lớp

#fundamentals

Một tập hợp nơron trong một mạng nơron. Sau đây là 3 loại lớp phổ biến:

Ví dụ: hình minh hoạ sau đây cho thấy một mạng nơron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra:

Một mạng nơron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra. Lớp đầu vào bao gồm hai đặc điểm. Lớp ẩn đầu tiên bao gồm 3 tế bào thần kinh và lớp ẩn thứ hai bao gồm 2 tế bào thần kinh. Lớp đầu ra bao gồm một nút duy nhất.

Trong TensorFlow, lớp cũng là các hàm Python lấy Tensor và các tuỳ chọn cấu hình làm dữ liệu đầu vào và tạo ra các tensor khác làm dữ liệu đầu ra.

tốc độ học

#fundamentals

Một số dấu phẩy động cho thuật toán xuống dốc theo độ dốc biết mức độ điều chỉnh trọng số và độ lệch trên mỗi lặp lại. Ví dụ: tốc độ học là 0,3 sẽ điều chỉnh trọng số và độ lệch mạnh hơn gấp ba lần so với tốc độ học là 0,1.

Tốc độ học là một biến siêu tham số chính. Nếu bạn đặt tốc độ học quá thấp, quá trình huấn luyện sẽ mất quá nhiều thời gian. Nếu bạn đặt tốc độ học quá cao, phương pháp hạ gradient thường gặp sự cố khi đạt đến điểm hội tụ.

tuyến tính

#fundamentals

Mối quan hệ giữa hai hoặc nhiều biến chỉ có thể được biểu thị thông qua phép cộng và phép nhân.

Biểu đồ của mối quan hệ tuyến tính là một đường thẳng.

Tương phản với phi tuyến tính.

mô hình tuyến tính

#fundamentals

Mô hình chỉ định một trọng số cho mỗi tính năng để đưa ra dự đoán. (Mô hình tuyến tính cũng kết hợp tính thiên vị.) Ngược lại, mối quan hệ giữa các đặc điểm với dự đoán trong mô hình sâu thường không tuyến tính.

Mô hình tuyến tính thường dễ huấn luyện hơn và dễ giải thích hơn so với mô hình sâu. Tuy nhiên, mô hình sâu có thể tìm hiểu các mối quan hệ phức tạp giữa các đặc điểm.

Hồi quy tuyến tínhhồi quy logistic là hai loại mô hình tuyến tính.

hồi quy tuyến tính

#fundamentals

Một loại mô hình học máy trong đó cả hai điều sau đều đúng:

  • Mô hình này là một mô hình tuyến tính.
  • Kết quả dự đoán là một giá trị dấu phẩy động. (Đây là phần hồi quy của hồi quy tuyến tính.)

So sánh hồi quy tuyến tính với hồi quy logistic. Ngoài ra, hãy so sánh hồi quy với phân loại.

hồi quy logistic

#fundamentals

Một loại mô hình hồi quy dự đoán xác suất. Mô hình hồi quy logistic có các đặc điểm sau:

  • Nhãn này là danh mục. Thuật ngữ hồi quy logistic thường đề cập đến hồi quy logistic nhị phân, tức là một mô hình tính toán xác suất cho các nhãn có hai giá trị có thể xảy ra. Một biến thể ít phổ biến hơn là bước hồi quy logistic đa thức, tính toán xác suất cho các nhãn có nhiều hơn hai giá trị có thể có.
  • Hàm tổn thất trong quá trình huấn luyện là Log Loss (Tổn thất logarit). (Bạn có thể đặt song song nhiều đơn vị Mất mát theo nhật ký cho các nhãn có nhiều hơn hai giá trị có thể có.)
  • Mô hình này có cấu trúc tuyến tính, chứ không phải mạng nơron sâu. Tuy nhiên, phần còn lại của định nghĩa này cũng áp dụng cho mô hình sâu dự đoán xác suất cho nhãn phân loại.

Ví dụ: hãy xem xét một mô hình hồi quy logistic tính toán xác suất một email đầu vào là email rác hoặc không phải email rác. Trong quá trình suy luận, giả sử mô hình dự đoán là 0,72. Do đó, mô hình đang ước tính:

  • Có 72% khả năng email đó là thư rác.
  • Có 28% khả năng email đó không phải là thư rác.

Mô hình hồi quy logistic sử dụng cấu trúc hai bước sau:

  1. Mô hình tạo ra một dự đoán thô (y') bằng cách áp dụng hàm tuyến tính của các tính năng đầu vào.
  2. Mô hình sử dụng thông tin dự đoán thô đó làm dữ liệu đầu vào cho hàm sigmoid. Hàm này chuyển đổi thông tin dự đoán thô thành một giá trị từ 0 đến 1, không bao gồm 0 và 1.

Giống như mọi mô hình hồi quy khác, mô hình hồi quy logistic dự đoán một con số. Tuy nhiên, con số này thường trở thành một phần của mô hình phân loại nhị phân như sau:

  • Nếu số được dự đoán lớn hơn ngưỡng phân loại, thì mô hình phân loại nhị phân sẽ dự đoán lớp dương.
  • Nếu số được dự đoán ít hơn ngưỡng phân loại, thì mô hình phân loại nhị phân sẽ dự đoán lớp âm.

Mất dữ liệu

#fundamentals

Hàm tổn thất được dùng trong bước hồi quy logistic nhị phân.

log-odds

#fundamentals

Logarit của tỷ lệ cược của một số sự kiện.

thua

#fundamentals

Trong quá trình huấn luyện một mô hình được giám sát, một chỉ số đo lường khoảng cách giữa dự đoán của mô hình với nhãn của mô hình đó.

Hàm tổn thất sẽ tính toán tổn thất.

đường cong tổn thất

#fundamentals

Biểu đồ mất mát dưới dạng hàm của số lần lặp lại trong quá trình huấn luyện. Biểu đồ sau đây cho thấy một đường cong tổn hao điển hình:

Biểu đồ Descartes về tổn thất so với số lần lặp lại trong quá trình huấn luyện, cho thấy tổn thất giảm nhanh trong các lần lặp lại ban đầu, sau đó giảm dần, rồi có độ dốc bằng phẳng trong các lần lặp lại cuối cùng.

Đường cong tổn thất có thể giúp bạn xác định thời điểm mô hình của mình hội tụ hoặc quá thích ứng.

Đường cong tổn thất có thể lập biểu đồ tất cả các loại tổn thất sau:

Xem thêm đường cong tổng quát hoá.

hàm tổn thất

#fundamentals

Trong quá trình huấn luyện hoặc kiểm thử, một hàm toán học sẽ tính toán tổn thất trên một ví dụ. Hàm tổn thất trả về tổn thất thấp hơn cho các mô hình đưa ra dự đoán chính xác hơn so với các mô hình đưa ra dự đoán không chính xác.

Mục tiêu của quá trình huấn luyện thường là giảm thiểu tổn thất mà hàm tổn thất trả về.

Có nhiều loại hàm tổn thất khác nhau. Chọn hàm tổn thất phù hợp với loại mô hình bạn đang xây dựng. Ví dụ:

M

học máy

#fundamentals

Một chương trình hoặc hệ thống huấn luyện một mô hình từ dữ liệu đầu vào. Mô hình đã huấn luyện có thể đưa ra dự đoán hữu ích từ dữ liệu mới (chưa từng thấy trước đây) được lấy từ cùng một phân phối như dữ liệu dùng để huấn luyện mô hình.

Học máy cũng đề cập đến lĩnh vực nghiên cứu liên quan đến các chương trình hoặc hệ thống này.

lớp đa số

#fundamentals

Nhãn phổ biến hơn trong một tập dữ liệu bất cân đối về loại. Ví dụ: với một tập dữ liệu chứa 99% nhãn âm và 1% nhãn dương, nhãn âm là lớp chiếm đa số.

Tương phản với lớp thiểu số.

lô nhỏ

#fundamentals

Một tập hợp con nhỏ được chọn ngẫu nhiên của một được xử lý trong một lượt lặp. Kích thước lô của một lô nhỏ thường dao động từ 10 đến 1.000 ví dụ.

Ví dụ: giả sử toàn bộ tập dữ liệu huấn luyện (một lô đầy đủ) bao gồm 1.000 ví dụ. Giả sử thêm rằng bạn đặt kích thước lô của mỗi lô nhỏ thành 20. Do đó, mỗi lần lặp lại sẽ xác định tổn thất trên 20 ví dụ ngẫu nhiên trong số 1.000 ví dụ,sau đó điều chỉnh trọng sốđộ lệch cho phù hợp.

Việc tính toán tổn thất trên một lô nhỏ sẽ hiệu quả hơn nhiều so với tổn thất trên tất cả các ví dụ trong lô đầy đủ.

lớp thiểu số

#fundamentals

Nhãn ít phổ biến hơn trong một tập dữ liệu mất cân bằng lớp. Ví dụ: với một tập dữ liệu chứa 99% nhãn âm và 1% nhãn dương, nhãn dương là lớp thiểu số.

Tương phản với lớp đa số.

kiểu máy

#fundamentals

Nhìn chung, bất kỳ cấu trúc toán học nào xử lý dữ liệu đầu vào và trả về đầu ra. Nói cách khác, mô hình là tập hợp các tham số và cấu trúc cần thiết để hệ thống đưa ra dự đoán. Trong công nghệ học máy có giám sát, mô hình sẽ lấy ví dụ làm dữ liệu đầu vào và suy luận dự đoán làm dữ liệu đầu ra. Trong học máy có giám sát, các mô hình có phần khác biệt. Ví dụ:

  • Mô hình hồi quy tuyến tính bao gồm một tập hợp trọng số và một sai số.
  • Mô hình mạng nơron bao gồm:
    • Một tập hợp các lớp ẩn, mỗi lớp chứa một hoặc nhiều neuron.
    • Trọng số và độ lệch liên kết với từng tế bào thần kinh.
  • Mô hình cây quyết định bao gồm:
    • Hình dạng của cây; tức là mẫu mà các điều kiện và lá được kết nối.
    • Các điều kiện và lá.

Bạn có thể lưu, khôi phục hoặc tạo bản sao của một mô hình.

Công nghệ học máy không giám sát cũng tạo ra các mô hình, thường là một hàm có thể liên kết một ví dụ đầu vào với cụm phù hợp nhất.

phân loại nhiều lớp

#fundamentals

Trong phương pháp học có giám sát, một vấn đề phân loại trong đó tập dữ liệu chứa hơn hai lớp nhãn. Ví dụ: nhãn trong tập dữ liệu Iris phải là một trong ba lớp sau:

  • Iris setosa
  • Iris virginica
  • Iris versicolor

Mô hình được huấn luyện trên tập dữ liệu Iris để dự đoán loại Iris trên các ví dụ mới đang thực hiện việc phân loại nhiều lớp.

Ngược lại, các vấn đề phân loại phân biệt chính xác giữa hai lớp là mô hình phân loại nhị phân. Ví dụ: mô hình email dự đoán thư rác hoặc không phải thư rác là mô hình phân loại nhị phân.

Trong các vấn đề về cụm, thuật toán phân loại nhiều lớp đề cập đến nhiều cụm hơn.

Không

lớp âm

#fundamentals

Trong phân loại nhị phân, một lớp được gọi là dương và lớp còn lại được gọi là âm. Lớp dương là đối tượng hoặc sự kiện mà mô hình đang kiểm thử và lớp âm là khả năng khác. Ví dụ:

  • Lớp âm tính trong một bài kiểm tra y tế có thể là "không phải khối u".
  • Lớp âm trong một bộ phân loại email có thể là "không phải nội dung rác".

Tương phản với lớp dương.

mạng nơron

#fundamentals

Một mô hình chứa ít nhất một lớp ẩn. Mạng nơron sâu là một loại mạng nơron chứa nhiều lớp ẩn. Ví dụ: Sơ đồ sau đây cho thấy một mạng nơron sâu chứa hai lớp ẩn.

Một mạng nơron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra.

Mỗi tế bào thần kinh trong mạng nơron kết nối với tất cả các nút trong lớp tiếp theo. Ví dụ: trong sơ đồ trước, hãy lưu ý rằng mỗi trong số 3 tế bào thần kinh trong lớp ẩn đầu tiên kết nối riêng biệt với cả hai tế bào thần kinh trong lớp ẩn thứ hai.

Đôi khi, mạng nơron được triển khai trên máy tính được gọi là mạng nơron nhân tạo để phân biệt với mạng nơron có trong não và các hệ thống thần kinh khác.

Một số mạng nơron có thể mô phỏng các mối quan hệ phi tuyến tính cực kỳ phức tạp giữa các đặc điểm và nhãn.

Xem thêm mạng nơron tích chậpmạng nơron tái sinh.

nơron

#fundamentals

Trong học máy, một đơn vị riêng biệt trong lớp ẩn của mạng nơron. Mỗi tế bào thần kinh thực hiện thao tác hai bước sau:

  1. Tính tổng trọng số của các giá trị đầu vào nhân với trọng số tương ứng.
  2. Truyền tổng trọng số làm dữ liệu đầu vào cho một hàm kích hoạt.

Một tế bào thần kinh trong lớp ẩn đầu tiên chấp nhận dữ liệu đầu vào từ các giá trị đặc điểm trong lớp đầu vào. Một tế bào thần kinh trong bất kỳ lớp ẩn nào ngoài lớp đầu tiên sẽ chấp nhận dữ liệu đầu vào từ các tế bào thần kinh trong lớp ẩn trước đó. Ví dụ: một tế bào thần kinh trong lớp ẩn thứ hai chấp nhận dữ liệu đầu vào từ các tế bào thần kinh trong lớp ẩn đầu tiên.

Hình minh hoạ sau đây nêu bật hai tế bào thần kinh và đầu vào của chúng.

Một mạng nơron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra. Hai tế bào thần kinh được làm nổi bật: một tế bào trong lớp ẩn đầu tiên và một tế bào trong lớp ẩn thứ hai. Tế bào thần kinh được làm nổi bật trong lớp ẩn đầu tiên nhận dữ liệu đầu vào từ cả hai đặc điểm trong lớp đầu vào. Neuron được làm nổi bật trong lớp ẩn thứ hai nhận dữ liệu đầu vào từ mỗi trong số ba neuron trong lớp ẩn đầu tiên.

Một nơron trong mạng nơron bắt chước hành vi của các nơron trong não và các phần khác của hệ thần kinh.

nút (mạng nơron)

#fundamentals

Một neuron trong lớp ẩn.

phi tuyến tính

#fundamentals

Mối quan hệ giữa hai hoặc nhiều biến không thể được biểu thị chỉ thông qua phép cộng và phép nhân. Mối quan hệ tuyến tính có thể được biểu thị dưới dạng một đường thẳng; mối quan hệ phi tuyến tính không thể được biểu thị dưới dạng một đường thẳng. Ví dụ: hãy xem xét hai mô hình, mỗi mô hình liên kết một tính năng với một nhãn. Mô hình ở bên trái là tuyến tính và mô hình ở bên phải là phi tuyến tính:

Hai biểu đồ. Một đồ thị là một đường thẳng, vì vậy đây là mối quan hệ tuyến tính.
          Biểu đồ còn lại là một đường cong, vì vậy đây là mối quan hệ phi tuyến tính.

không tĩnh

#fundamentals

Một đặc điểm có giá trị thay đổi trên một hoặc nhiều phương diện, thường là thời gian. Ví dụ: hãy xem xét các ví dụ sau về tính không ổn định:

  • Số lượng bộ đồ bơi được bán tại một cửa hàng cụ thể thay đổi theo mùa.
  • Lượng một loại trái cây cụ thể được thu hoạch ở một khu vực cụ thể là 0 trong phần lớn thời gian trong năm nhưng lại lớn trong một khoảng thời gian ngắn.
  • Do biến đổi khí hậu, nhiệt độ trung bình hằng năm đang thay đổi.

Tương phản với tính chất không đổi.

chuẩn hoá

#fundamentals

Nói chung, quá trình chuyển đổi phạm vi giá trị thực tế của một biến thành phạm vi giá trị chuẩn, chẳng hạn như:

  • -1 đến +1
  • 0 đến 1
  • Điểm Z (khoảng từ -3 đến +3)

Ví dụ: giả sử phạm vi giá trị thực tế của một đặc điểm nhất định là từ 800 đến 2.400. Trong quá trình kỹ thuật xử lý đặc điểm, bạn có thể chuẩn hoá các giá trị thực tế xuống một phạm vi tiêu chuẩn, chẳng hạn như -1 đến +1.

Việc chuẩn hoá là một nhiệm vụ phổ biến trong quá trình xây dựng đặc điểm. Các mô hình thường huấn luyện nhanh hơn (và đưa ra kết quả dự đoán tốt hơn) khi mọi đặc điểm số trong vectơ đặc điểm có phạm vi gần như giống nhau.

Hãy xem phần Làm việc với mô-đun dữ liệu số của khoá học cấp tốc về học máy để biết thêm thông tin chi tiết. Ngoài ra, hãy xem phần Chuẩn hoá điểm Z.

dữ liệu dạng số

#fundamentals

Tính năng được biểu thị dưới dạng số nguyên hoặc số thực. Ví dụ: mô hình định giá nhà có thể thể hiện kích thước của một ngôi nhà (tính bằng feet vuông hoặc mét vuông) dưới dạng dữ liệu số. Việc biểu thị một đặc điểm dưới dạng dữ liệu số cho biết rằng các giá trị của đặc điểm đó có mối quan hệ toán học với nhãn. Tức là số mét vuông trong một ngôi nhà có thể có một số mối quan hệ toán học với giá trị của ngôi nhà đó.

Không phải tất cả dữ liệu số nguyên đều phải được biểu thị dưới dạng dữ liệu số. Ví dụ: mã bưu chính ở một số nơi trên thế giới là số nguyên; tuy nhiên, mã bưu chính số nguyên không được biểu thị dưới dạng dữ liệu số trong mô hình. Đó là do mã bưu chính 20000 không mạnh gấp đôi (hoặc một nửa) so với mã bưu chính 10000. Hơn nữa, mặc dù các mã bưu chính khác nhau mối tương quan với các giá trị bất động sản khác nhau, nhưng chúng ta không thể giả định rằng giá trị bất động sản tại mã bưu chính 20000 có giá trị gấp đôi giá trị bất động sản tại mã bưu chính 10000. Thay vào đó, bạn nên biểu thị mã bưu chính dưới dạng dữ liệu dạng danh mục.

Đôi khi, các đặc điểm số được gọi là các đặc điểm liên tục.

O

ngoại tuyến

#fundamentals

Từ đồng nghĩa với tĩnh.

suy luận ngoại tuyến

#fundamentals

Quy trình một mô hình tạo một lô dự đoán rồi lưu các dự đoán đó vào bộ nhớ đệm. Sau đó, ứng dụng có thể truy cập vào dự đoán được suy luận từ bộ nhớ đệm thay vì chạy lại mô hình.

Ví dụ: hãy xem xét một mô hình tạo thông tin dự báo thời tiết tại địa phương (dự đoán) 4 giờ một lần. Sau mỗi lần chạy mô hình, hệ thống sẽ lưu tất cả thông tin dự báo thời tiết tại địa phương vào bộ nhớ đệm. Ứng dụng thời tiết truy xuất thông tin dự báo từ bộ nhớ đệm.

Suy luận ngoại tuyến còn được gọi là suy luận tĩnh.

Tương phản với nhận định trực tuyến.

mã hoá one-hot

#fundamentals

Biểu thị dữ liệu phân loại dưới dạng một vectơ trong đó:

  • Một phần tử được đặt thành 1.
  • Tất cả các phần tử khác được đặt thành 0.

Mã hoá một nóng thường được dùng để biểu thị các chuỗi hoặc giá trị nhận dạng có một tập hợp các giá trị có thể có hữu hạn. Ví dụ: giả sử một tính năng phân loại nhất định có tên Scandinavia có 5 giá trị có thể có:

  • "Đan Mạch"
  • "Thụy Điển"
  • "Na Uy"
  • "Phần Lan"
  • "Iceland"

Mã hoá một nóng có thể biểu thị từng giá trị trong số 5 giá trị như sau:

country Vectơ
"Đan Mạch" 1 0 0 0 0
"Thụy Điển" 0 1 0 0 0
"Na Uy" 0 0 1 0 0
"Phần Lan" 0 0 0 1 0
"Iceland" 0 0 0 0 1

Nhờ mã hoá một nóng, mô hình có thể học các mối liên kết khác nhau dựa trên từng quốc gia trong số 5 quốc gia.

Việc biểu thị một đặc điểm dưới dạng dữ liệu số là một giải pháp thay thế cho phương thức mã hoá one-hot. Rất tiếc, việc biểu thị các quốc gia Bắc Âu theo số không phải là lựa chọn hay. Ví dụ: hãy xem xét cách biểu diễn số sau:

  • "Đan Mạch" là 0
  • "Thụy Điển" là 1
  • "Na Uy" là 2
  • "Phần Lan" là 3
  • "Iceland" là 4

Với phương thức mã hoá số, mô hình sẽ diễn giải các số thô theo toán học và cố gắng huấn luyện dựa trên các số đó. Tuy nhiên, Iceland không thực sự có số lượng gấp đôi (hoặc một nửa) so với Na Uy, vì vậy, mô hình này sẽ đưa ra một số kết luận kỳ lạ.

một-với-tất-cả

#fundamentals

Với một vấn đề phân loại có N lớp, giải pháp bao gồm N trình phân loại nhị phân riêng biệt – một trình phân loại nhị phân cho mỗi kết quả có thể xảy ra. Ví dụ: với một mô hình phân loại các ví dụ là động vật, rau hoặc khoáng sản, giải pháp một-đối-tất-cả sẽ cung cấp ba bộ phân loại nhị phân riêng biệt sau:

  • động vật so với không phải động vật
  • rau so với không phải rau
  • khoáng sản so với không phải khoáng sản

trực tuyến

#fundamentals

Từ đồng nghĩa với động.

suy luận trực tuyến

#fundamentals

Tạo dự đoán theo yêu cầu. Ví dụ: giả sử một ứng dụng chuyển dữ liệu đầu vào đến một mô hình và đưa ra yêu cầu dự đoán. Hệ thống sử dụng suy luận trực tuyến sẽ phản hồi yêu cầu bằng cách chạy mô hình (và trả về kết quả dự đoán cho ứng dụng).

Tương phản với nhận định ngoại tuyến.

lớp đầu ra

#fundamentals

Lớp "cuối cùng" của mạng nơron. Lớp đầu ra chứa kết quả dự đoán.

Hình minh hoạ sau đây cho thấy một mạng nơron sâu nhỏ với một lớp đầu vào, hai lớp ẩn và một lớp đầu ra:

Một mạng nơron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra. Lớp đầu vào bao gồm hai đặc điểm. Lớp ẩn đầu tiên bao gồm 3 tế bào thần kinh và lớp ẩn thứ hai bao gồm 2 tế bào thần kinh. Lớp đầu ra bao gồm một nút duy nhất.

khái quát hoá kém

#fundamentals

Tạo một mô hình khớp với dữ liệu huấn luyện đến mức mô hình không thể dự đoán chính xác dữ liệu mới.

Quy trình chuẩn hoá có thể làm giảm tình trạng phù hợp quá mức. Việc huấn luyện trên một tập dữ liệu huấn luyện lớn và đa dạng cũng có thể làm giảm tình trạng thích ứng quá mức.

Điểm

gấu trúc

#fundamentals

API phân tích dữ liệu theo cột được xây dựng dựa trên numpy. Nhiều khung máy học, bao gồm cả TensorFlow, hỗ trợ cấu trúc dữ liệu pandas làm dữ liệu đầu vào. Hãy xem tài liệu về pandas để biết thông tin chi tiết.

tham số

#fundamentals

Trọng sốđộ lệch mà mô hình học được trong quá trình huấn luyện. Ví dụ: trong mô hình biến hồi quy tuyến tính, các tham số bao gồm độ lệch (b) và tất cả các trọng số (w1, w2, v.v.) theo công thức sau:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Ngược lại, tham số siêu dữ liệu là các giá trị mà bạn (hoặc dịch vụ điều chỉnh tham số siêu dữ liệu) cung cấp cho mô hình. Ví dụ: tốc độ học là một tham số siêu dữ liệu.

lớp dương

#fundamentals

Lớp mà bạn đang kiểm thử.

Ví dụ: lớp dương tính trong mô hình ung thư có thể là "u". Lớp dương trong một bộ phân loại email có thể là "thư rác".

Tương phản với lớp âm.

xử lý hậu kỳ

#fairness
#fundamentals

Điều chỉnh đầu ra của mô hình sau khi mô hình đã chạy. Bạn có thể sử dụng quy trình xử lý hậu kỳ để thực thi các quy tắc ràng buộc về tính công bằng mà không cần sửa đổi mô hình.

Ví dụ: bạn có thể áp dụng quy trình xử lý sau cho một bộ phân loại nhị phân bằng cách đặt ngưỡng phân loại sao cho bình đẳng về cơ hội được duy trì cho một số thuộc tính bằng cách kiểm tra xem tỷ lệ dương tính thực sự có giống nhau đối với tất cả các giá trị của thuộc tính đó hay không.

dự đoán

#fundamentals

Đầu ra của mô hình. Ví dụ:

  • Dự đoán của mô hình phân loại nhị phân là lớp tích cực hoặc lớp tiêu cực.
  • Kết quả dự đoán của mô hình phân loại đa lớp là một lớp.
  • Kết quả dự đoán của mô hình hồi quy tuyến tính là một con số.

nhãn đại diện

#fundamentals

Dữ liệu dùng để ước tính các nhãn không có sẵn trực tiếp trong tập dữ liệu.

Ví dụ: giả sử bạn phải huấn luyện một mô hình để dự đoán mức độ căng thẳng của nhân viên. Tập dữ liệu của bạn chứa nhiều tính năng dự đoán nhưng không chứa nhãn có tên mức độ căng thẳng. Không nản lòng, bạn chọn "tai nạn tại nơi làm việc" làm nhãn đại diện cho mức độ căng thẳng. Xét cho cùng, những nhân viên chịu nhiều áp lực sẽ gặp nhiều tai nạn hơn so với những nhân viên bình tĩnh. Có phải vậy không? Có thể số vụ tai nạn tại nơi làm việc thực sự tăng và giảm vì nhiều lý do.

Ví dụ thứ hai: giả sử bạn muốn is it raining? (có mưa không?) là nhãn Boolean cho tập dữ liệu của mình, nhưng tập dữ liệu đó không chứa dữ liệu về mưa. Nếu có ảnh, bạn có thể thiết lập ảnh người dân cầm ô làm nhãn đại diện cho câu lệnh có mưa không? Đó có phải là một nhãn proxy tốt không? Có thể, nhưng người dân ở một số nền văn hoá có thể mang ô để chống nắng nhiều hơn là chống mưa.

Nhãn proxy thường không hoàn hảo. Khi có thể, hãy chọn nhãn thực tế thay vì nhãn proxy. Tuy nhiên, khi không có nhãn thực tế, hãy chọn nhãn proxy rất cẩn thận, chọn ứng cử viên nhãn proxy ít tệ nhất.

Điểm

RAG

#fundamentals

Viết tắt của tạo dữ liệu tăng cường truy xuất.

người đánh giá

#fundamentals

Một người cung cấp nhãn cho ví dụ. "Người chú thích" là một tên gọi khác của người đánh giá.

Rectified Linear Unit (ReLU)

#fundamentals

Hàm kích hoạt có hành vi sau:

  • Nếu giá trị đầu vào là âm hoặc 0, thì kết quả sẽ là 0.
  • Nếu giá trị đầu vào là dương, thì giá trị đầu ra bằng với giá trị đầu vào.

Ví dụ:

  • Nếu giá trị đầu vào là -3, thì kết quả sẽ là 0.
  • Nếu giá trị đầu vào là +3, thì kết quả sẽ là 3.0.

Dưới đây là biểu đồ của ReLU:

Biểu đồ Descartes của hai đường. Dòng đầu tiên có giá trị y không đổi là 0, chạy dọc theo trục x từ -vô cực,0 đến 0,-0.
          Dòng thứ hai bắt đầu tại 0,0. Đường này có độ dốc là +1, vì vậy, nó chạy từ 0,0 đến +vô cực, +vô cực.

ReLU là một hàm kích hoạt rất phổ biến. Mặc dù có hành vi đơn giản, nhưng ReLU vẫn cho phép mạng nơron học các mối quan hệ không tuyến tính giữa các đặc điểmnhãn.

mô hình hồi quy

#fundamentals

Nói một cách không chính thức, mô hình tạo ra dự đoán dạng số. (Ngược lại, mô hình phân loại sẽ tạo ra một dự đoán về lớp.) Ví dụ: sau đây là tất cả các mô hình hồi quy:

  • Mô hình dự đoán giá trị của một ngôi nhà nhất định bằng Euro, chẳng hạn như 423.000.
  • Mô hình dự đoán tuổi thọ của một cây nhất định tính bằng năm, chẳng hạn như 23,2.
  • Mô hình dự đoán lượng mưa tính bằng inch sẽ rơi ở một thành phố nhất định trong 6 giờ tới, chẳng hạn như 0,18.

Hai loại mô hình hồi quy phổ biến là:

Không phải mọi mô hình đưa ra kết quả dự đoán bằng số đều là mô hình hồi quy. Trong một số trường hợp, dự đoán dạng số thực sự chỉ là một mô hình phân loại có tên lớp dạng số. Ví dụ: mô hình dự đoán mã bưu chính dạng số là mô hình phân loại, chứ không phải mô hình hồi quy.

điều hoà

#fundamentals

Mọi cơ chế giúp giảm hiệu ứng nạp dữ liệu quá mức. Các loại quy tắc chuẩn hoá phổ biến bao gồm:

Bạn cũng có thể xác định quy trình chuẩn hoá là hình phạt đối với độ phức tạp của mô hình.

tốc độ điều hoà

#fundamentals

Một số chỉ định tầm quan trọng tương đối của việc điều chỉnh trong quá trình huấn luyện. Việc tăng tỷ lệ chuẩn hoá sẽ làm giảm hiệu ứng phù hợp quá mức nhưng có thể làm giảm khả năng dự đoán của mô hình. Ngược lại, việc giảm hoặc bỏ qua tỷ lệ chuẩn hoá sẽ làm tăng tình trạng thích ứng quá mức.

ReLU

#fundamentals

Viết tắt của Rectified Linear Unit (Đơn vị tuyến tính được sửa đổi).

tạo dữ liệu tăng cường khả năng truy xuất (RAG)

#fundamentals

Một kỹ thuật để cải thiện chất lượng đầu ra của mô hình ngôn ngữ lớn (LLM) bằng cách căn cứ vào các nguồn kiến thức được truy xuất sau khi mô hình được huấn luyện. RAG giúp cải thiện độ chính xác của câu trả lời của LLM bằng cách cung cấp cho LLM đã huấn luyện quyền truy cập vào thông tin được truy xuất từ các cơ sở tri thức hoặc tài liệu đáng tin cậy.

Sau đây là một số lý do phổ biến để sử dụng phương pháp tạo nội dung được tăng cường bằng tính năng truy xuất:

  • Tăng độ chính xác về mặt thực tế của các câu trả lời do mô hình tạo ra.
  • Cấp cho mô hình quyền truy cập vào kiến thức mà mô hình chưa được huấn luyện.
  • Thay đổi kiến thức mà mô hình sử dụng.
  • Cho phép mô hình trích dẫn nguồn.

Ví dụ: giả sử một ứng dụng hóa học sử dụng PaLM API để tạo bản tóm tắt liên quan đến các truy vấn của người dùng. Khi phần phụ trợ của ứng dụng nhận được một truy vấn, phần phụ trợ sẽ:

  1. Tìm kiếm ("truy xuất") dữ liệu liên quan đến cụm từ tìm kiếm của người dùng.
  2. Thêm ("mở rộng") dữ liệu hóa học có liên quan vào truy vấn của người dùng.
  3. Hướng dẫn LLM tạo bản tóm tắt dựa trên dữ liệu đã thêm.

Đường cong ROC (đường cong đặc trưng hoạt động của bộ thu)

#fundamentals

Biểu đồ tỷ lệ dương tính thực sự so với tỷ lệ dương tính giả cho nhiều ngưỡng phân loại trong phân loại nhị phân.

Hình dạng của đường cong ROC cho biết khả năng của mô hình phân loại nhị phân trong việc tách các lớp dương tính khỏi các lớp âm tính. Ví dụ: giả sử một mô hình phân loại nhị phân tách biệt hoàn toàn tất cả các lớp âm tính với tất cả các lớp dương tính:

Một đường số có 8 ví dụ dương ở bên phải và
          7 ví dụ âm ở bên trái.

Đường cong ROC cho mô hình trước có dạng như sau:

Đường cong ROC. Trục x là Tỷ lệ dương tính giả và trục y là Tỷ lệ dương tính thật. Đường cong có hình chữ L ngược. Đường cong bắt đầu tại (0,0) và đi thẳng lên (0,1). Sau đó, đường cong sẽ đi từ (0,1) đến (1,1).

Ngược lại, hình minh hoạ sau đây biểu đồ các giá trị hồi quy logistic thô cho một mô hình tệ hại không thể tách biệt các lớp âm với các lớp dương:

Một đường số có các ví dụ dương và lớp âm lẫn lộn hoàn toàn.

Đường cong ROC cho mô hình này có dạng như sau:

Đường cong ROC, thực chất là một đường thẳng từ (0,0) đến (1,1).

Trong khi đó, trở lại thực tế, hầu hết các mô hình phân loại nhị phân đều tách các lớp dương và âm ở một mức độ nào đó, nhưng thường không hoàn hảo. Do đó, một đường cong ROC điển hình nằm ở đâu đó giữa hai điểm cực đoan:

Đường cong ROC. Trục x là Tỷ lệ dương tính giả và trục y là Tỷ lệ dương tính thật. Đường cong ROC gần giống với một vòng cung không ổn định
          đi qua các điểm la bàn từ Tây sang Bắc.

Theo lý thuyết, điểm trên đường cong ROC gần nhất với (0,0,1,0) sẽ xác định ngưỡng phân loại lý tưởng. Tuy nhiên, một số vấn đề thực tế khác ảnh hưởng đến việc lựa chọn ngưỡng phân loại lý tưởng. Ví dụ: có thể kết quả âm tính giả gây ra nhiều phiền toái hơn kết quả dương tính giả.

Một chỉ số dạng số có tên là AUC tóm tắt đường cong ROC thành một giá trị dấu phẩy động duy nhất.

Sai số trung bình bình phương (RMSE)

#fundamentals

Căn bậc hai của Sai số bình phương trung bình.

S

hàm sigmoid

#fundamentals

Một hàm toán học "nén" một giá trị đầu vào vào một phạm vi bị ràng buộc, thường là từ 0 đến 1 hoặc -1 đến +1. Tức là bạn có thể truyền bất kỳ số nào (2, 1 triệu, âm tỷ, bất kỳ) vào hàm sigmoid và kết quả vẫn nằm trong phạm vi ràng buộc. Biểu đồ của hàm kích hoạt sigmoid có dạng như sau:

Biểu đồ cong hai chiều với các giá trị x trải dài từ miền -vô cực đến +dương, trong khi các giá trị y trải dài từ gần 0 đến gần 1. Khi x là 0, y là 0,5. Độ dốc của đường cong luôn dương, với độ dốc cao nhất tại 0,0,5 và độ dốc giảm dần khi giá trị tuyệt đối của x tăng lên.

Hàm sigmoid có một số ứng dụng trong học máy, bao gồm:

softmax

#fundamentals

Hàm xác định xác suất cho mỗi lớp có thể có trong một mô hình phân loại nhiều lớp. Các xác suất cộng lại chính xác là 1.0. Ví dụ: bảng sau đây cho thấy cách softmax phân phối các xác suất khác nhau:

Hình ảnh là... Xác suất
chó 0,85
mèo 0,13
con ngựa 0,02

Softmax còn được gọi là softmax đầy đủ.

Tương phản với lấy mẫu ứng viên.

tính năng thưa

#language
#fundamentals

Một tính năng có giá trị chủ yếu là 0 hoặc trống. Ví dụ: một đặc điểm chứa một giá trị 1 và một triệu giá trị 0 là thưa thớt. Ngược lại, tính năng dày đặc có các giá trị chủ yếu không phải là 0 hoặc trống.

Trong học máy, có một số lượng đáng ngạc nhiên các đặc điểm là đặc điểm thưa thớt. Các tính năng phân loại thường là các tính năng thưa. Ví dụ: trong số 300 loài cây có thể có trong một khu rừng, một ví dụ duy nhất có thể chỉ xác định được một cây phong. Hoặc trong số hàng triệu video có thể có trong thư viện video, một ví dụ duy nhất có thể chỉ xác định được "Casablanca".

Trong một mô hình, bạn thường biểu thị các tính năng thưa thớt bằng mã hoá one-hot. Nếu mã hoá one-hot có kích thước lớn, bạn có thể đặt lớp nhúng lên trên mã hoá one-hot để tăng hiệu quả.

biểu diễn thưa

#language
#fundamentals

Chỉ lưu trữ (các) vị trí của các phần tử khác 0 trong một đặc điểm thưa thớt.

Ví dụ: giả sử một đặc điểm phân loại có tên species xác định 36 loài cây trong một khu rừng cụ thể. Giả sử thêm rằng mỗi ví dụ chỉ xác định một loài.

Bạn có thể sử dụng một vectơ một chiều để biểu thị các loài cây trong mỗi ví dụ. Một vectơ một chiều sẽ chứa một 1 (để biểu thị một loài cây cụ thể trong ví dụ đó) và 35 0 (để biểu thị 35 loài cây không trong ví dụ đó). Vì vậy, cách biểu thị một nóng của maple có thể có dạng như sau:

Một vectơ trong đó các vị trí từ 0 đến 23 giữ giá trị 0, vị trí 24 giữ giá trị 1 và các vị trí từ 25 đến 35 giữ giá trị 0.

Ngoài ra, cách biểu diễn thưa thớt chỉ xác định vị trí của một loài cụ thể. Nếu maple ở vị trí 24, thì cách biểu diễn thưa của maple sẽ chỉ là:

24

Lưu ý rằng cách biểu diễn thưa thớt nhỏ gọn hơn nhiều so với cách biểu diễn một nóng.

vectơ thưa

#fundamentals

Một vectơ có các giá trị chủ yếu là 0. Xem thêm tính năng thưa thớtđộ thưa thớt.

tổn thất bình phương

#fundamentals

Từ đồng nghĩa với tổn thất L2.

tĩnh

#fundamentals

Một việc được thực hiện một lần thay vì liên tục. Các thuật ngữ tĩnhngoại tuyến là đồng nghĩa. Sau đây là các cách sử dụng phổ biến của dữ liệu tĩnhngoại tuyến trong học máy:

  • Mô hình tĩnh (hoặc mô hình ngoại tuyến) là mô hình được huấn luyện một lần rồi sử dụng trong một thời gian.
  • Huấn luyện tĩnh (hoặc huấn luyện ngoại tuyến) là quy trình huấn luyện một mô hình tĩnh.
  • Suy luận tĩnh (hoặc suy luận ngoại tuyến) là một quy trình trong đó mô hình tạo ra một loạt dự đoán cùng một lúc.

Tương phản với động.

suy luận tĩnh

#fundamentals

Đồng nghĩa với suy luận ngoại tuyến.

tính chất không đổi

#fundamentals

Một đặc điểm có giá trị không thay đổi trên một hoặc nhiều phương diện, thường là thời gian. Ví dụ: một đặc điểm có các giá trị gần giống nhau trong năm 2021 và năm 2023 cho thấy tính chất không đổi.

Trong thế giới thực, rất ít đặc điểm thể hiện tính chất không đổi. Ngay cả những đặc điểm đồng nghĩa với sự ổn định (như mực nước biển) cũng thay đổi theo thời gian.

Tương phản với tính không ổn định.

phương pháp giảm độ dốc ngẫu nhiên (SGD)

#fundamentals

Thuật toán xuống dốc theo độ dốc trong đó kích thước lô là một. Nói cách khác, SGD huấn luyện trên một ví dụ duy nhất được chọn ngẫu nhiên một cách đồng nhất từ một tập huấn luyện.

học máy có giám sát

#fundamentals

Huấn luyện mô hình từ các đặc điểmnhãn tương ứng. Học máy có giám sát tương tự như việc học một môn học bằng cách nghiên cứu một bộ câu hỏi và câu trả lời tương ứng. Sau khi nắm vững mối liên kết giữa câu hỏi và câu trả lời, học viên có thể đưa ra câu trả lời cho các câu hỏi mới (chưa từng thấy) về cùng một chủ đề.

So sánh với công nghệ học máy không giám sát.

tính năng tổng hợp

#fundamentals

Một tính năng không có trong các tính năng đầu vào, nhưng được tập hợp từ một hoặc nhiều tính năng đầu vào. Sau đây là các phương thức tạo tính năng tổng hợp:

  • Gộp nhóm một đặc điểm liên tục vào các nhóm phạm vi.
  • Tạo điểm giao nhau của tính năng.
  • Nhân (hoặc chia) một giá trị đặc điểm với(các) giá trị đặc điểm khác hoặc với chính giá trị đó. Ví dụ: nếu ab là các tính năng đầu vào, thì sau đây là ví dụ về các tính năng tổng hợp:
    • ab
    • a2
  • Áp dụng hàm siêu việt cho một giá trị đặc điểm. Ví dụ: nếu c là một đặc điểm đầu vào, thì sau đây là ví dụ về các đặc điểm tổng hợp:
    • sin(c)
    • ln(c)

Các tính năng được tạo bằng cách bình thường hoá hoặc điều chỉnh theo tỷ lệ thì không được coi là tính năng tổng hợp.

T

tổn thất kiểm thử

#fundamentals

Một chỉ số thể hiện mất mát của mô hình so với tập dữ liệu kiểm thử. Khi xây dựng một mô hình, bạn thường cố gắng giảm thiểu tổn thất thử nghiệm. Đó là do tổn thất kiểm thử thấp là một tín hiệu chất lượng mạnh hơn so với tổn thất huấn luyện hoặc tổn thất xác thực thấp.

Đôi khi, khoảng cách lớn giữa tổn thất kiểm thử và tổn thất huấn luyện hoặc tổn thất xác thực cho thấy rằng bạn cần tăng tỷ lệ chuẩn hoá.

đào tạo

#fundamentals

Quá trình xác định các thông số lý tưởng (trọng số và độ lệch) bao gồm một mô hình. Trong quá trình huấn luyện, hệ thống sẽ đọc các ví dụ và dần điều chỉnh các tham số. Quá trình huấn luyện sử dụng mỗi ví dụ từ vài lần đến hàng tỷ lần.

tổn thất trong quá trình huấn luyện

#fundamentals

Một chỉ số thể hiện mất mát của mô hình trong một vòng lặp huấn luyện cụ thể. Ví dụ: giả sử hàm tổn thất là Sai số bình phương trung bình. Có thể tổn thất huấn luyện (Lỗi trung bình theo bình phương) cho lần lặp thứ 10 là 2,2 và tổn thất huấn luyện cho lần lặp thứ 100 là 1,9.

Đường cong tổn thất biểu thị tổn thất trong quá trình huấn luyện so với số lần lặp lại. Đường cong tổn thất cung cấp các gợi ý sau đây về quá trình huấn luyện:

  • Độ dốc hướng xuống cho biết mô hình đang cải thiện.
  • Độ dốc lên trên cho thấy mô hình đang trở nên tệ hơn.
  • Độ dốc phẳng ngụ ý rằng mô hình đã đạt đến trạng thái hội tụ.

Ví dụ: Đường cong tổn hao lý tưởng sau đây cho thấy:

  • Độ dốc giảm mạnh trong các lần lặp lại ban đầu, cho thấy mô hình được cải thiện nhanh chóng.
  • Độ dốc dần dần phẳng hơn (nhưng vẫn đi xuống) cho đến gần cuối quá trình huấn luyện, điều này có nghĩa là mô hình tiếp tục cải thiện ở tốc độ chậm hơn một chút so với trong các lần lặp lại ban đầu.
  • Độ dốc phẳng về cuối quá trình huấn luyện, cho thấy sự hội tụ.

Biểu đồ về tổn thất huấn luyện so với số lần lặp lại. Đường cong tổn thất này bắt đầu bằng một độ dốc giảm mạnh. Độ dốc dần dần trở nên phẳng cho đến khi độ dốc trở thành 0.

Mặc dù tổn thất trong quá trình huấn luyện là quan trọng, nhưng bạn cũng nên xem xét tính tổng quát.

độ lệch phân phối dữ liệu huấn luyện

#fundamentals

Sự khác biệt giữa hiệu suất của một mô hình trong quá trình huấn luyện và hiệu suất của cùng một mô hình đó trong quá trình phân phát.

tập huấn luyện

#fundamentals

Tập hợp con của tập dữ liệu dùng để huấn luyện mô hình.

Theo truyền thống, các ví dụ trong tập dữ liệu được chia thành 3 tập con riêng biệt sau:

Lý tưởng nhất là mỗi ví dụ trong tập dữ liệu chỉ thuộc về một trong các tập hợp con trước đó. Ví dụ: một ví dụ không được thuộc cả tập huấn luyện và tập xác thực.

âm tính thật (TN)

#fundamentals

Ví dụ về trường hợp mô hình đã dự đoán chính xác lớp âm tính. Ví dụ: mô hình suy luận rằng một thư email cụ thể không phải là thư rác và thư email đó thực sự không phải là thư rác.

dương tính thật (TP)

#fundamentals

Ví dụ về trường hợp mô hình chính xác dự đoán lớp dương tính. Ví dụ: mô hình suy luận rằng một email cụ thể là thư rác và email đó thực sự là thư rác.

tỷ lệ dương tính thật (TPR)

#fundamentals

Từ đồng nghĩa với gợi nhắc. Đó là:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Tỷ lệ dương tính thật là trục y trong đường cong ROC.

U

không đủ điều kiện

#fundamentals

Tạo một mô hình có khả năng dự đoán kém vì mô hình chưa nắm bắt đầy đủ độ phức tạp của dữ liệu huấn luyện. Có nhiều vấn đề có thể gây ra tình trạng không phù hợp, bao gồm:

dữ liệu không nhãn

#fundamentals

Ví dụ chứa tính năng nhưng không có nhãn. Ví dụ: bảng sau đây cho thấy 3 ví dụ chưa được gắn nhãn của một mô hình định giá nhà, mỗi ví dụ có 3 đặc điểm nhưng không có giá trị nhà:

Số lượng phòng ngủ Số lượng phòng tắm Tuổi nhà
3 2 15
2 1 72
4 2 34

Trong công nghệ học máy có giám sát, các mô hình được huấn luyện dựa trên các ví dụ được gắn nhãn và đưa ra dự đoán dựa trên các ví dụ không được gắn nhãn.

Trong phương pháp học bán giám sátkhông giám sát, các ví dụ chưa được gắn nhãn sẽ được sử dụng trong quá trình huấn luyện.

So sánh ví dụ không có nhãn với ví dụ có nhãn.

học máy không giám sát

#clustering
#fundamentals

Huấn luyện mô hình để tìm các mẫu trong một tập dữ liệu, thường là một tập dữ liệu chưa được gắn nhãn.

Cách sử dụng phổ biến nhất của công nghệ học máy không giám sát là nhóm dữ liệu thành các nhóm ví dụ tương tự. Ví dụ: thuật toán học máy không giám sát có thể phân cụm các bài hát dựa trên nhiều thuộc tính của bản nhạc. Các cụm thu được có thể trở thành dữ liệu đầu vào cho các thuật toán học máy khác (ví dụ: cho một dịch vụ đề xuất nhạc). Tính năng cụm có thể hữu ích khi không có hoặc có rất ít nhãn hữu ích. Ví dụ: trong các lĩnh vực như chống hành vi sai trái và gian lận, cụm có thể giúp con người hiểu rõ hơn về dữ liệu.

Khác với công nghệ học máy có giám sát.

V

xác thực

#fundamentals

Đánh giá ban đầu về chất lượng của một mô hình. Quy trình xác thực kiểm tra chất lượng của kết quả dự đoán của mô hình dựa trên tập hợp dữ liệu xác thực.

Vì tập hợp xác thực khác với tập hợp huấn luyện, nên việc xác thực giúp ngăn chặn hiệu ứng hồi quy quá mức.

Bạn có thể coi việc đánh giá mô hình dựa trên tập hợp dữ liệu xác thực là vòng kiểm thử đầu tiên và đánh giá mô hình dựa trên tập hợp dữ liệu kiểm thử là vòng kiểm thử thứ hai.

tổn thất xác thực

#fundamentals

Một chỉ số thể hiện mất mát của mô hình trên tập hợp dữ liệu xác thực trong một lặp lại cụ thể của quá trình huấn luyện.

Xem thêm đường cong tổng quát hoá.

tập hợp xác thực

#fundamentals

Tập hợp con của tập dữ liệu thực hiện đánh giá ban đầu dựa trên một mô hình đã huấn luyện. Thông thường, bạn sẽ đánh giá mô hình đã huấn luyện dựa trên tập dữ liệu xác thực nhiều lần trước khi đánh giá mô hình dựa trên tập dữ liệu kiểm thử.

Theo truyền thống, bạn chia các ví dụ trong tập dữ liệu thành 3 tập hợp con riêng biệt sau:

Lý tưởng nhất là mỗi ví dụ trong tập dữ liệu chỉ thuộc về một trong các tập hợp con trước đó. Ví dụ: một ví dụ không được thuộc cả tập huấn luyện và tập xác thực.

W

cân nặng

#fundamentals

Giá trị mà một mô hình nhân với một giá trị khác. Huấn luyện là quá trình xác định trọng số lý tưởng của mô hình; dự đoán là quá trình sử dụng các trọng số đã học đó để đưa ra dự đoán.

tổng trọng số

#fundamentals

Tổng của tất cả các giá trị đầu vào có liên quan nhân với trọng số tương ứng. Ví dụ: giả sử dữ liệu đầu vào có liên quan bao gồm:

giá trị đầu vào trọng số đầu vào
2 -1,3
-1 0,6
3 0,4

Do đó, tổng trọng số là:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Tổng trọng số là đối số đầu vào của một hàm kích hoạt.

Z

Chuẩn hoá điểm Z

#fundamentals

Một kỹ thuật điều chỉnh theo tỷ lệ thay thế giá trị tính năng thô bằng giá trị dấu phẩy động biểu thị số độ lệch chuẩn so với giá trị trung bình của tính năng đó. Ví dụ: hãy xem xét một đặc điểm có giá trị trung bình là 800 và độ lệch chuẩn là 100. Bảng sau đây cho thấy cách chuẩn hoá điểm Z sẽ liên kết giá trị thô với điểm Z:

Giá trị thô Điểm Z
800 0
950 +1,5
575 -2,25

Sau đó, mô hình học máy sẽ huấn luyện dựa trên điểm Z cho tính năng đó thay vì dựa trên giá trị thô.