Bảng thuật ngữ về công nghệ máy học: Kiến thức cơ bản về công nghệ học máy

Trang này chứa các thuật ngữ bảng thuật ngữ Nguyên tắc cơ bản về học máy. Đối với tất cả các thuật ngữ trong bảng thuật ngữ, nhấp vào đây.

A

độ chính xác

#fundamentals

Số cụm từ gợi ý phân loại chính xác đã chia với tổng số lần dự đoán. Đó là:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ví dụ: một mô hình đưa ra 40 dự đoán chính xác và 10 dự đoán sai các dự đoán sẽ có độ chính xác như sau:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Phân loại nhị phân cung cấp các tên cụ thể cho các loại cụm từ gợi ý chính xáccụm từ gợi ý không chính xác. Vì vậy, công thức độ chính xác để phân loại nhị phân như sau:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

trong đó:

So sánh và đối chiếu độ chính xác với độ chính xácghi nhớ.

hàm kích hoạt

#fundamentals

Một hàm cho phép mạng nơron học Mối quan hệ nonlinear (phức tạp) giữa các đối tượng và nhãn.

Các hàm kích hoạt phổ biến bao gồm:

Biểu đồ của các hàm kích hoạt không bao giờ là các đường thẳng đơn. Ví dụ: biểu đồ của hàm kích hoạt ReLU bao gồm hai đường thẳng:

Biểu đồ Cartesian gồm hai dòng. Dòng đầu tiên có hằng số
          giá trị y bằng 0, chạy dọc theo trục x từ -vô cực,0 đến 0,-0.
          Dòng thứ hai bắt đầu từ 0,0. Đường này có hệ số góc +1, vì vậy
          nó chạy từ 0,0 đến +vô cùng,+vô cùng.

Biểu đồ của hàm kích hoạt sigmoid có dạng như sau:

Một biểu đồ cong hai chiều có các giá trị x bao phủ miền
          từ vô cực đến + dương, còn giá trị y nằm trong khoảng từ gần 0 đến
          gần 1. Khi x bằng 0, y là 0,5. Độ dốc của đường cong luôn luôn
          là số dương, có độ dốc cao nhất (0,0,5) và giảm dần
          hệ số góc khi giá trị tuyệt đối của x tăng.

trí tuệ nhân tạo

#fundamentals

Một mô hình hoặc chương trình không do con người thực hiện có thể giải quyết những công việc phức tạp. Ví dụ: một chương trình hoặc mô hình dịch văn bản, một chương trình hoặc mô hình xác định bệnh từ hình ảnh phóng xạ đều cho thấy trí tuệ nhân tạo.

Về chính thức, máy học là một trường phụ của thông minh. Tuy nhiên, trong những năm gần đây, một số tổ chức đã bắt đầu sử dụng thuật ngữ trí tuệ nhân tạohọc máy thay thế cho nhau.

AUC (Diện tích dưới đường cong ROC)

#fundamentals

Một số từ 0,0 đến 1,0 đại diện cho của mô hình phân loại nhị phân có thể tách các lớp tích cực khỏi lớp phủ định. AUC càng gần 1.0 thì khả năng phân tách của mô hình càng tốt lớp với nhau.

Ví dụ: hình minh hoạ sau đây cho thấy một mô hình thuật toán phân loại phân tách các lớp dương (hình bầu dục màu xanh lục) khỏi các lớp âm (hình chữ nhật màu tím) một cách hoàn hảo. Mô hình hoàn hảo đến phi thực tế này AUC là 1,0:

Dòng số có 8 ví dụ tích cực ở một bên và
          9 ví dụ tiêu cực.

Ngược lại, hình minh hoạ sau đây cho thấy kết quả của một thuật toán phân loại tạo ra kết quả ngẫu nhiên. Mô hình này có AUC là 0,5:

Một dòng số có 6 ví dụ khẳng định và 6 ví dụ phủ định.
          Chuỗi ví dụ là dương, âm,
          tích cực, tiêu cực, khẳng định, tiêu cực, khẳng định, tiêu cực, khẳng định
          phủ định, tích cực, tiêu cực.

Có, mô hình trước có AUC là 0, 5, không phải 0, 0.

Hầu hết các mô hình đều nằm đâu đó giữa hai cực trị. Ví dụ: mô hình sau đây sẽ tách biệt tích cực với phủ định phần nào, và do đó có AUC trong khoảng từ 0,5 đến 1,0:

Một dòng số có 6 ví dụ khẳng định và 6 ví dụ phủ định.
          Chuỗi ví dụ là phủ định, phủ định, phủ định, phủ định,
          tích cực, tiêu cực, tích cực, khẳng định, tiêu cực, tích cực, tích cực,
          tích cực.

AUC bỏ qua mọi giá trị mà bạn đặt ngưỡng phân loại. Thay vào đó, AUC sẽ xem xét tất cả các ngưỡng phân loại có thể đạt được.

B

lan truyền ngược

#fundamentals

Thuật toán triển khai giảm độ dốc trong mạng nơron.

Việc huấn luyện mạng nơron cần nhiều vòng lặp của chu kỳ hai vòng sau:

  1. Trong lượt chuyển tiếp, hệ thống sẽ xử lý một gói gồm ví dụ để nhận được(các) thông tin dự đoán. Hệ thống so sánh từng thông tin dự đoán cho từng giá trị label. Sự khác biệt giữa thông tin dự đoán và giá trị nhãn là mất cho ví dụ đó. Hệ thống sẽ tổng hợp các tổn thất cho tất cả ví dụ để tính tổng mức hao tổn tổn thất cho lô hiện tại.
  2. Trong quá trình truyền ngược (backpropagation), hệ thống sẽ giảm tổn thất bằng cách điều chỉnh trọng số của tất cả nơ-ron trong tất cả (các) lớp ẩn.

Mạng nơron thường chứa nhiều nơron trong nhiều lớp ẩn. Mỗi nơron này góp phần gây ra tình trạng mất mát tổng thể theo những cách khác nhau. Tính năng lan truyền ngược xác định xem nên tăng hay giảm trọng số áp dụng cho các nơron cụ thể.

Tốc độ học là một hệ số kiểm soát độ mà mỗi lượt lùi sẽ tăng hoặc giảm từng trọng số. Tốc độ học tập cao sẽ làm tăng hoặc giảm mỗi trọng số hơn một tốc độ học tập nhỏ.

Về mặt giải tích, kỹ thuật lan truyền ngược triển khai quy tắc chuỗi. của đại số. Tức là kỹ thuật lan truyền ngược sẽ tính toán đạo hàm một phần của lỗi với cho từng thông số.

Nhiều năm trước, các chuyên viên học máy phải viết mã để triển khai kỹ thuật lan truyền ngược. Giờ đây, các API học máy hiện đại như TensorFlow triển khai kỹ thuật lan truyền ngược cho bạn. Chà!

#fundamentals

Tập hợp ví dụ được sử dụng trong một huấn luyện vòng lặp. Kích thước lô xác định số lượng ví dụ trong một lô.

Xem phần epoch (thời gian bắt đầu của hệ thống) để biết nội dung giải thích về mối liên hệ của một lô một khoảng thời gian bắt đầu của hệ thống.

kích thước lô

#fundamentals

Số lượng ví dụ trong một gói. Ví dụ: nếu kích thước lô là 100 thì mô hình sẽ xử lý 100 ví dụ cho mỗi vòng lặp.

Sau đây là các chiến lược kích thước lô phổ biến:

  • Xuống dốc chuyển màu ngẫu nhiên (SGD), trong đó kích thước lô là 1.
  • Toàn bộ lô, trong đó kích thước lô là số lượng ví dụ trong toàn bộ nhóm huấn luyện. Ví dụ: nếu tập hợp huấn luyện chứa hàng triệu ví dụ, thì kích thước lô sẽ là một triệu ví dụ ví dụ. Toàn bộ lô thường là một chiến lược không hiệu quả.
  • gói nhỏ, trong đó kích thước lô thường nằm trong khoảng 10 và 1000. Lô nhỏ thường là chiến lược hiệu quả nhất.

thiên kiến (đạo đức/công bằng)

#fairness
#fundamentals

1. Định kiến, định kiến hoặc thiên vị đối với một số thứ, con người, hoặc nhóm nhiều hơn các dịch vụ khác. Những thiên kiến này có thể ảnh hưởng đến việc thu thập và diễn giải dữ liệu, thiết kế hệ thống và cách người dùng tương tác thông qua một hệ thống. Các hình thức của loại thiên vị này bao gồm:

2. Lỗi hệ thống do quy trình lấy mẫu hoặc báo cáo gây ra. Các hình thức của loại thiên vị này bao gồm:

Đừng nhầm lẫn với thuật ngữ độ lệch trong các mô hình học máy hoặc thiên kiến dự đoán.

thiên kiến (toán) hoặc thuật ngữ thiên kiến

#fundamentals

Giao điểm hoặc bù trừ so với một nguồn gốc. Độ lệch là một tham số trong các mô hình học máy được ký hiệu bằng một trong sau:

  • b
  • t0

Ví dụ: độ lệch là b trong công thức sau:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Trong một đường hai chiều đơn giản, độ lệch chỉ có nghĩa là "giao điểm y". Ví dụ: độ lệch của đường trong hình minh hoạ sau là 2.

Đồ thị của một đường thẳng có hệ số góc bằng 0,5 và độ chệch (giao điểm y) bằng 2.

Độ lệch tồn tại vì không phải mọi mô hình đều bắt đầu từ nguồn gốc (0,0). Ví dụ: giả sử một công viên giải trí có giá vé vào cửa là 2 Euro và phí thêm 0,5 Euro cho mỗi giờ khách hàng lưu trú. Do đó, một mô hình ánh xạ tổng chi phí có độ lệch là 2 vì chi phí thấp nhất là 2 Euro.

Không nên nhầm lẫn giữa thiên vị với thiên vị trong đạo đức và công bằng hoặc thiên kiến dự đoán.

phân loại nhị phân

#fundamentals

Loại tác vụ phân loại dự đoán một trong hai lớp loại trừ lẫn nhau:

Ví dụ: hai mô hình học máy sau đây đều hoạt động phân loại nhị phân:

  • Một mô hình giúp xác định liệu email spam (lớp khẳng định) hoặc không phải spam (lớp phủ định).
  • Một mô hình đánh giá các triệu chứng y tế để xác định xem một người có bị mắc một bệnh cụ thể (nhóm dương tính) hoặc không mắc bệnh này bệnh (nhóm tiêu cực).

Trái ngược với phương thức phân loại nhiều lớp.

Xem thêm mục hồi quy logisticngưỡng phân loại.

phân giỏ

#fundamentals

Chuyển đổi một tính năng duy nhất thành nhiều đối tượng nhị phân được gọi là ô hoặc thùng, thường dựa trên phạm vi giá trị. Đặc điểm được cắt nhỏ thường là tính năng liên tục.

Ví dụ: thay vì biểu thị nhiệt độ dưới dạng một giá trị duy nhất dấu phẩy động liên tục, bạn có thể xác định các khoảng nhiệt độ vào các nhóm riêng biệt, chẳng hạn như:

  • <= 10 độ C sẽ là nhiệt độ "lạnh" bộ chứa.
  • 11 - 24 độ C sẽ là "ôn hoà" bộ chứa.
  • >= 25 độ C sẽ là nhiệt độ "ấm" bộ chứa.

Mô hình này sẽ xử lý giống nhau mọi giá trị trong cùng một bộ chứa. Cho Ví dụ: giá trị 1322 đều nằm trong bộ chứa ôn hoà, do đó mô hình xử lý hai giá trị giống hệt nhau.

C

dữ liệu phân loại

#fundamentals

Các tính năng có một tập hợp cụ thể các giá trị có thể có. Ví dụ: hãy xem xét một đối tượng phân loại có tên là traffic-light-state. Tính năng này chỉ có thể có một trong ba giá trị sau:

  • red
  • yellow
  • green

Bằng cách biểu thị traffic-light-state dưới dạng một đối tượng phân loại, một mô hình có thể học những tác động khác nhau của red, greenyellow đối với hành vi của người lái xe.

Các đối tượng phân loại đôi khi được gọi là các tính năng tách biệt.

Trái ngược với dữ liệu số.

lớp

#fundamentals

Danh mục có thể thuộc về nhãn. Ví dụ:

  • Trong mô hình phân loại nhị phân phát hiện thư rác thì hai loại này có thể là thư ráckhông phải thư rác.
  • Trong mô hình phân loại nhiều lớp giúp xác định các giống chó, các lớp có thể là poodle, beagle, pug, và cứ tiếp tục như vậy.

Mô hình phân loại dự đoán một lớp. Ngược lại, mô hình hồi quy dự đoán số lượng thay vì một lớp.

mô hình phân loại

#fundamentals

Một mô hình có dự đoán là một lớp. Ví dụ: sau đây là tất cả các mô hình phân loại:

  • Mô hình dự đoán ngôn ngữ của câu nhập (tiếng Pháp? Tiếng Tây Ban Nha? Tiếng Ý?).
  • Một mô hình dự đoán các loài cây (Maple? Cây sồi? Baobab?).
  • Mô hình dự đoán lớp dương hoặc lớp âm cho một giá trị cụ thể tình trạng bệnh lý.

Ngược lại, mô hình hồi quy dự đoán số liệu thay vì lớp.

Hai loại mô hình phân loại phổ biến là:

ngưỡng phân loại

#fundamentals

Trong phân loại nhị phân, từ 0 đến 1 để chuyển đổi đầu ra thô của Mô hình hồi quy logistic thành một thông tin dự đoán cho nhóm giá trị dương hoặc lớp phủ định. Xin lưu ý rằng ngưỡng phân loại là một giá trị do con người chọn, không phải là giá trị được chọn bởi quá trình huấn luyện mô hình.

Mô hình hồi quy logistic đưa ra giá trị thô trong khoảng từ 0 đến 1. Sau đó:

  • Nếu giá trị thô này lớn hơn ngưỡng phân loại, thì lớp dương sẽ được dự đoán.
  • Nếu giá trị thô này nhỏ hơn ngưỡng phân loại, thì lớp âm được dự đoán.

Ví dụ: giả sử ngưỡng phân loại là 0, 8. Nếu giá trị thô là 0,9, thì mô hình dự đoán lớp dương. Nếu giá trị thô là 0, 7 thì mô hình dự đoán lớp âm.

Việc lựa chọn ngưỡng phân loại ảnh hưởng mạnh đến số lượng dương tính giảâm tính giả.

tập dữ liệu bất cân bằng về lớp

#fundamentals

Tập dữ liệu cho một bài toán phân loại trong đó tổng số nhãn của mỗi lớp khác nhau đáng kể. Ví dụ: hãy xem xét một tập dữ liệu phân loại nhị phân có hai nhãn được chia như sau:

  • 1.000.000 nhãn âm
  • 10 nhãn khẳng định

Tỉ số giữa nhãn âm và dương là 100.000 trên 1, do đó là tập dữ liệu không cân bằng về lớp.

Ngược lại, tập dữ liệu sau đây không bị mất cân bằng về lớp vì tỷ lệ giữa số nhãn âm so với số nhãn dương tương đối gần bằng 1:

  • 517 nhãn phủ định
  • 483 nhãn dương

Tập dữ liệu nhiều lớp cũng có thể không cân bằng về lớp. Ví dụ: như sau tập dữ liệu phân loại nhiều lớp cũng không cân bằng về lớp do một nhãn có nhiều ví dụ hơn so với hai ví dụ còn lại:

  • 1.000.000 nhãn có phân loại "xanh"
  • 200 nhãn có lớp "màu tím"
  • 350 nhãn có loại "cam"

Hãy xem thêm về entropy, lớp đa số, và lớp thiểu số.

cắt đoạn

#fundamentals

Một kỹ thuật để xử lý các điểm ngoại lai bằng cách thực hiện một hoặc cả hai tuỳ chọn sau:

  • Giảm các giá trị feature lớn hơn giá trị tối đa xuống đến ngưỡng tối đa đó.
  • Tăng giá trị tính năng nhỏ hơn ngưỡng tối thiểu lên đến ngưỡng đó ngưỡng tối thiểu.

Ví dụ: giả sử rằng có <0, 5% giá trị cho một tính năng cụ thể rơi vào nằm ngoài phạm vi 40–60. Trong trường hợp này, bạn có thể làm như sau:

  • Cắt tất cả các giá trị trên 60 (ngưỡng tối đa) thành chính xác 60.
  • Cắt tất cả các giá trị dưới 40 (ngưỡng tối thiểu) thành chính xác 40.

Các giá trị ngoại lai có thể làm hỏng mô hình, đôi khi gây ra trọng số tràn trong quá trình huấn luyện. Một số điểm ngoại lai cũng có thể làm hỏng đáng kể như độ chính xác. Cắt đoạn là một kỹ thuật phổ biến để hạn chế thiệt hại.

Lực cắt độ dốc Các giá trị gradient trong phạm vi được chỉ định trong quá trình huấn luyện.

ma trận nhầm lẫn

#fundamentals

Bảng NxN tóm tắt số lượng dự đoán chính xác và không chính xác mà mô hình phân loại tạo ra. Ví dụ: hãy xem xét ma trận nhầm lẫn sau đây cho một mô hình phân loại nhị phân:

Khối u (dự đoán) Không phải khối u (dự đoán)
Khối u (dữ liệu thực tế) 18 (TP) 1 (FN)
Không phải khối u (sự thật) 6 (FP) 452 (TN)

Ma trận nhầm lẫn trước đó cho thấy những điều sau:

  • Trong số 19 dự đoán mà thông tin thực tế là Tumor, mô hình được phân loại chính xác 18 và phân loại không chính xác 1.
  • Trong số 458 dự đoán mà theo đó sự thật thực tế là Không phải khối u, mô hình phân loại chính xác 452 và phân loại không chính xác 6.

Ma trận nhầm lẫn cho phân loại nhiều lớp có thể giúp bạn xác định các quy luật sai lầm. Ví dụ: hãy xem xét ma trận nhầm lẫn sau cho lớp 3 mô hình phân loại nhiều lớp phân loại 3 loại mống mắt khác nhau (Virginica, Versicolor và Setosa). Khi sự thật là Virginica, ma trận nhầm lẫn cho thấy mô hình có nhiều khả năng nhầm lẫn dự đoán Versicolor hơn Setosa:

  Setosa (dự đoán) Versicolor (dự đoán) Virginica (dự đoán)
Setosa (sự thật trên mặt đất) 88 12 0
Versicolor (thực tế) 6 141 7
Virginica (sự thật) 2 27 109

Một ví dụ khác là ma trận nhầm lẫn có thể cho biết rằng một mô hình đã được huấn luyện nhận ra các chữ số viết tay có xu hướng dự đoán nhầm số 9 thay vì 4, hoặc dự đoán nhầm 1 thay vì 7.

Ma trận nhầm lẫn chứa đủ thông tin để tính toán nhiều chỉ số hiệu suất, bao gồm cả độ chính xácghi nhớ.

tính chất liên tục

#fundamentals

Tính năng dấu phẩy động với phạm vi vô hạn có thể các giá trị, chẳng hạn như nhiệt độ hoặc trọng lượng.

Tương phản với tính năng tách biệt.

sự hội tụ

#fundamentals

Trạng thái đạt khi các giá trị giảm thay đổi rất ít hoặc không hề đơn giản với từng vòng lặp. Ví dụ: như sau đường cong mất cho thấy sự hội tụ ở khoảng 700 lần lặp:

Cốt truyện Descartes. Trục X biểu thị sự mất mát. Trục Y là số chương trình huấn luyện
          lặp lại. Tỷ lệ mất mát rất cao trong vài lần lặp lại đầu tiên, nhưng
          giảm mạnh. Sau khoảng 100 lần lặp lại, lượng mất mát vẫn là
          giảm dần nhưng lại dần dần. Sau khoảng 700 lần lặp lại,
          mức tổn thất vẫn không thay đổi.

Một mô hình sẽ hội tụ khi quá trình huấn luyện bổ sung không diễn ra để cải thiện mô hình này.

Trong học sâu, giá trị tổn hao đôi khi không đổi hoặc gần như vậy cho nhiều lần lặp lại trước khi giảm dần. Trong một khoảng thời gian dài của giá trị tổn hao không đổi, bạn có thể tạm thời hiểu nhầm về sự hội tụ.

Hãy xem thêm mục dừng sớm.

D

DataFrame

#fundamentals

Loại dữ liệu gấu trúc phổ biến để biểu thị tập dữ liệu trong bộ nhớ.

DataFrame tương tự như một bảng hoặc một bảng tính. Mỗi cột của DataFrame có tên (tiêu đề) và mỗi hàng được xác định bằng số duy nhất.

Mỗi cột trong DataFrame có cấu trúc như một mảng 2D, ngoại trừ việc mỗi cột có thể được chỉ định một loại dữ liệu riêng.

Xem thêm Thông tin tham khảo về pandas.DataFrame .

tập dữ liệu hoặc tập dữ liệu

#fundamentals

Một tập hợp dữ liệu thô, thường (nhưng không chỉ gồm) được sắp xếp trong một trong các định dạng sau:

  • một bảng tính
  • tệp ở định dạng CSV (giá trị được phân tách bằng dấu phẩy)

mô hình sâu

#fundamentals

Một mạng nơron chứa nhiều hơn một lớp ẩn.

Mô hình sâu còn được gọi là mạng nơron sâu.

Tương phản với mô hình rộng.

tính chất mật độ cao

#fundamentals

Một tính năng trong đó hầu hết hoặc tất cả giá trị khác 0, thường là một Tensor gồm các giá trị dấu phẩy động. Ví dụ: như sau Tensor có 10 nguyên tố dày đặc vì 9 giá trị của nó khác 0:

8 3 7 5 2 4 0 4 9 6

Tương phản với tính năng thưa.

chiều sâu

#fundamentals

Tổng của những giá trị sau trong mạng nơron:

Ví dụ: một mạng nơron có 5 lớp ẩn và 1 lớp đầu ra có độ sâu là 6.

Lưu ý rằng lớp đầu vào không chiều sâu ảnh hưởng.

tính chất rời rạc

#fundamentals

Một tính năng có một tập hợp hữu hạn các giá trị có thể có. Ví dụ: một đối tượng có giá trị chỉ có thể là động vật, rau hoặc khoáng sản là riêng biệt (hoặc phân loại).

Tương phản với tính năng liên tục.

linh động

#fundamentals

Việc nào đó được thực hiện thường xuyên hoặc liên tục. Các cụm từ độngtrực tuyến là các từ đồng nghĩa với công nghệ học máy. Sau đây là những cách sử dụng phổ biến của tính năng độngtrực tuyến trong máy đang học:

  • Mô hình động (hoặc mô hình trực tuyến) là một mô hình được đào tạo lại thường xuyên hoặc liên tục.
  • Đào tạo động (hoặc đào tạo trực tuyến) là quá trình đào tạo một cách thường xuyên hoặc liên tục.
  • Suy luận động (hoặc suy luận trực tuyến) là quá trình tạo thông tin dự đoán theo yêu cầu.

mô hình linh động

#fundamentals

Một mô hình diễn ra thường xuyên (thậm chí có thể liên tục) được đào tạo lại. Mô hình linh động là "học viên suốt đời" để liên tục thích ứng với dữ liệu không ngừng thay đổi. Mô hình động còn được gọi là mô hình trực tuyến.

Tương phản với mô hình tĩnh.

E

dừng sớm

#fundamentals

Phương pháp chính thức liên quan đến việc kết thúc huấn luyện trước khi ngừng huấn luyện kết thúc đang giảm. Khi dừng sớm, bạn chủ ý ngừng huấn luyện mô hình khi tổn thất trên tập dữ liệu xác thực bắt đầu xảy ra increase; tức là, khi hiệu suất tổng quát hoá kém hơn.

lớp nhúng

#language
#fundamentals

Một lớp ẩn đặc biệt huấn luyện trên tính năng phân loại chiều cao để tìm hiểu dần vectơ nhúng chiều dưới. Một tầng nhúng cho phép mạng nơron huấn luyện hiệu quả hơn hiệu quả hơn so với việc chỉ đào tạo về tính năng phân loại chiều cao.

Ví dụ, Trái đất hiện hỗ trợ khoảng 73.000 loài cây. Giả sử loài cây là một tính năng trong mô hình của bạn, do đó, lớp đầu vào bao gồm vectơ một nóng 73.000 dài. Ví dụ: có thể baobab sẽ được biểu thị như sau:

Một mảng có 73.000 phần tử. 6.232 phần tử đầu tiên chứa giá trị
     0. Phần tử tiếp theo chứa giá trị 1. 66.767 nguyên tố cuối cùng giữ
     giá trị bằng 0.

Mảng 73.000 phần tử là rất dài. Nếu bạn không thêm lớp nhúng vào mô hình, việc huấn luyện sẽ tốn rất nhiều thời gian do nhân 72.999 số không. Có thể bạn nên chọn lớp nhúng để đưa vào gồm 12 phương diện. Do đó, lớp nhúng sẽ dần học một vectơ nhúng mới cho mỗi loài cây.

Trong một số trường hợp nhất định, thao tác băm là giải pháp thay thế hợp lý vào lớp nhúng.

thời gian bắt đầu của hệ thống

#fundamentals

Một lượt huấn luyện đầy đủ cho toàn bộ nhóm huấn luyện sao cho mỗi ví dụ đã được xử lý một lần.

Một thời gian bắt đầu của hệ thống đại diện cho N/kích thước lô huấn luyện vòng lặp, trong đó N là tổng số ví dụ.

Ví dụ: giả sử như sau:

  • Tập dữ liệu này có 1.000 ví dụ.
  • Kích thước lô là 50 ví dụ.

Do đó, một thời gian bắt đầu của hệ thống sẽ yêu cầu 20 lần lặp lại:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

ví dụ

#fundamentals

Giá trị của một hàng features và có thể là một nhãn. Ví dụ ở học có giám sát thuộc hai loại danh mục chung:

  • Một ví dụ có gắn nhãn bao gồm một hoặc nhiều tính năng và một nhãn. Các ví dụ có gắn nhãn sẽ được dùng trong quá trình huấn luyện.
  • Một ví dụ chưa được gắn nhãn bao gồm một hoặc nhiều tính năng hơn nhưng không có nhãn. Các ví dụ không được gắn nhãn sẽ được sử dụng trong quá trình suy luận.

Ví dụ: giả sử bạn đang huấn luyện một mô hình để xác định mức độ ảnh hưởng về điều kiện thời tiết tại điểm kiểm tra của học sinh. Dưới đây là ba ví dụ có gắn nhãn:

Tính năng Hãng nhạc
Nhiệt độ Độ ẩm Áp lực Điểm kiểm tra
15 47 998 Tốt
19 34 1020 Rất tốt
18 92 1012 Kém

Dưới đây là ba ví dụ chưa gắn nhãn:

Nhiệt độ Độ ẩm Áp lực  
12 62 1014  
21 47 1017  
19 41 1021  

Hàng của một tập dữ liệu thường là nguồn thô để lấy ví dụ. Tức là một ví dụ thường bao gồm một tập hợp con các cột trong tập dữ liệu. Ngoài ra, các tính năng trong một ví dụ cũng có thể bao gồm tính năng tổng hợp, chẳng hạn như sử dụng nhiều tính năng.

F

âm tính giả (FN)

#fundamentals

Một ví dụ trong đó mô hình dự đoán nhầm lớp phủ định. Ví dụ: mô hình dự đoán rằng một email cụ thể không phải là spam (lớp phủ định), nhưng email đó thực sự là thư rác.

dương tính giả (FP)

#fundamentals

Một ví dụ trong đó mô hình dự đoán nhầm lớp học tích cực. Ví dụ: mô hình này dự đoán một email cụ thể là thư rác (loại email tích cực), nhưng email thực ra không phải là thư rác.

tỷ lệ dương tính giả (FPR)

#fundamentals

Tỷ lệ các ví dụ phủ định thực tế mà mô hình gặp phải đã dự đoán cho nhóm có giá trị dương. Công thức sau đây tính giá trị sai tỷ lệ dương:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Tỷ lệ dương tính giả là trục x trong đường cong ROC.

đối tượng

#fundamentals

Biến đầu vào cho mô hình học máy. Ví dụ bao gồm một hoặc nhiều tính năng. Ví dụ: giả sử bạn đang huấn luyện một để xác định ảnh hưởng của điều kiện thời tiết đến điểm bài kiểm tra của học sinh. Bảng sau đây trình bày ba ví dụ, mỗi ví dụ có chứa 3 tính năng và 1 nhãn:

Tính năng Hãng nhạc
Nhiệt độ Độ ẩm Áp lực Điểm kiểm tra
15 47 998 92
19 34 1020 84
18 92 1012 87

Tương phản với nhãn.

hình chữ thập

#fundamentals

Một tính năng tổng hợp hình thành bằng cách "kết hợp" Các tính năng phân loại hoặc phân loại.

Ví dụ: cân nhắc "dự báo tâm trạng" mô hình biểu thị nhiệt độ bằng một trong bốn nhóm sau:

  • freezing
  • chilly
  • temperate
  • warm

Và biểu thị tốc độ gió ở một trong ba nhóm sau:

  • still
  • light
  • windy

Khi không có đối tượng giao cắt, mô hình tuyến tính sẽ huấn luyện độc lập trên mỗi trước 7 nhóm khác nhau. Vì vậy, mô hình huấn luyện trên, chẳng hạn như freezing độc lập với quá trình huấn luyện về, chẳng hạn như windy

Ngoài ra, bạn có thể tạo một đường chéo đặc trưng của nhiệt độ và tốc độ gió. Tính năng tổng hợp này sẽ có 12 khả năng sau giá trị:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Nhờ có các hình chữ thập, mô hình có thể học được điểm khác biệt về tâm trạng trong khoảng từ freezing-windy ngày đến freezing-still ngày.

Nếu bạn tạo một tính năng tổng hợp từ hai tính năng mà mỗi tính năng đều có rất nhiều nhiều nhóm khác nhau, thì kết quả của tính năng này sẽ có số lượng các tổ hợp có thể có. Ví dụ: nếu một đối tượng có 1.000 nhóm và tính năng khác có 2.000 bộ chứa, kết quả tính năng chéo có 2.000.000 .

Về mặt chính thức, chữ thập là một Sản phẩm của Cartesian.

Các kết hợp đối tượng chủ yếu được sử dụng với mô hình tuyến tính và hiếm khi được sử dụng nhờ mạng nơron.

kỹ thuật trích xuất tính chất

#fundamentals
#TensorFlow

Một quy trình bao gồm các bước sau:

  1. Xác định tính năng nào có thể hữu ích trong việc huấn luyện một mô hình.
  2. Chuyển đổi dữ liệu thô từ tập dữ liệu thành các phiên bản hiệu quả của các tính năng đó.

Ví dụ: bạn có thể xác định rằng temperature có thể hữu ích của chúng tôi. Sau đó, bạn có thể thử nghiệm với cách phân nhóm để tối ưu hoá những gì mô hình có thể học từ các phạm vi temperature khác nhau.

Kỹ thuật tính năng đôi khi được gọi là trích xuất tính năng hoặc kết hợp.

bộ tính năng

#fundamentals

Nhóm tính năng mà công nghệ học máy của bạn cung cấp model sẽ được huấn luyện. Ví dụ: mã bưu chính, quy mô tài sản và tình trạng của tài sản có thể bao gồm một bộ tính năng đơn giản cho một mô hình dự đoán giá nhà ở.

vectơ đối tượng

#fundamentals

Mảng các giá trị feature bao gồm ví dụ. Vectơ đối tượng được nhập vào trong khoảng thời gian đào tạo và trong quá trình suy luận. Ví dụ: vectơ đặc trưng của một mô hình có hai đối tượng riêng biệt có thể là:

[0.92, 0.56]

Bốn lớp: một lớp đầu vào, hai lớp ẩn và một lớp đầu ra.
          Lớp đầu vào chứa hai nút, một nút chứa giá trị
          0,92 và mục kia chứa giá trị 0,56.

Mỗi ví dụ cung cấp các giá trị khác nhau cho vectơ đối tượng, do đó giá trị vectơ đối tượng cho ví dụ tiếp theo có thể như:

[0.73, 0.49]

Kỹ thuật tính năng xác định cách thể hiện các đối tượng trong vectơ đối tượng. Ví dụ: một đối tượng phân loại nhị phân có có thể được biểu thị bằng mã hoá một nóng. Trong trường hợp này, phần của vectơ đặc trưng của một ví dụ cụ thể sẽ bao gồm bốn số 0 và một 1.0 ở vị trí thứ ba, như sau:

[0.0, 0.0, 1.0, 0.0, 0.0]

Một ví dụ khác, giả sử mô hình của bạn bao gồm ba tính năng:

  • một tính năng phân loại nhị phân có năm giá trị có thể có được biểu thị bằng mã hoá một nóng; ví dụ: [0.0, 1.0, 0.0, 0.0, 0.0]
  • một tính năng phân loại nhị phân khác có ba giá trị có thể có được biểu thị với mã hoá một nóng; ví dụ: [0.0, 0.0, 1.0]
  • đối tượng dấu phẩy động; ví dụ: 8.3.

Trong trường hợp này, vectơ đặc trưng của từng ví dụ sẽ được biểu diễn theo 9 giá trị. Với các giá trị mẫu trong danh sách trên, giá trị vectơ đối tượng sẽ là:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

vòng hồi tiếp

#fundamentals

Trong công nghệ học máy, một tình huống trong đó những dự đoán của mô hình sẽ ảnh hưởng đến dữ liệu huấn luyện cho cùng một mô hình hoặc mô hình khác. Ví dụ: một mô hình phim sẽ ảnh hưởng đến phim mà mọi người xem. Sau đó, ảnh hưởng đến các mô hình đề xuất phim tiếp theo.

G

tổng quát hoá

#fundamentals

Khả năng của mô hình để đưa ra dự đoán chính xác về các mô hình mới, dữ liệu chưa xem trước đây. Một mô hình có thể tổng quát hoá thì ngược lại của một mô hình quá phù hợp.

đường cong tổng quát

#fundamentals

Biểu đồ về cả mất mát về huấn luyệnmất thông tin xác thực dưới dạng hàm của số lượng vòng lặp.

Đường cong tổng quát có thể giúp bạn phát hiện overfitting (tối ưu hoá). Ví dụ: như sau đường cong tổng quát cho thấy tình trạng quá phù hợp vì không có sự xác thực cuối cùng sẽ cao hơn đáng kể so với lượng mất phí huấn luyện.

Đồ thị Descartes trong đó trục y được gắn nhãn là mất và trục x
          được gắn nhãn lặp lại. Hai lô đất xuất hiện. Một biểu đồ cho thấy
          lỗ hổng huấn luyện và cái còn lại cho thấy lỗ hổng xác thực.
          Hai kế hoạch này có khởi đầu tương tự nhau, nhưng dần dần mất đi huấn luyện
          mức giảm thấp hơn nhiều so với tổn thất xác thực.

phương pháp giảm độ dốc

#fundamentals

Một kỹ thuật toán học để giảm thiểu mất mát. Chế độ xuống dần điều chỉnh liên tục trọng sốđộ lệch, dần dần tìm ra kết hợp tốt nhất để giảm thiểu tổn thất.

Quá trình gốc chuyển màu cũ hơn – lâu đời hơn nhiều – so với công nghệ học máy.

thông tin thực tế

#fundamentals

Thực tế.

Điều thực sự đã xảy ra.

Ví dụ: hãy xem xét phân loại nhị phân mô hình dự đoán liệu một sinh viên trong năm đầu đại học có phải sẽ tốt nghiệp trong vòng 6 năm. Dựa trên cơ sở thực tế của mô hình này là liệu không phải sinh viên đó thực sự tốt nghiệp trong vòng 6 năm.

Số lần bị đánh trúng bóng

lớp ẩn

#fundamentals

Một lớp trong mạng nơron giữa lớp đầu vào (các tính năng) và lớp lớp đầu ra (thông tin dự đoán). Mỗi lớp ẩn bao gồm một hoặc nhiều nơ-ron. Ví dụ: mạng nơron sau đây chứa hai lớp ẩn, gói đầu tiên có 3 nơron và gói thứ hai có 2 nơron:

4 lớp. Lớp đầu tiên là lớp đầu vào chứa hai
          các tính năng AI mới. Lớp thứ hai là lớp ẩn chứa ba
          nơron. Lớp thứ ba là một lớp ẩn chứa hai
          nơron. Lớp thứ tư là lớp đầu ra. Mỗi tính năng
          chứa ba cạnh, mỗi cạnh trỏ tới một nơron khác nhau
          ở lớp thứ hai. Mỗi nơron trong lớp thứ hai
          chứa hai cạnh, mỗi cạnh trỏ tới một nơron khác nhau
          ở lớp thứ ba. Mỗi nơron trong lớp thứ ba chứa
          một cạnh, mỗi cạnh trỏ đến lớp đầu ra.

Một mạng nơron sâu chứa nhiều hơn một lớp ẩn. Ví dụ: hình minh hoạ trên là một mạng nơron sâu vì mô hình này chứa hai lớp ẩn.

siêu tham số

#fundamentals

Các biến mà bạn hoặc dịch vụ điều chỉnh siêu tham số trong quá trình huấn luyện một mô hình liên tiếp. Ví dụ: tốc độ học tập là siêu tham số. Bạn có thể hãy đặt tốc độ học là 0,01 trước một buổi đào tạo. Nếu bạn Nếu xác định rằng 0,01 là quá cao, bạn có thể thiết lập điểm là 0,003 cho lần huấn luyện tiếp theo.

Ngược lại, tham số là các loại khác nhau trọng sốđộ lệch mà mô hình đó học được trong quá trình đào tạo.

I

được phân phối độc lập và đồng nhất (i.i.d)

#fundamentals

Dữ liệu được lấy từ giá trị phân phối không thay đổi và vị trí của mỗi giá trị được vẽ không phụ thuộc vào các giá trị đã được vẽ trước đó. Độ phân giải i.i.d là khí lý tưởng của máy học tập—một cấu trúc toán học hữu ích nhưng hầu như không bao giờ được tìm thấy chính xác trong thế giới thực. Ví dụ: phân phối khách truy cập vào một trang web có thể là i.i.d. trong một khoảng thời gian ngắn; tức là phân phối không trong khoảng thời gian ngắn đó và lượt ghé thăm của một người thường độc lập với lượt truy cập của người khác. Tuy nhiên, nếu bạn mở rộng khoảng thời gian đó, về số lượng khách truy cập trang web.

Hãy xem thêm về vấn đề tình trạng không ổn định.

suy luận

#fundamentals

Trong công nghệ học máy, quá trình đưa ra dự đoán bằng cách áp dụng mô hình đã huấn luyện cho các ví dụ chưa được gắn nhãn.

Suy luận có ý nghĩa hơi khác trong số liệu thống kê. Xem Bài viết trên Wikipedia về suy luận thống kê để biết thông tin chi tiết.

lớp đầu vào

#fundamentals

Lớp của mạng nơron chứa vectơ đối tượng. Tức là lớp đầu vào cung cấp ví dụ cho quy trình đào tạo hoặc suy luận. Ví dụ: lớp đầu vào trong như sau mạng nơron bao gồm hai tính năng:

Bốn lớp: một lớp đầu vào, hai lớp ẩn và một lớp đầu ra.

mức độ diễn giải

#fundamentals

Khả năng giải thích hoặc trình bày lập luận của mô hình học máy trong những cụm từ dễ hiểu đối với con người.

Ví dụ: hầu hết các mô hình hồi quy tuyến tính đều có mức độ cao dễ diễn giải. (Bạn chỉ cần xem trọng số đã huấn luyện cho mỗi feature.) Rừng quyết định cũng dễ diễn giải cao. Tuy nhiên, có một số mô hình cần có hình ảnh phức tạp để dễ diễn giải.

Bạn có thể sử dụng Công cụ diễn giải bài học (LIT) để diễn giải các mô hình học máy.

lặp lại

#fundamentals

Cập nhật duy nhất các tham số của mô hình—mô hình trọng sốđộ lệch trong quá trình đào tạo. Kích thước lô xác định số lượng ví dụ mà mô hình xử lý trong một lần lặp. Ví dụ: nếu kích thước lô là 20 thì mô hình sẽ xử lý 20 ví dụ trước điều chỉnh các thông số.

Khi huấn luyện mạng nơron, một lần lặp lại bao gồm hai lần truyền sau:

  1. Một lượt chuyển tiếp để đánh giá tổn thất trong một lô.
  2. Truyền lùi (backpropagation) để điều chỉnh dựa trên mức tổn thất và tốc độ học.

L

Điều chỉnh L0

#fundamentals

Một loại thông tin chính quy phạt tổng số trọng số khác 0 trong một mô hình. Ví dụ: một mô hình có 11 trọng số khác 0 sẽ bị phạt nhiều hơn một mô hình tương tự có 10 trọng số khác 0.

Quy trình điều chỉnh L0 đôi khi được gọi là quy trình chuẩn hoá L0-norm.

Mất L1

#fundamentals

hàm giảm tính giá trị tuyệt đối sự khác biệt giữa giá trị nhãn thực tế và các giá trị mà một mô hình dự đoán. Ví dụ: đây là tính toán tổn thất L1 đối với một gói là năm ví dụ:

Giá trị thực tế của ví dụ Giá trị dự đoán của mô hình Giá trị tuyệt đối của delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = tổn thất L1

Tổn thất L1 ít nhạy cảm hơn với các điểm ngoại lai hơn L2 tổn thất.

Lỗi tuyệt đối trung bình là giá trị trung bình Mỗi ví dụ về mức giảm 1.

Điều chỉnh L1

#fundamentals

Một loại chính quy phạt trọng số tương ứng với tổng giá trị tuyệt đối của các trọng số. Việc điều chỉnh L1 giúp tăng trọng số của các thuộc tính không liên quan hoặc các tính năng hầu như không liên quan đến chính xác là 0. Một tính năng có trọng số 0 sẽ bị xoá khỏi mô hình một cách hiệu quả.

Trái ngược với quy tắc điều chỉnh L2.

Giảm L2

#fundamentals

hàm mất tính bình phương sự khác biệt giữa giá trị nhãn thực tế và các giá trị mà một mô hình dự đoán. Ví dụ: đây là tính toán tổn thất L2 đối với một gói là năm ví dụ:

Giá trị thực tế của ví dụ Giá trị dự đoán của mô hình Quảng trường delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 tổn thất

Do bình phương, tổn thất L2 làm tăng ảnh hưởng của điểm ngoại lai. Tức là tổn thất L2 phản ứng mạnh mẽ hơn với các dự đoán không chính xác so với Mất L1. Ví dụ: mức giảm L1 cho lô trước đó sẽ là 8 thay vì 16. Lưu ý rằng một ngoại lệ chiếm 9 trên 16.

Mô hình hồi quy thường sử dụng tổn thất L2 làm hàm mất.

Lỗi bình phương trung bình là giá trị trung bình Ví dụ về mức giảm 2. Mất bình phương là một tên khác của tổn thất L2.

Điều chỉnh L2

#fundamentals

Một loại chính quy phạt trọng số tương ứng với tổng bình phương của trọng số. Việc điều chỉnh L2 giúp tăng trọng số giá trị ngoại lai (những có giá trị âm cao hoặc âm thấp) gần 0 nhưng không hoàn toàn đến 0. Các tính năng có giá trị gần với 0 sẽ vẫn còn trong mô hình nhưng không ảnh hưởng nhiều đến dự đoán của mô hình.

Quy trình điều chỉnh L2 luôn cải thiện quá trình tổng quát hoá về mô hình tuyến tính.

Trái ngược với quy tắc điều chỉnh L1.

nhãn

#fundamentals

Trong công nghệ học máy có giám sát, "trả lời" hoặc "kết quả" trong một ví dụ.

Mỗi ví dụ được gắn nhãn bao gồm một hoặc nhiều tính năng và nhãn. Ví dụ: trong thư rác tập dữ liệu phát hiện, nhãn có thể là "thư rác" hoặc "không phải là thư rác". Trong một tập dữ liệu lượng mưa, nhãn này có thể là số lượng mưa đã giảm trong một khoảng thời gian nhất định.

ví dụ có gắn nhãn

#fundamentals

Ví dụ chứa một hoặc nhiều tính nănglabel. Ví dụ: bảng sau hiển thị ba các ví dụ có gắn nhãn từ mô hình định giá nhà, mỗi mô hình có ba tính năng và một nhãn:

Số lượng phòng ngủ Số lượng phòng tắm Tuổi thọ của nhà Giá nhà (nhãn)
3 2 15 $345.000
2 1 72 $179.000
4 2 34 $392.000

Trong công nghệ học máy có giám sát, sẽ huấn luyện dựa trên các ví dụ được gắn nhãn và đưa ra dự đoán về các ví dụ chưa được gắn nhãn.

Tương phản ví dụ được gắn nhãn với các ví dụ chưa gắn nhãn.

hàm lambda

#fundamentals

Từ đồng nghĩa với tỷ lệ chuẩn hoá.

Lambda là một thuật ngữ quá tải. Ở đây, chúng ta đang tập trung vào cụm từ định nghĩa trong mục chính thức.

lớp

#fundamentals

Một tập hợp nơ-ron trong một mạng nơron. Ba loại lớp phổ biến như sau:

Ví dụ: hình minh hoạ sau đây cho thấy một mạng nơron với một lớp đầu vào, hai lớp ẩn và một lớp đầu ra:

Mạng nơron với một lớp đầu vào, hai lớp ẩn và một lớp
          tầng đầu ra. Lớp đầu vào bao gồm hai đối tượng. Đầu tiên
          lớp ẩn gồm ba nơron và lớp ẩn thứ hai
          gồm hai nơron. Lớp đầu ra bao gồm một nút duy nhất.

Trong TensorFlow, lớp cũng là các hàm Python nhận Tensor và các lựa chọn cấu hình làm phương thức nhập và tạo ra các tensor khác làm đầu ra.

tốc độ học

#fundamentals

Số dấu phẩy động cho biết hiệu ứng giảm độ dốc của thuật toán xác định mức độ điều chỉnh trọng số và độ chệch của mỗi vòng lặp. Ví dụ: tốc độ học là 0, 3 sẽ điều chỉnh trọng số và độ lệch mạnh hơn gấp 3 lần so với tốc độ học 0,1.

Tốc độ học là một siêu tham số quan trọng. Nếu bạn đặt tỷ lệ học tập quá thấp, thì việc đào tạo sẽ mất quá nhiều thời gian. Nếu bạn đặt tốc độ học quá cao, việc giảm độ dốc thường gặp khó khăn đạt được mức độ hội tụ.

tuyến tính

#fundamentals

Mối quan hệ giữa hai hoặc nhiều biến có thể chỉ được biểu thị bằng cách cộng và nhân.

Biểu đồ của mối quan hệ tuyến tính là một đường.

Tương phản với nonlinear.

mô hình tuyến tính

#fundamentals

Một mô hình chỉ định một trọng số cho mỗi tính năng để đưa ra dự đoán. (Mô hình tuyến tính cũng kết hợp độ lệch.) Ngược lại, mối quan hệ giữa các tính năng với thông tin dự đoán trong mô hình sâu thường là nonlinear.

Mô hình tuyến tính thường dễ huấn luyện hơn và có thể diễn giải so với mô hình sâu. Tuy nhiên, các mô hình sâu có thể học những mối quan hệ phức tạp giữa các tính năng.

Hồi quy tuyến tínhhồi quy logistic là hai loại mô hình tuyến tính.

hồi quy tuyến tính

#fundamentals

Một loại mô hình học máy đáp ứng cả hai điều kiện sau:

  • Mô hình này là mô hình tuyến tính.
  • Thông tin dự đoán là một giá trị dấu phẩy động. (Đây là hồi quy là một phần của hồi quy tuyến tính.)

Đối chiếu hồi quy tuyến tính với hồi quy logistic. Ngoài ra, hãy đối chiếu sự hồi quy với phân loại.

hồi quy logistic

#fundamentals

Một loại mô hình hồi quy dự đoán một xác suất. Mô hình hồi quy logit có các đặc điểm sau đây:

  • Nhãn này phân loại. Thuật ngữ logistic hồi quy thường đề cập đến hồi quy logistic nhị phân, tức là vào mô hình tính xác suất cho nhãn có hai giá trị có thể có. Một biến thể ít phổ biến hơn, hồi quy logistic đa thức, tính xác suất cho nhãn có nhiều hơn hai giá trị có thể có.
  • Hàm mất trong quá trình huấn luyện là Log Loss (Mất nhật ký). (Bạn có thể đặt nhiều đơn vị tổn thất ghi nhật ký song song cho các nhãn có nhiều hơn hai giá trị có thể có).
  • Mô hình này có kiến trúc tuyến tính chứ không phải mạng nơron sâu. Tuy nhiên, phần còn lại của định nghĩa này cũng áp dụng cho các mô hình sâu dự đoán xác suất cho nhãn phân loại.

Ví dụ: hãy xem xét mô hình hồi quy logistic để tính toán xác suất email đầu vào là thư rác hoặc không phải thư rác. Trong quá trình suy luận, giả sử mô hình dự đoán 0,72. Do đó, đang ước tính:

  • 72% khả năng email là thư rác.
  • 28% khả năng email không phải là thư rác.

Mô hình hồi quy logistic sử dụng cấu trúc hai bước sau đây:

  1. Mô hình này tạo ra dự đoán thô (y') bằng cách áp dụng hàm tuyến tính tính năng nhập.
  2. Mô hình này sử dụng dự đoán thô đó làm dữ liệu đầu vào cho một hàm sigmoid, hàm này chuyển đổi dữ liệu thô cho giá trị dự đoán nằm trong khoảng từ 0 đến 1 và không bao gồm 0 và 1.

Giống như mọi mô hình hồi quy khác, mô hình hồi quy logistic dự đoán một con số. Tuy nhiên, số này thường trở thành một phần của phân loại nhị phân mô hình như sau:

  • Nếu số dự đoán lớn hơn ngưỡng phân loại, mô hình phân loại nhị phân dự đoán lớp dương.
  • Nếu số dự đoán ít hơn ngưỡng phân loại, mô hình phân loại nhị phân dự đoán lớp âm.

Mất nhật ký

#fundamentals

Hàm mất dùng trong tệp nhị phân hồi quy logistic.

tỷ lệ chênh lệch nhật ký

#fundamentals

Lôgarit của xác suất biến cố nào đó.

thua

#fundamentals

Trong quá trình đào tạo về mô hình được giám sát, một thước đo về khoảng cách dự đoán của mô hình được lấy từ nhãn của mô hình đó.

Hàm mất tính giá trị tổn thất.

đường cong mức ngừng sử dụng

#fundamentals

Biểu đồ giảm là hàm của số lượng đào tạo vòng lặp. Biểu đồ sau đây thể hiện mức tổn thất thông thường đường cong:

Một đồ thị Descartes về số lượng mất mát so với số lần lặp lại quá trình huấn luyện, cho thấy
          mức giảm nhanh trong những lần lặp lại đầu tiên, sau đó giảm dần
          rồi giảm dần đều trong vòng lặp cuối cùng.

Đường cong tổn thất có thể giúp bạn xác định thời điểm mô hình hội nghị hoặc trang bị quá mức.

Đường cong tổn thất có thể biểu thị tất cả các loại tổn thất sau đây:

Xem thêm đường cong tổng quát.

hàm mất

#fundamentals

Trong quá trình đào tạo hoặc kiểm thử, để tính toán tổn thất trong một ví dụ. Hàm tổn thất trả về giá trị tổn thất thấp hơn cho những mô hình đưa ra dự đoán tốt hơn là các mô hình đưa ra các dự đoán không hợp lệ.

Mục tiêu của việc huấn luyện thường là giảm thiểu tổn thất mà một hàm mất đi lợi nhuận.

Có nhiều loại hàm mất dữ liệu. Chọn mức tổn thất phù hợp cho loại mô hình mà bạn đang xây dựng. Ví dụ:

M

học máy

#fundamentals

Một chương trình hoặc hệ thống đào tạo model từ dữ liệu đầu vào. Mô hình được huấn luyện có thể đưa ra dự đoán hữu ích từ dữ liệu mới (chưa từng thấy) rút ra từ phân phối giống như phân phối dùng để huấn luyện mô hình.

Công nghệ học máy cũng đề cập đến lĩnh vực nghiên cứu có liên quan bằng các chương trình hoặc hệ thống này.

tầng lớp đa số

#fundamentals

Nhãn phổ biến hơn trong tập dữ liệu không cân bằng về lớp. Ví dụ: Khi cho tập dữ liệu có chứa 99% nhãn âm và 1% nhãn dương, nhãn tiêu cực là nhãn tiêu biểu chiếm đa số.

Tương phản với lớp thiểu số.

lô nhỏ

#fundamentals

Một tập hợp con nhỏ, được chọn ngẫu nhiên trong một được xử lý trong một vòng lặp. Kích thước lô của một lô nhỏ thường là từ 10 đến 1.000 ví dụ.

Ví dụ: giả sử toàn bộ tập huấn luyện (toàn bộ lô) bao gồm 1.000 ví dụ. Giả sử thêm rằng bạn đặt kích thước lô của mỗi lô nhỏ thành 20. Do đó, mỗi lặp lại xác định tổn thất trên ngẫu nhiên 20 trong số 1.000 ví dụ và sau đó điều chỉnh trọng sốđộ lệch cho phù hợp.

Việc tính toán tổn thất trong một lô nhỏ sẽ hiệu quả hơn nhiều so với tất cả các ví dụ trong toàn bộ lô sẽ bị mất.

giai cấp dân tộc thiểu số

#fundamentals

Nhãn ít phổ biến hơn trong tập dữ liệu không cân bằng về lớp. Ví dụ: Khi cho tập dữ liệu có chứa 99% nhãn âm và 1% nhãn dương, nhãn khẳng định là thuộc nhóm thiểu số.

Tương phản với lớp đại diện.

kiểu máy

#fundamentals

Nhìn chung, mọi cấu trúc toán học xử lý dữ liệu đầu vào và trả về đầu ra. Nói theo cách khác, mô hình là tập hợp các tham số và cấu trúc cần thiết để hệ thống đưa ra dự đoán. Trong công nghệ học máy có giám sát, mô hình sẽ lấy ví dụ làm dữ liệu đầu vào và suy ra đề xuất làm dữ liệu đầu ra. Trong công nghệ học máy có giám sát, các mô hình khác nhau đôi chút. Ví dụ:

  • Mô hình hồi quy tuyến tính bao gồm một tập hợp trọng sốđộ thiên vị.
  • Mô hình mạng nơron bao gồm:
    • Một tập hợp lớp ẩn, mỗi lớp có chứa một hoặc tế bào thần kinh khác.
    • Trọng số và độ chệch liên quan đến mỗi nơron.
  • Mô hình cây quyết định bao gồm:
    • Hình dạng của cây; tức là mẫu mà các điều kiện và lá cây nối liền với nhau.
    • Tình trạng và lá cây.

Bạn có thể lưu, khôi phục hoặc tạo bản sao của mô hình.

Công nghệ học máy không giám sát cũng tạo các mô hình, thường là một hàm có thể ánh xạ một mẫu đầu vào đến cụm phù hợp nhất.

phân loại nhiều lớp

#fundamentals

Trong phương pháp học có giám sát, vấn đề về phân loại trong đó tập dữ liệu chứa hơn 2 lớp nhãn. Ví dụ: nhãn trong tập dữ liệu Iris phải là một trong các nhãn sau 3 lớp:

  • Hoa diên vĩ
  • Hoa diên vĩ
  • Hoa diên vĩ

Một mô hình được huấn luyện trên tập dữ liệu Iris nhằm dự đoán loại Iris dựa trên các ví dụ mới là thực hiện phân loại nhiều lớp.

Ngược lại, bài toán phân loại phân biệt chính xác hai là mô hình phân loại nhị phân. Ví dụ: mô hình email dự đoán thư rác hoặc không phải thư rác là mô hình phân loại nhị phân.

Trong các bài toán phân cụm, phân loại nhiều lớp đề cập đến hơn 2 cụm.

Không

lớp phủ định

#fundamentals

Trong phân loại nhị phân, một lớp là được gọi là tích cực và giá trị còn lại được gọi là âm. Lớp dương là đối tượng hoặc sự kiện mà mô hình đang thử nghiệm và lớp phủ định là khả năng khác. Ví dụ:

  • Lớp âm tính trong xét nghiệm y tế có thể là "không phải khối u".
  • Lớp phủ định trong thuật toán phân loại email có thể là "không phải thư rác".

Tương phản với lớp học tích cực.

mạng nơron

#fundamentals

Một mô hình chứa ít nhất một lớp ẩn. Mạng nơron sâu là một loại mạng nơron có chứa nhiều hơn một lớp ẩn. Ví dụ: biểu đồ sau đây cho thấy một mạng nơron sâu chứa hai lớp ẩn.

Mạng nơron với một lớp đầu vào, hai lớp ẩn và một
          tầng đầu ra.

Mỗi nơron trong mạng nơron sẽ kết nối với tất cả các nút trong lớp tiếp theo. Ví dụ: trong biểu đồ trước, lưu ý rằng mỗi nơron trong số ba nơron trong lớp ẩn đầu tiên kết nối riêng rẽ với cả hai nơron trong lớp ẩn thứ hai.

Mạng nơron được triển khai trên máy tính đôi khi được gọi là mạng nơron nhân tạo để phân biệt chúng với mạng nơron có trong não bộ và các hệ thần kinh khác.

Một số mạng nơron có thể bắt chước các mối quan hệ phi tuyến cực kỳ phức tạp giữa các tính năng khác nhau và nhãn.

Xem thêm về mạng nơron tích chậpmạng nơron tái phát.

nơron

#fundamentals

Trong công nghệ học máy, một đơn vị riêng biệt nằm trong lớp ẩn của mạng nơron. Mỗi nơron thực hiện những việc sau hành động hai bước:

  1. Tính tổng có trọng số của các giá trị đầu vào được nhân theo trọng số tương ứng.
  2. Truyền tổng có trọng số dưới dạng dữ liệu đầu vào vào chức năng kích hoạt.

Một nơron trong lớp ẩn đầu tiên chấp nhận dữ liệu đầu vào từ các giá trị của đối tượng trong lớp đầu vào. Nơ-ron trong lớp ẩn bất kỳ bên ngoài phần tử đầu tiên chấp nhận dữ liệu đầu vào từ nơron trong lớp ẩn trước đó. Ví dụ: một nơron trong lớp ẩn thứ hai chấp nhận dữ liệu đầu vào từ nơron trong lớp ẩn đầu tiên.

Hình minh hoạ sau đây làm nổi bật hai nơron và đầu vào.

Mạng nơron với một lớp đầu vào, hai lớp ẩn và một
          tầng đầu ra. Hai nơron được đánh dấu: một trong tế bào đầu tiên
          lớp ẩn và một ở lớp ẩn thứ hai. Các
          nơron trong lớp ẩn đầu tiên nhận dữ liệu đầu vào từ cả hai đối tượng
          trong lớp đầu vào. Tế bào thần kinh được đánh dấu trong lớp ẩn thứ hai
          nhận dữ liệu đầu vào từ mỗi 3 nơron ở ẩn thứ nhất
          lớp.

Tế bào thần kinh trong mạng nơron bắt chước hành vi của các nơron trong não và các bộ phận khác của hệ thần kinh.

nút (mạng nơron)

#fundamentals

Một nơ-ron trong một lớp ẩn.

nonlinear

#fundamentals

Mối quan hệ giữa hai hoặc nhiều biến không thể duy nhất được biểu thị bằng cách cộng và nhân. Mối quan hệ tuyến tính có thể được biểu diễn dưới dạng đường; một mối quan hệ nonlinear không thể được biểu diễn dưới dạng đường. Ví dụ: hãy xem xét hai mô hình mà mỗi mô hình đều liên quan đến một đối tượng vào một nhãn duy nhất. Mô hình bên trái là mô hình tuyến tính và mô hình ở bên phải là phi tuyến tính:

2 lô đất. Mỗi biểu đồ là một đường, vì vậy đây là mối quan hệ tuyến tính.
          Biểu đồ còn lại là một đường cong, vì vậy đây là mối quan hệ phi tuyến tính.

tính không ổn định

#fundamentals

Một đối tượng có các giá trị thay đổi theo một hoặc nhiều phương diện, thường là thời gian. Ví dụ: hãy xem xét các ví dụ sau về tính không ổn định:

  • Số lượng đồ bơi được bán tại một cửa hàng cụ thể sẽ thay đổi theo mùa.
  • Số lượng trái cây được thu hoạch trong một khu vực cụ thể bằng 0 trong hầu hết thời gian trong năm nhưng lớn trong một khoảng thời gian ngắn.
  • Do biến đổi khí hậu, nhiệt độ trung bình hằng năm đang thay đổi.

Tương phản với tính không cố định.

chuẩn hoá

#fundamentals

Nói chung, quá trình chuyển đổi phạm vi thực tế của một biến thành một dải giá trị chuẩn, chẳng hạn như:

  • -1 đến +1
  • 0 đến 1
  • phân phối chuẩn

Ví dụ: giả sử phạm vi giá trị thực tế của một đối tượng nhất định là 800 đến 2.400. Trong quá trình kỹ thuật trích xuất tính năng, bạn có thể chuẩn hoá các giá trị thực tế xuống phạm vi chuẩn, chẳng hạn như từ -1 đến +1.

Chuẩn hoá là một nhiệm vụ phổ biến trong kỹ thuật trích xuất tính chất. Người mẫu thường huấn luyện nhanh hơn (và dự đoán chính xác hơn) khi mỗi đối tượng dạng số trong vectơ đối tượng có gần như cùng phạm vi.

dữ liệu số

#fundamentals

Các đối tượng được biểu thị dưới dạng số nguyên hoặc số có giá trị thực. Ví dụ: một mô hình định giá nhà có thể sẽ đại diện cho kích thước của một ngôi nhà (tính bằng feet vuông hoặc mét vuông) dưới dạng dữ liệu số. Đại diện cho một đối tượng dưới dạng dữ liệu số cho biết rằng các giá trị của đối tượng mối quan hệ toán học với nhãn. Tức là số mét vuông của một ngôi nhà có thể mối quan hệ toán học với giá trị của ngôi nhà.

Không phải tất cả dữ liệu số nguyên đều được biểu diễn dưới dạng dữ liệu số. Ví dụ: mã bưu điện ở một số nơi trên thế giới là số nguyên; tuy nhiên, mã bưu chính số nguyên mã sẽ không được biểu thị dưới dạng dữ liệu số trong mô hình. Đó là vì một mã bưu chính của 20000 không mạnh gấp đôi (hoặc một nửa) so với mã bưu chính của 10000. Hơn nữa, mặc dù các mã bưu chính khác nhau tương quan với giá trị bất động sản, chúng tôi không thể giả định rằng giá trị bất động sản tại mã bưu chính 20000 có giá trị gấp đôi giá trị bất động sản ở mã bưu chính 10000. Mã bưu chính phải được thể hiện dưới dạng dữ liệu phân loại thay thế.

Các đối tượng số đôi khi được gọi là các tính năng liên tục.

O

ngoại tuyến

#fundamentals

Từ đồng nghĩa với tĩnh.

suy luận ngoại tuyến

#fundamentals

Quy trình mô hình tạo một loạt các dự đoán rồi lưu vào bộ nhớ đệm (lưu) những dự đoán đó. Sau đó, ứng dụng có thể truy cập vào dữ liệu dự đoán từ bộ nhớ đệm thay vì chạy lại mô hình.

Chẳng hạn hãy cân nhắc một mô hình tạo ra thông tin dự báo thời tiết tại địa phương (dự đoán) 4 giờ một lần. Sau khi mỗi mô hình chạy, hệ thống sẽ lưu vào bộ nhớ đệm tất cả dự báo thời tiết địa phương. Ứng dụng thời tiết truy xuất dự báo khỏi bộ nhớ đệm.

Suy luận ngoại tuyến còn được gọi là suy luận tĩnh.

Trái ngược với suy luận trực tuyến.

mã hoá một nóng

#fundamentals

Biểu diễn dữ liệu phân loại dưới dạng vectơ trong đó:

  • Một phần tử được đặt thành 1.
  • Tất cả các phần tử khác đều được đặt thành 0.

Phương thức mã hoá một lần thường dùng để biểu thị các chuỗi hoặc giá trị nhận dạng có một tập hợp hữu hạn các giá trị khả dĩ. Ví dụ: giả sử một đối tượng phân loại nhất định có tên Scandinavia có thể có 5 giá trị:

  • "Đan Mạch"
  • "Thuỵ Điển"
  • "Na Uy"
  • "Phần Lan"
  • "Iceland"

Phương thức mã hoá một nóng có thể đại diện cho từng giá trị trong số năm giá trị sau:

country Vectơ
"Đan Mạch" 1 0 0 0 0
"Thuỵ Điển" 0 1 0 0 0
"Na Uy" 0 0 1 0 0
"Phần Lan" 0 0 0 1 0
"Iceland" 0 0 0 0 1

Nhờ phương pháp mã hoá một nhiệt, một mô hình có thể học các kết nối khác nhau dựa trên từng quốc gia trong số 5 quốc gia.

Biểu thị một đối tượng dưới dạng dữ liệu số là thay thế cho mã hoá một nóng. Thật không may, đại diện cho Các quốc gia Bắc Âu theo số lượng không phải là lựa chọn tốt. Ví dụ: hãy xem xét biểu diễn dưới đây bằng số:

  • "Đan Mạch" là 0
  • "Thuỵ Điển" là 1
  • "Na Uy" là 2
  • "Phần Lan" là 3
  • "Iceland" là 4

Với mã hoá số, mô hình sẽ diễn giải các số thô về mặt toán học và sẽ cố gắng rèn luyện dựa trên các con số đó. Tuy nhiên, Iceland không thực sự nhiều gấp đôi (hoặc một nửa) so với mang tên Na Uy, do đó mô hình sẽ đi đến một số kết luận kỳ lạ.

một-với-tất-cả

#fundamentals

Với một bài toán phân loại có N lớp, một dung dịch gồm N riêng biệt thuật toán phân loại nhị phân – một thuật toán phân loại nhị phân cho từng kết quả có thể xảy ra. Ví dụ: với một mô hình phân loại các ví dụ chẳng hạn như động vật, rau củ hoặc khoáng chất, một giải pháp "thay đổi" sẽ mang lại sau đây là 3 thuật toán phân loại nhị phân riêng biệt:

  • động vật so với không động vật
  • rau củ và không nên ăn
  • khoáng sản so với không khoáng chất

trực tuyến

#fundamentals

Từ đồng nghĩa với động.

suy luận trực tuyến

#fundamentals

Tạo thông tin dự đoán theo yêu cầu. Ví dụ: giả sử một ứng dụng truyền dữ liệu đầu vào đến một mô hình và đưa ra yêu cầu cho một truy vấn dự đoán. Hệ thống sử dụng suy luận trực tuyến để phản hồi yêu cầu bằng cách chạy mô hình (và trả về thông tin dự đoán cho ứng dụng).

Trái ngược với suy luận ngoại tuyến.

tầng đầu ra

#fundamentals

"Trận chung kết" lớp của mạng nơron. Lớp đầu ra chứa thông tin dự đoán.

Hình minh hoạ sau đây cho thấy một mạng nơron sâu nhỏ có đầu vào lớp, hai lớp ẩn và một lớp đầu ra:

Mạng nơron với một lớp đầu vào, hai lớp ẩn và một lớp
          tầng đầu ra. Lớp đầu vào bao gồm hai đối tượng. Đầu tiên
          lớp ẩn gồm ba nơron và lớp ẩn thứ hai
          gồm hai nơron. Lớp đầu ra bao gồm một nút duy nhất.

khái quát hoá kém

#fundamentals

Tạo mô hình khớp với dữ liệu huấn luyện chặt chẽ đến mức mô hình không thể đưa ra dự đoán chính xác về dữ liệu mới.

Phương pháp điều chỉnh tần suất có thể giảm tình trạng áp dụng quá mức. Việc tập luyện trên một bộ bài tập lớn và đa dạng cũng có thể giảm thiểu việc tập quá mức.

Điểm

gấu trúc

#fundamentals

API phân tích dữ liệu hướng cột, được xây dựng dựa trên numpy. Nhiều khung máy học, bao gồm cả TensorFlow, hỗ trợ các cấu trúc dữ liệu gấu trúc làm dữ liệu đầu vào. Xem tài liệu về gấu trúc để biết thông tin chi tiết.

tham số

#fundamentals

Các trọng sốđộ lệch mà một mô hình học được trong quá trình đào tạo. Ví dụ: trong một hồi quy tuyến tính, các tham số bao gồm độ lệch (b) và tất cả các trọng số (w1, w2, v.v.) trong công thức sau:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Ngược lại, siêu tham số là các giá trị mà bạn (hoặc dịch vụ xoay siêu tham số) cho mô hình. Ví dụ: tốc độ học tập là một siêu tham số.

lớp giá trị dương

#fundamentals

Lớp mà bạn đang kiểm thử.

Ví dụ: lớp dương tính trong mô hình ung thư có thể là "khối u". Lớp khẳng định trong thuật toán phân loại email có thể là "thư rác".

Tương phản với lớp phủ định.

hậu xử lý

#fairness
#fundamentals

Điều chỉnh đầu ra của mô hình sau khi chạy mô hình. Xử lý hậu kỳ có thể được sử dụng để thực thi các ràng buộc về tính công bằng mà không cần tự sửa đổi mô hình.

Ví dụ: có thể áp dụng xử lý hậu kỳ cho thuật toán phân loại nhị phân bằng cách đặt ngưỡng phân loại sao cho cơ hội bình đẳng được duy trì cho một số thuộc tính bằng cách kiểm tra xem tỷ lệ dương thực sự giống nhau đối với tất cả các giá trị của thuộc tính đó.

dự đoán

#fundamentals

Đầu ra của mô hình. Ví dụ:

  • Dự đoán của mô hình phân loại nhị phân là giá trị dương hoặc lớp phủ định.
  • Thông tin dự đoán của mô hình phân loại nhiều lớp là một lớp.
  • Dự đoán của mô hình hồi quy tuyến tính là một con số.

nhãn proxy

#fundamentals

Dữ liệu dùng để ước tính nhãn không có trực tiếp trong một tập dữ liệu.

Ví dụ: giả sử bạn phải huấn luyện một mô hình để dự đoán nhân viên mức độ căng thẳng. Tập dữ liệu của bạn có chứa nhiều tính năng dự đoán, nhưng không chứa nhãn có tên mức độ căng thẳng. Không lo lắng, bạn chọn "tai nạn nơi làm việc" dưới dạng nhãn proxy cho mức độ căng thẳng. Sau cùng, nhân viên đang chịu áp lực cao sẽ làm việc hiệu quả hơn hơn so với những nhân viên bình tĩnh. Có đúng như vậy không? Có thể là tai nạn nơi làm việc có thể tăng và giảm vì nhiều lý do.

Ví dụ thứ hai, giả sử bạn muốn mưa có mưa không? làm nhãn Boolean cho tập dữ liệu của bạn, nhưng tập dữ liệu không chứa dữ liệu về mưa. Nếu có sẵn hình ảnh, bạn có thể đặt hình ảnh của mọi người mang ô làm nhãn đại diện cho câu hỏi trời có mưa không? Có phải là một nhãn proxy tốt? Có thể, nhưng mọi người ở một số nền văn hoá có thể có nhiều khả năng mang theo ô để chống nắng hơn là mưa.

Nhãn proxy thường không hoàn hảo. Khi có thể, hãy chọn nhãn thực tế nhãn proxy. Tức là khi không có nhãn thực tế, hãy chọn proxy nhãn rất kỹ, chọn đề xuất nhãn đại diện ít kinh khủng nhất.

Điểm

RAG

#fundamentals

Từ viết tắt của công nghệ tạo tăng cường truy xuất.

người đánh giá

#fundamentals

Người cung cấp nhãn cho ví dụ. "Người chú thích" là một tên khác của người đánh giá.

Đơn vị tuyến tính chỉnh sửa (ReLU)

#fundamentals

Hàm kích hoạt có hành vi sau:

  • Nếu đầu vào là số âm hoặc 0 thì đầu ra sẽ bằng 0.
  • Nếu đầu vào là số dương thì đầu ra sẽ bằng đầu vào.

Ví dụ:

  • Nếu đầu vào là -3 thì đầu ra là 0.
  • Nếu đầu vào là +3, thì đầu ra là 3.0.

Dưới đây là cốt truyện của ReLU:

Biểu đồ Cartesian gồm hai dòng. Dòng đầu tiên có hằng số
          giá trị y bằng 0, chạy dọc theo trục x từ -vô cực,0 đến 0,-0.
          Dòng thứ hai bắt đầu từ 0,0. Đường này có hệ số góc +1, vì vậy
          nó chạy từ 0,0 đến +vô cùng,+vô cùng.

ReLU là một hàm kích hoạt rất phổ biến. Mặc dù có hành vi đơn giản, ReLU vẫn cho phép mạng nơron tìm hiểu nonlinear mối quan hệ giữa tính năngnhãn.

mô hình hồi quy

#fundamentals

Một mô hình đưa ra dự đoán dạng số một cách chính thức. (Ngược lại, mô hình phân loại sẽ tạo một lớp prediction.) Ví dụ: sau đây là tất cả các mô hình hồi quy:

  • Mô hình dự đoán giá trị của một ngôi nhà nhất định, chẳng hạn như 423.000 Euro.
  • Một mô hình dự đoán tuổi thọ của một cây nhất định, chẳng hạn như 23,2 năm.
  • Một mô hình dự báo lượng mưa sẽ rơi ở một thành phố cụ thể trong sáu giờ tiếp theo, chẳng hạn như 0,18 inch.

Hai loại mô hình hồi quy phổ biến là:

  • Hồi quy tuyến tính: tìm đường phù hợp nhất khớp giá trị nhãn với các đối tượng.
  • Hồi quy logistic, từ đó tạo ra xác suất từ 0,0 đến 1,0 mà sau đó một hệ thống thường ánh xạ đến một lớp truy vấn dự đoán.

Không phải mọi mô hình đưa ra dự đoán dạng số đều là mô hình hồi quy. Trong một số trường hợp, dự đoán dạng số chỉ thực sự là một mô hình phân loại có tên lớp dạng số. Ví dụ: một mô hình dự đoán mã bưu chính dạng số là một mô hình phân loại, không phải là mô hình hồi quy.

điều hoà

#fundamentals

Bất kỳ cơ chế nào làm giảm khả năng trang bị quá mức. Các kiểu điều chỉnh phổ biến bao gồm:

Quy ước cũng có thể được định nghĩa là hình phạt đối với sự phức tạp của mô hình.

tỷ lệ điều chỉnh

#fundamentals

Số chỉ định tầm quan trọng tương đối của chuẩn hoá trong quá trình đào tạo. Nâng tỷ lệ điều chỉnh giảm quá mức phù hợp, nhưng vẫn có thể giảm công suất dự đoán của mô hình. Ngược lại, hãy giảm hoặc bỏ qua thì tỷ lệ điều chỉnh tăng lên.

ReLU

#fundamentals

Từ viết tắt của Đơn vị tuyến tính được chỉnh sửa.

tạo tăng cường truy xuất (RAG)

#fundamentals

Một kỹ thuật để cải thiện chất lượng của Đầu ra mô hình ngôn ngữ lớn (LLM) bằng cách dựa vào các nguồn kiến thức truy xuất được sau khi mô hình được huấn luyện. RAG cải thiện độ chính xác của các câu trả lời cho các mô hình ngôn ngữ lớn bằng cách cung cấp cho các mô hình ngôn ngữ lớn (LLM) đã được huấn luyện quyền truy cập vào thông tin truy xuất được từ các cơ sở kiến thức hoặc tài liệu đáng tin cậy.

Sau đây là những động lực phổ biến liên quan đến việc sử dụng tính năng tạo tăng cường truy xuất:

  • Tăng độ chính xác thực tế của các câu trả lời do mô hình tạo ra.
  • Cấp cho mô hình này quyền tiếp cận kiến thức mà mô hình không được huấn luyện.
  • Thay đổi kiến thức mà mô hình sử dụng.
  • Bật mô hình để trích dẫn nguồn.

Ví dụ: giả sử một ứng dụng hoá học dùng PaLM API để tạo bản tóm tắt liên quan đến truy vấn của người dùng. Khi phần phụ trợ của ứng dụng nhận được một truy vấn, phần phụ trợ sẽ:

  1. Tìm kiếm dữ liệu ("truy xuất") có liên quan đến truy vấn của người dùng.
  2. Thêm ("tăng cường") dữ liệu hoá học có liên quan vào truy vấn của người dùng.
  3. Hướng dẫn LLM tạo bản tóm tắt dựa trên dữ liệu được thêm vào.

Đường cong ROC (đặc tính hoạt động của máy thu)

#fundamentals

Biểu đồ về tỷ lệ dương tính thực so với tỷ lệ dương tính giả đối với các sản phẩm khác nhau ngưỡng phân loại ở dạng tệp nhị phân của bạn.

Hình dạng của đường cong ROC cho thấy khả năng của mô hình phân loại nhị phân để phân tách lớp khẳng định khỏi lớp phủ định. Ví dụ: giả sử rằng mô hình phân loại nhị phân sẽ tách hoàn toàn mọi giá trị âm các lớp từ tất cả các lớp tích cực:

Một dòng số có 8 ví dụ dương ở bên phải và
          7 ví dụ phủ định ở bên trái.

Đường cong ROC của mô hình trước đó có dạng như sau:

Đường cong ROC. Trục x là Tỷ lệ dương tính giả và trục y
          là Tỷ lệ dương thực. Đường cong có hình chữ L ngược. Đường cong
          bắt đầu tại (0,0,0,0) và đi thẳng đến (0,0,1,0). Sau đó, đường cong
          đi từ (0,0,1,0) đến (1,0,1,0).

Ngược lại, hình minh hoạ sau đây vẽ biểu đồ hồi quy logistic thô các giá trị của một mô hình rất tệ không thể tách các lớp phủ định khỏi những lớp học tích cực:

Dòng số có ví dụ dương và lớp phủ định
          được kết hợp hoàn toàn.

Đường cong ROC của mô hình này được thể hiện như sau:

Đường cong ROC (ROC) là một đường thẳng từ (0,0,0,0)
          đến (1,0,1,0).

Trong khi đó, trong thực tế, hầu hết các mô hình phân loại nhị phân đều tách riêng lớp học tích cực và tiêu cực ở một mức độ nào đó, nhưng thường không hoàn hảo. Vì vậy, đường cong ROC điển hình nằm ở đâu đó giữa hai cực:

Đường cong ROC. Trục x là Tỷ lệ dương tính giả và trục y
          là Tỷ lệ dương thực. Đường cong ROC gần đúng một cung tròn rung
          di chuyển qua các điểm la bàn từ Tây sang Bắc.

Điểm trên đường cong ROC gần nhất với (0,0,1,0) về mặt lý thuyết xác định ngưỡng phân loại lý tưởng. Tuy nhiên, một số vấn đề thực tế khác ảnh hưởng đến việc lựa chọn ngưỡng phân loại lý tưởng. Ví dụ: có lẽ âm tính giả gây đau đớn hơn nhiều so với dương tính giả.

Chỉ số bằng số có tên là AUC tóm tắt đường cong ROC thành một giá trị dấu phẩy động duy nhất.

sai số trung bình bình phương (RMSE)

#fundamentals

Căn bậc hai của Lỗi bình phương trung bình.

CN

hàm sigmoid

#fundamentals

Một hàm toán học "squishes" giá trị đầu vào vào trong một dải ô bị giới hạn, thường có giá trị từ 0 đến 1 hoặc -1 đến +1. Tức là bạn có thể chuyển bất kỳ số nào (hai, một triệu, tỷ lệ âm, bất kỳ) nào thành một sigmoid và đầu ra vẫn sẽ nằm trong phạm vi bị hạn chế. Biểu đồ của hàm kích hoạt sigmoid có dạng như sau:

Một biểu đồ cong hai chiều có các giá trị x bao phủ miền
          từ vô cực đến + dương, còn giá trị y nằm trong khoảng từ gần 0 đến
          gần 1. Khi x bằng 0, y là 0,5. Độ dốc của đường cong luôn luôn
          là số dương, có độ dốc cao nhất (0,0,5) và giảm dần
          hệ số góc khi giá trị tuyệt đối của x tăng.

Hàm sigmoid có một số cách sử dụng trong học máy, bao gồm:

softmax

#fundamentals

Một hàm xác định xác suất cho mỗi lớp có thể có trong một mô hình phân loại nhiều lớp. Xác suất cộng lại chính xác là 1.0. Ví dụ: bảng sau đây cho biết cách Softmax phân phối xác suất khác nhau:

Hình ảnh là... Xác suất
chó 0,85
cat 0,13
con ngựa 0,02

Softmax còn được gọi là softmax đầy đủ.

Ngược lại với tính năng lấy mẫu đề xuất.

tính chất thưa thớt

#language
#fundamentals

Một tính năng có giá trị chủ yếu bằng 0 hoặc trống. Ví dụ: đối tượng chứa giá trị số 1 và một triệu giá trị 0 là thưa thớt. Ngược lại, tính năng dày đặc có các giá trị chủ yếu không phải là số 0 hoặc dữ liệu trống.

Trong công nghệ học máy, có nhiều tính năng đáng ngạc nhiên là các tính năng thưa thớt. Đối tượng phân loại thường là các đối tượng thưa thớt. Ví dụ: trong số 300 loài cây có thể có trong một khu rừng, một ví dụ duy nhất có thể chỉ xác định một cây phong. Hoặc trong số hàng triệu video có thể sử dụng trong thư viện video, một ví dụ duy nhất có thể xác định chỉ là "Casablanca".

Trong một mô hình, bạn thường biểu thị các đối tượng thưa thớt bằng mã hoá một nóng. Nếu mã hoá một nóng có kích thước lớn, bạn có thể đặt một lớp nhúng ở trên mã hoá một lần để đạt được hiệu quả cao hơn.

biểu diễn thưa

#language
#fundamentals

Chỉ lưu trữ (các) vị trí của các phần tử khác 0 trong một đối tượng thưa thớt.

Ví dụ: giả sử một đối tượng phân loại có tên species xác định 36 các loài cây trong một khu rừng cụ thể. Giả sử thêm rằng mỗi ví dụ chỉ xác định một loài duy nhất.

Bạn có thể sử dụng vectơ một nóng để biểu thị loài cây trong mỗi ví dụ. Vectơ một nóng sẽ chứa một 1 duy nhất (để biểu thị các loài cây cụ thể trong ví dụ đó) và 35 0 (để thể hiện 35 loài cây không có trong ví dụ đó). Vì vậy, đại diện phổ biến nhất của maple có thể có dạng như sau:

Vectơ trong đó các vị trí từ 0 đến 23 giữ giá trị 0, vị trí
          24 giữ giá trị 1 và các vị trí từ 25 đến 35 giữ giá trị 0.

Ngoài ra, cách biểu diễn thưa thớt sẽ chỉ đơn giản là xác định vị trí của loài cụ thể. Nếu maple ở vị trí 24, thì biểu diễn thưa của maple sẽ đơn giản là:

24

Lưu ý rằng biểu diễn thưa thớt nhỏ gọn hơn nhiều so với biểu diễn một nóng đại diện.

vectơ thưa

#fundamentals

Vectơ có các giá trị gần như bằng 0. Xem thêm thưa thớt tính năngtính tách biệt.

tổn thất bình phương

#fundamentals

Từ đồng nghĩa với sự mất mát L2.

tĩnh

#fundamentals

Việc nào đó được thực hiện một lần thay vì liên tục. Các cụm từ tĩnhngoại tuyến là các từ đồng nghĩa. Sau đây là một số cách sử dụng phổ biến của tính năng tĩnhngoại tuyến trong máy đang học:

  • mô hình tĩnh (hoặc mô hình ngoại tuyến) là mô hình được huấn luyện một lần rồi đã sử dụng trong một thời gian.
  • huấn luyện tĩnh (hoặc đào tạo ngoại tuyến) là quá trình huấn luyện một mô hình tĩnh.
  • suy luận tĩnh (hoặc suy luận ngoại tuyến) là quá trình một mô hình tạo ra một loạt các dự đoán tại một thời điểm.

Độ tương phản với thuộc tính động.

suy luận tĩnh

#fundamentals

Từ đồng nghĩa với suy luận ngoại tuyến.

cố định

#fundamentals

Một đối tượng có các giá trị không thay đổi trên một hoặc nhiều phương diện, thường là thời gian. Ví dụ: một tính năng có giá trị giống nhau vào năm 2021 và năm 2023 thể hiện sự tĩnh tại.

Trong thế giới thực, rất ít đối tượng thể hiện tính tĩnh. Các tính năng đồng đều đồng nghĩa với sự ổn định (như mực nước biển) thay đổi theo thời gian.

Trái ngược với tính không ổn định.

giảm độ dốc ngẫu nhiên (SGD)

#fundamentals

Thuật toán giảm độ dốc trong đó kích thước lô là một. Nói cách khác, SGD sẽ được huấn luyện dựa trên một ví dụ duy nhất được chọn thống nhất tại ngẫu nhiên từ tập hợp huấn luyện.

học máy có giám sát

#fundamentals

Đào tạo một mô hình từ các tính năngnhãn tương ứng. Công nghệ học máy có giám sát cũng tương tự như sang học một môn học bằng cách nghiên cứu một bộ câu hỏi và các câu trả lời tương ứng. Sau khi thành thạo việc liên kết giữa các câu hỏi và đáp án, sau đó học sinh có thể đưa ra đáp án cho bài làm mới (chưa từng thấy trước đây) câu hỏi về cùng một chủ đề.

So sánh với máy học không giám sát.

tính năng tổng hợp

#fundamentals

Tính năng không có trong số các tính năng nhập, nhưng được tạo nên từ một hoặc nhiều dữ liệu. Phương thức tạo các tính năng tổng hợp bao gồm:

  • Sắp xếp một tính năng liên tục vào các thùng phạm vi.
  • Tạo nhiều tính năng.
  • Nhân (hoặc chia) một giá trị đối tượng cho(các) giá trị đối tượng khác hoặc đơn lẻ. Ví dụ: nếu ab là các tính năng nhập, thì hàm sau đây là ví dụ về các tính năng tổng hợp:
    • ab
    • a2
  • Áp dụng hàm xuyên suốt cho một giá trị đối tượng. Ví dụ: nếu c là tính năng đầu vào, thì sau đây là ví dụ về tính năng tổng hợp:
    • sin(c)
    • ln(c)

Các tính năng được tạo bằng cách chuẩn hoá hoặc điều chỉnh theo tỷ lệ thì chúng không được coi là tính năng tổng hợp.

T

tổn thất thử nghiệm

#fundamentals

Chỉ số thể hiện sự sụt giảm của một mô hình so với tập kiểm thử. Khi xây dựng một mô hình, bạn thường cố gắng giảm thiểu tổn thất kiểm thử. Đó là vì thất bại trong thử nghiệm thấp tín hiệu chất lượng mạnh hơn so với mức hao tổn huấn luyện thấp hoặc mất tính xác thực thấp.

Một khoảng cách lớn giữa mất kiểm thử và mất huấn luyện hoặc mất xác thực đôi khi cho thấy bạn cần tăng tỷ lệ chuẩn hoá.

đào tạo

#fundamentals

Quá trình xác định tham số lý tưởng (trọng số và thiên kiến) bao gồm mô hình. Trong quá trình huấn luyện, hệ thống sẽ đọc ví dụ rồi dần điều chỉnh các tham số. Quá trình huấn luyện sử dụng mỗi ví dụ từ vài lần đến hàng tỷ lần.

ngừng huấn luyện

#fundamentals

Một chỉ số thể hiện sự sụt giảm của một mô hình trong một khoảng thời gian lặp đi lặp lại huấn luyện cụ thể. Ví dụ: giả sử hàm mất là Lỗi bình phương trung bình. Có thể là thời gian mất đào tạo (trung bình Squared Error) cho lần lặp thứ 10 là 2.2 và tổn thất huấn luyện cho lần lặp thứ 100 là 1.9.

Đường cong tổn thất thể hiện số lượng lỗ hổng huấn luyện so với số lượng lặp lại. Đường cong tổn thất cung cấp các gợi ý sau đây về việc huấn luyện:

  • Độ dốc hướng xuống cho biết mô hình đang cải thiện.
  • Độ dốc hướng lên cho biết mô hình đang giảm dần.
  • Độ dốc bằng phẳng ngụ ý rằng mô hình đã đạt đến sự hội tụ.

Ví dụ: đường cong tổn thất được lý tưởng hoá đôi chút sau đây cho thấy:

  • Đường dốc hướng xuống trong vòng lặp ban đầu, ngụ ý rằng cải tiến mô hình nhanh chóng.
  • Đường dốc phẳng dần (nhưng vẫn đi xuống) cho đến gần cuối huấn luyện, tức là ngụ ý việc liên tục cải tiến mô hình với mức độ chậm hơn trong vòng lặp đầu tiên.
  • Một độ dốc phẳng về cuối quá trình huấn luyện, gợi ý sự hội tụ.

Sơ đồ về sự mất mát trong quá trình huấn luyện so với số lần lặp lại. Đường cong mức tổn thất này bắt đầu
     có độ dốc đứng xuống. Đường dốc phẳng dần cho đến khi
     hệ số góc trở thành 0.

Mặc dù lượng thời gian huấn luyện mất đi là rất quan trọng, hãy xem thêm tổng quát hoá.

lệch hướng phân phát huấn luyện

#fundamentals

Sự khác biệt giữa hiệu suất của mô hình trong khoảng thời gian huấn luyện và hiệu suất của cùng mô hình đó trong khoảng thời gian phân phát.

tập huấn luyện

#fundamentals

Tập hợp con của tập dữ liệu được dùng để huấn luyện một mô hình.

Thông thường, các ví dụ trong tập dữ liệu được chia thành 3 nhóm các tập hợp con riêng biệt:

Tốt nhất là mỗi ví dụ trong tập dữ liệu chỉ nên thuộc về một trong các tập hợp con trước đó. Ví dụ: một ví dụ không nên thuộc về cả tập huấn luyện và tập xác thực.

âm tính thật (TN)

#fundamentals

Một ví dụ trong đó mô hình dự đoán chính xác lớp phủ định. Ví dụ: mô hình suy luận rằng một nội dung email cụ thể không phải là thư rác và nội dung email đó thực sự là không phải thư rác.

dương tính thật (TP)

#fundamentals

Một ví dụ trong đó mô hình dự đoán chính xác lớp học tích cực. Ví dụ: mô hình suy luận rằng một nội dung email cụ thể là thư rác và nội dung email đó thực sự là thư rác.

tỷ lệ dương tính thật (TPR)

#fundamentals

Từ đồng nghĩa với recall. Đó là:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Tỷ lệ dương thực là trục y trong đường cong ROC.

U

thiếu vải

#fundamentals

Tạo mô hình có khả năng dự đoán kém vì mô hình đó chưa thể hiện hết mức độ phức tạp của dữ liệu huấn luyện. Nhiều bài toán có thể gây ra tình trạng thiếu cân, bao gồm:

ví dụ chưa gắn nhãn

#fundamentals

Một ví dụ có chứa tính năng nhưng không có nhãn. Ví dụ: bảng sau đây hiển thị ba ví dụ chưa gắn nhãn của một ngôi nhà mô hình định giá, mỗi mô hình có ba tính năng nhưng không có giá trị nội bộ:

Số lượng phòng ngủ Số lượng phòng tắm Tuổi thọ của nhà
3 2 15
2 1 72
4 2 34

Trong công nghệ học máy có giám sát, sẽ huấn luyện dựa trên các ví dụ được gắn nhãn và đưa ra dự đoán về các ví dụ chưa được gắn nhãn.

Trong chế độ bán giám sát và học tập không có sự giám sát, các ví dụ chưa gắn nhãn được dùng trong quá trình huấn luyện.

Đối chiếu ví dụ chưa gắn nhãn với ví dụ có gắn nhãn.

học máy không giám sát

#clustering
#fundamentals

Huấn luyện một mô hình để tìm các mẫu trong một tập dữ liệu, thường là tập dữ liệu chưa gắn nhãn.

Việc sử dụng công nghệ học máy không giám sát phổ biến nhất là Dữ liệu cụm thành các nhóm ví dụ tương tự nhau. Ví dụ: máy không được giám sát thuật toán học tập có thể nhóm các bài hát dựa trên nhiều thuộc tính của bản nhạc. Các cụm thu được có thể trở thành dữ liệu đầu vào cho máy khác các thuật toán học tập (ví dụ: đến dịch vụ đề xuất âm nhạc). Việc phân cụm có thể giúp ích khi không có hoặc có nhãn hữu ích. Ví dụ: trong các miền như chống hành vi sai trái và lừa đảo, các cụm có thể giúp con người sẽ hiểu rõ hơn về dữ liệu.

Trái ngược với công nghệ học máy có giám sát.

V

xác thực

#fundamentals

Kết quả đánh giá ban đầu về chất lượng của một mô hình. Chức năng xác thực kiểm tra chất lượng dự đoán của mô hình so với bộ xác thực.

Do bộ xác thực khác với nhóm huấn luyện, quy trình xác thực giúp bảo vệ chống lại tình trạng trang bị quá mức.

Bạn có thể coi việc đánh giá mô hình so với tập hợp xác thực là vòng đầu tiên để thử nghiệm và đánh giá mô hình dựa trên kiểm thử set làm vòng kiểm thử thứ hai.

mất dữ liệu xác thực

#fundamentals

Một chỉ số thể hiện lỗ hổng của một mô hình trên tập hợp xác thực trong một khoảng thời gian lặp lại quá trình huấn luyện.

Xem thêm đường cong tổng quát.

bộ xác thực

#fundamentals

Tập hợp con của tập dữ liệu thực hiện bước đầu tiên dựa trên mô hình đã qua đào tạo. Thông thường, bạn đánh giá mô hình được huấn luyện dựa trên tập hợp xác thực một vài trước khi đánh giá mô hình dựa trên tập kiểm thử.

Thông thường, bạn chia các ví dụ trong tập dữ liệu thành ba nhóm sau các tập hợp con riêng biệt:

Tốt nhất là mỗi ví dụ trong tập dữ liệu chỉ nên thuộc về một trong các tập hợp con trước đó. Ví dụ: một ví dụ không nên thuộc về cả tập huấn luyện và tập xác thực.

W

cân nặng

#fundamentals

Một giá trị mà mô hình nhân với một giá trị khác. Huấn luyện là quá trình xác định trọng số lý tưởng của một mô hình; suy luận là quá trình sử dụng các trọng số đã học được để đưa ra dự đoán.

tổng có trọng số

#fundamentals

Tổng của tất cả các giá trị đầu vào có liên quan nhân với các giá trị tương ứng trọng số. Ví dụ: giả sử dữ liệu đầu vào có liên quan bao gồm:

giá trị nhập trọng số đầu vào
2 -1,3
-1 0,6
3 0,4

Do đó, tổng được trọng số là:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Tổng có trọng số là đối số đầu vào cho một giá trị tổng chức năng kích hoạt.

Z

Chuẩn hoá điểm Z

#fundamentals

Kỹ thuật điều chỉnh tỷ lệ thay thế dữ liệu thô Giá trị feature với một giá trị dấu phẩy động biểu thị số độ lệch chuẩn so với giá trị trung bình của đối tượng đó. Ví dụ: hãy xem xét một đối tượng có giá trị trung bình là 800 và có giá trị chuẩn độ lệch là 100. Bảng sau đây trình bày cách chuẩn hoá điểm Z sẽ ánh xạ giá trị thô với điểm Z của nó:

Giá trị thô Điểm Z
800 0
950 +1,5
575 -2,25

Sau đó, mô hình học máy sẽ huấn luyện dựa trên điểm số Z cho tính năng đó thay vì trên các giá trị thô.