Bảng thuật ngữ về học máy: Chỉ số

Trang này chứa các thuật ngữ trong Bảng thuật ngữ về chỉ số. Để xem tất cả các thuật ngữ trong từ điển, hãy nhấp vào đây.

#fundamentals
#Metric

Số dự đoán phân loại chính xác chia cho tổng số dự đoán. Đó là:

Accuracy=correct predictionscorrect predictions + incorrect predictions 

Ví dụ: một mô hình đưa ra 40 dự đoán chính xác và 10 dự đoán không chính xác sẽ có độ chính xác là:

Accuracy=4040 + 10=80%

Phân loại nhị phân cung cấp tên cụ thể cho các danh mục dự đoán chính xácdự đoán không chính xác. Vì vậy, công thức độ chính xác cho phương pháp phân loại nhị phân là như sau:

Accuracy=TP+TNTP+TN+FP+FN

trong đó:

So sánh và đối chiếu độ chính xác với độ chính xácđộ chính xác.

Mặc dù là một chỉ số có giá trị trong một số trường hợp, nhưng độ chính xác lại gây hiểu lầm nghiêm trọng trong một số trường hợp khác. Đáng chú ý là độ chính xác thường là một chỉ số không phù hợp để đánh giá các mô hình phân loại xử lý các tập dữ liệu không cân bằng về lớp.

Ví dụ: giả sử tuyết chỉ rơi 25 ngày mỗi thế kỷ ở một thành phố cận nhiệt đới nhất định. Vì số ngày không có tuyết (lớp âm) nhiều hơn rất nhiều so với số ngày có tuyết (lớp dương), nên tập dữ liệu về tuyết cho thành phố này bị mất cân bằng về lớp. Hãy tưởng tượng một mô hình phân loại nhị phân dự kiến sẽ dự đoán có tuyết hay không có tuyết mỗi ngày, nhưng lại chỉ dự đoán "không có tuyết" mỗi ngày. Mô hình này có độ chính xác cao nhưng không có khả năng dự đoán. Bảng sau đây tóm tắt kết quả của một thế kỷ dự đoán:

Danh mục Số
TP 0
TN (Tunisia) 36499
FP 0
FN 25

Do đó, độ chính xác của mô hình này là:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

Mặc dù độ chính xác 99,93% có vẻ là một tỷ lệ rất ấn tượng, nhưng mô hình này thực sự không có khả năng dự đoán.

Độ chính xácđộ hồi quy thường là các chỉ số hữu ích hơn độ chính xác để đánh giá các mô hình được huấn luyện trên tập dữ liệu không cân bằng về lớp.


Hãy xem phần Phân loại: Độ chính xác, tỷ lệ thu hồi, độ chính xác và các chỉ số liên quan trong khoá học cấp tốc về học máy để biết thêm thông tin.

diện tích dưới đường cong PR

#Metric

Xem AUC PR (Diện tích dưới đường cong PR).

diện tích dưới đường cong ROC

#Metric

Xem AUC (Diện tích dưới đường cong ROC).

AUC (Diện tích dưới đường cong ROC)

#fundamentals
#Metric

Một số từ 0 đến 1 thể hiện khả năng của mô hình phân loại nhị phân để tách các lớp dương khỏi các lớp âm. AUC càng gần 1.0 thì mô hình càng có khả năng phân tách các lớp với nhau.

Ví dụ: hình minh hoạ sau đây cho thấy một mô hình phân loại tách biệt hoàn toàn các lớp dương tính (hình bầu dục màu xanh lục) với các lớp âm tính (hình chữ nhật màu tím). Mô hình hoàn hảo không thực tế này có AUC là 1,0:

Một đường số có 8 ví dụ dương ở một bên và
          9 ví dụ âm ở bên kia.

Ngược lại, hình minh hoạ sau đây cho thấy kết quả của một mô hình phân loại tạo ra kết quả ngẫu nhiên. Mô hình này có AUC là 0,5:

Một đường số có 6 ví dụ tích cực và 6 ví dụ tiêu cực.
          Trình tự các ví dụ là dương, âm, dương, âm, dương, âm, dương, âm, dương, âm, dương.

Có, mô hình trước đó có AUC là 0,5 chứ không phải 0,0.

Hầu hết các mô hình đều nằm ở đâu đó giữa hai thái cực này. Ví dụ: mô hình sau đây phân tách các giá trị dương khỏi các giá trị âm, do đó có AUC nằm trong khoảng từ 0,5 đến 1,0:

Một đường số có 6 ví dụ tích cực và 6 ví dụ tiêu cực.
          Trình tự các ví dụ là âm, âm, âm, âm, dương, âm, dương, dương, âm, dương, dương, dương.

AUC bỏ qua mọi giá trị bạn đặt cho ngưỡng phân loại. Thay vào đó, AUC xem xét tất cả ngưỡng phân loại có thể có.

AUC thể hiện diện tích dưới đường cong ROC. Ví dụ: đường cong ROC cho một mô hình phân tách hoàn hảo các giá trị dương với giá trị âm sẽ có dạng như sau:

Biểu đồ Descartes. Trục x là tỷ lệ dương tính giả; trục y là tỷ lệ dương tính thật. Biểu đồ bắt đầu tại 0,0 và đi thẳng lên 0,1 rồi thẳng sang phải kết thúc tại 1,1.

AUC là diện tích của vùng màu xám trong hình minh hoạ trước. Trong trường hợp bất thường này, diện tích chỉ là chiều dài của vùng màu xám (1.0) nhân với chiều rộng của vùng màu xám (1.0). Do đó, tích của 1,0 và 1,0 sẽ cho ra AUC chính xác là 1,0, đây là điểm AUC cao nhất có thể.

Ngược lại, đường cong ROC cho một thuật toán phân loại hoàn toàn không thể phân tách các lớp như sau. Diện tích của vùng màu xám này là 0,5.

Biểu đồ Descartes. Trục x là tỷ lệ dương tính giả; trục y là tỷ lệ dương tính thật. Biểu đồ bắt đầu từ 0,0 và đi theo đường chéo đến 1,1.

Một đường cong ROC điển hình hơn sẽ có dạng như sau:

Biểu đồ Descartes. Trục x là tỷ lệ dương tính giả; trục y là tỷ lệ dương tính thật. Biểu đồ bắt đầu tại 0,0 và đi theo một vòng cung không đều đến 1,0.

Bạn sẽ phải mất nhiều công sức để tính toán diện tích dưới đường cong này theo cách thủ công, đó là lý do tại sao một chương trình thường tính toán hầu hết các giá trị AUC.


AUC là xác suất để một thuật toán phân loại tự tin hơn rằng một ví dụ dương tính được chọn ngẫu nhiên thực sự là dương tính so với một ví dụ âm tính được chọn ngẫu nhiên là dương tính.


Hãy xem phần Phân loại: ROC và AUC trong Khoá học học máy ứng dụng để biết thêm thông tin.

độ chính xác trung bình tại k

#language
#Metric

Một chỉ số để tóm tắt hiệu suất của một mô hình trên một câu lệnh duy nhất tạo ra kết quả được xếp hạng, chẳng hạn như danh sách đánh số các đề xuất sách. Độ chính xác trung bình tại k là trung bình của các giá trị độ chính xác tại k cho mỗi kết quả liên quan. Do đó, công thức tính độ chính xác trung bình tại k là:

average precision at k=1nni=1precision at k for each relevant item

trong đó:

  • n là số lượng mục có liên quan trong danh sách.

Tương phản với lệnh gọi lại tại k.

Giả sử một mô hình ngôn ngữ lớn được cung cấp truy vấn sau:

List the 6 funniest movies of all time in order.

Và mô hình ngôn ngữ lớn trả về danh sách sau:

  1. Tướng
  2. Mean Girls
  3. Platoon
  4. Phù dâu
  5. Citizen Kane
  6. This is Spinal Tap
4 trong số các phim trong danh sách trả về rất hài hước (tức là có liên quan) nhưng 2 phim là phim chính kịch (không liên quan). Bảng sau đây trình bày chi tiết kết quả:
Vị trí Phim Có liên quan không? Độ chính xác tại k
1 Tướng 1.0
2 Mean Girls 1.0
3 Platoon Không không liên quan
4 Phù dâu 0,75
5 Citizen Kane Không không liên quan
6 This is Spinal Tap 0,67

Số lượng kết quả có liên quan là 4. Do đó, bạn có thể tính toán độ chính xác trung bình ở mức 6 như sau:

average precision at 6=14(1.0 + 1.0 + 0.75 + 0.67) average precision at 6=~0.85

B

đường cơ sở

#Metric

Mô hình được dùng làm điểm tham chiếu để so sánh hiệu suất của một mô hình khác (thường là mô hình phức tạp hơn). Ví dụ: mô hình hồi quy logistic có thể đóng vai trò là đường cơ sở phù hợp cho mô hình sâu.

Đối với một vấn đề cụ thể, đường cơ sở giúp nhà phát triển mô hình định lượng hiệu suất tối thiểu dự kiến mà mô hình mới phải đạt được để mô hình mới hữu ích.

C

chi phí

#Metric

Từ đồng nghĩa với mất.

tính công bằng giả định

#fairness
#Metric

Chỉ số công bằng kiểm tra xem một thuật toán phân loại có đưa ra kết quả giống nhau cho một cá nhân và một cá nhân khác giống hệt với cá nhân đầu tiên hay không, ngoại trừ một hoặc nhiều thuộc tính nhạy cảm. Đánh giá một thuật toán phân loại về tính công bằng giả định là một phương pháp để đưa ra các nguồn tiềm ẩn gây ra thiên kiến trong mô hình.

Hãy xem một trong những nội dung sau để biết thêm thông tin:

entropy chéo

#Metric

Tổng quát hoá Mất mát theo nhật ký cho các vấn đề phân loại đa lớp. Độ chênh lệch entropy định lượng sự khác biệt giữa hai hàm phân phối xác suất. Xem thêm perplexity.

hàm phân phối tích luỹ (CDF)

#Metric

Hàm xác định tần suất của các mẫu nhỏ hơn hoặc bằng giá trị mục tiêu. Ví dụ: hãy xem xét một phân phối chuẩn của các giá trị liên tục. CDF cho bạn biết rằng khoảng 50% mẫu phải nhỏ hơn hoặc bằng trung bình và khoảng 84% mẫu phải nhỏ hơn hoặc bằng một độ lệch chuẩn cao hơn trung bình.

D

Tương đương về nhân khẩu học

#fairness
#Metric

Chỉ số công bằng được đáp ứng nếu kết quả phân loại của mô hình không phụ thuộc vào một thuộc tính nhạy cảm nhất định.

Ví dụ: nếu cả người Lilliput và người Brobdingnag đều đăng ký vào Đại học Glubbdubdrib, thì sự bình đẳng về nhân khẩu học sẽ đạt được nếu tỷ lệ phần trăm người Lilliput được nhận vào trường giống với tỷ lệ phần trăm người Brobdingnag được nhận vào trường, bất kể một nhóm có trung bình đủ điều kiện hơn nhóm còn lại hay không.

Tương phản với tỷ lệ cân bằngbình đẳng về cơ hội, cho phép kết quả phân loại tổng hợp phụ thuộc vào các thuộc tính nhạy cảm, nhưng không cho phép kết quả phân loại cho một số nhãn đúng thực tế được chỉ định phụ thuộc vào các thuộc tính nhạy cảm. Hãy xem bài viết "Chống phân biệt bằng công nghệ học máy thông minh hơn" để xem hình ảnh trực quan khám phá những đánh đổi khi tối ưu hoá cho sự cân bằng về nhân khẩu học.

Hãy xem phần Tính công bằng: bình đẳng về nhân khẩu học trong Khoá học học máy ứng dụng để biết thêm thông tin.

E

khoảng cách của máy xúc đất (EMD)

#Metric

Một chỉ số đo lường mức độ tương đồng tương đối của hai phân phối. Khoảng cách của máy ủi càng thấp thì mức phân phối càng giống nhau.

chỉnh sửa khoảng cách

#language
#Metric

Một phép đo mức độ tương đồng giữa hai chuỗi văn bản. Trong học máy, khoảng cách chỉnh sửa rất hữu ích vì những lý do sau:

  • Dễ dàng tính toán khoảng cách chỉnh sửa.
  • Khoảng cách chỉnh sửa có thể so sánh hai chuỗi được biết là tương tự nhau.
  • Khoảng cách chỉnh sửa có thể xác định mức độ tương đồng giữa các chuỗi với một chuỗi nhất định.

Có một số định nghĩa về khoảng cách chỉnh sửa, mỗi định nghĩa sử dụng các thao tác chuỗi khác nhau. Hãy xem Khoảng cách Levenshtein để biết ví dụ.

hàm phân phối tích luỹ kinh nghiệm (eCDF hoặc EDF)

#Metric

Hàm phân phối tích luỹ dựa trên các phép đo thực nghiệm từ một tập dữ liệu thực. Giá trị của hàm tại bất kỳ điểm nào dọc theo trục x là tỷ lệ phần trăm số quan sát trong tập dữ liệu nhỏ hơn hoặc bằng giá trị đã chỉ định.

entropy

#df
#Metric

Trong thuyết thông tin, entropy là một mô tả về mức độ khó dự đoán của một quá trình phân phối xác suất. Ngoài ra, entropy cũng được xác định là lượng thông tin mà mỗi ví dụ chứa. Một phân phối có entropi cao nhất có thể khi tất cả các giá trị của một biến ngẫu nhiên đều có khả năng như nhau.

Entanpi của một tập hợp có hai giá trị có thể là "0" và "1" (ví dụ: các nhãn trong bài toán phân loại nhị phân) có công thức sau:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

trong đó:

  • H là entropy.
  • p là phân số của các ví dụ "1".
  • q là phân số của các ví dụ "0". Lưu ý rằng q = (1 - p)
  • log thường là log2. Trong trường hợp này, đơn vị entropi là một bit.

Ví dụ: giả sử những điều sau:

  • 100 ví dụ chứa giá trị "1"
  • 300 ví dụ chứa giá trị "0"

Do đó, giá trị entropy là:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit/ví dụ

Một tập hợp được cân bằng hoàn hảo (ví dụ: 200 "0" và 200 "1") sẽ có entropi là 1, 0 bit cho mỗi ví dụ. Khi một tập hợp trở nên không cân bằng hơn, entropy của tập hợp đó sẽ chuyển về 0.0.

Trong cây quyết định, entropy giúp xây dựng mức tăng thông tin để giúp trình phân tách chọn các điều kiện trong quá trình phát triển của cây quyết định phân loại.

So sánh entropy với:

Entanpi thường được gọi là entanpi của Shannon.

Hãy xem phần Bộ phân tách chính xác để phân loại nhị phân bằng các tính năng số trong khoá học Rừng quyết định để biết thêm thông tin.

bình đẳng về cơ hội

#fairness
#Metric

Chỉ số công bằng để đánh giá xem một mô hình có dự đoán kết quả mong muốn một cách đồng đều cho tất cả các giá trị của một thuộc tính nhạy cảm hay không. Nói cách khác, nếu kết quả mong muốn cho một mô hình là lớp dương tính, thì mục tiêu sẽ là để tỷ lệ dương tính thực sự giống nhau cho tất cả các nhóm.

Bình đẳng về cơ hội liên quan đến tỷ lệ cân bằng, trong đó yêu cầu cả tỷ lệ dương tính thực và tỷ lệ dương tính giả đều giống nhau đối với tất cả các nhóm.

Giả sử Đại học Glubbdubdrib nhận cả người Lilliput và người Brobdingnag vào một chương trình toán học nghiêm ngặt. Trường trung học của người Lilliput cung cấp một chương trình học vững chắc về các lớp học toán và phần lớn học sinh đều đủ điều kiện tham gia chương trình đại học. Các trường trung học của người Brobdingnag không hề cung cấp lớp học toán, do đó, số học sinh đủ điều kiện sẽ ít hơn nhiều. Cơ hội bình đẳng được đáp ứng đối với nhãn ưu tiên "được nhận" liên quan đến quốc tịch (Lilliputian hoặc Brobdingnagian) nếu học viên đủ tiêu chuẩn có khả năng được nhận như nhau, bất kể họ là Lilliputian hay Brobdingnagian.

Ví dụ: giả sử 100 người Lilliput và 100 người Brobdingnag đăng ký vào Đại học Glubbdubdrib và quyết định nhận sinh viên được đưa ra như sau:

Bảng 1. Người đăng ký Lilliputian (90% đủ điều kiện)

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Đã được chấp nhận 45 3
Bị từ chối 45 7
Tổng 90 10
Tỷ lệ phần trăm học viên đủ điều kiện được nhận: 45/90 = 50%
Tỷ lệ phần trăm học viên không đủ điều kiện bị từ chối: 7/10 = 70%
Tổng tỷ lệ phần trăm học viên Lilliputian được nhận: (45+3)/100 = 48%

 

Bảng 2. Người đăng ký Brobdingnagian (10% đủ điều kiện):

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Đã được chấp nhận 5 9
Bị từ chối 5 81
Tổng 10 90
Tỷ lệ phần trăm học viên đủ điều kiện được nhận: 5/10 = 50%
Tỷ lệ phần trăm học viên không đủ điều kiện bị từ chối: 81/90 = 90%
Tổng tỷ lệ phần trăm học viên Brobdingnagian được nhận: (5+9)/100 = 14%

Các ví dụ trước đáp ứng cơ hội bình đẳng để chấp nhận sinh viên đủ điều kiện vì cả người Lilliputian và Brobdingnagian đủ điều kiện đều có 50% cơ hội được nhận vào trường.

Mặc dù đáp ứng được tiêu chí bình đẳng về cơ hội, nhưng hai chỉ số công bằng sau đây lại không đáp ứng được:

  • bình đẳng về nhân khẩu học: Người Lilliput và người Brobdingnag được nhận vào trường đại học theo tỷ lệ khác nhau; 48% sinh viên Lilliput được nhận, nhưng chỉ 14% sinh viên Brobdingnag được nhận.
  • cơ hội bằng nhau: Mặc dù học viên Lilliputian và Brobdingnagian đủ điều kiện đều có cơ hội được nhận vào trường như nhau, nhưng điều kiện ràng buộc bổ sung là học viên Lilliputian và Brobdingnagian không đủ điều kiện đều có cơ hội bị từ chối như nhau thì không được thoả mãn. Những người Lilliputian không đủ điều kiện có tỷ lệ bị từ chối là 70%, trong khi những người Brobdingnag không đủ điều kiện có tỷ lệ bị từ chối là 90%.

Hãy xem phần Tính công bằng: Bình đẳng về cơ hội trong khoá học cấp tốc về học máy để biết thêm thông tin.

tỷ lệ cược bằng nhau

#fairness
#Metric

Một chỉ số công bằng để đánh giá xem một mô hình có dự đoán kết quả tốt như nhau cho tất cả các giá trị của một thuộc tính nhạy cảm đối với cả lớp tích cựclớp tiêu cực hay không, chứ không chỉ một lớp hay lớp còn lại. Nói cách khác, cả tỷ lệ dương tính thực sựtỷ lệ âm tính giả phải giống nhau đối với tất cả các nhóm.

Tỷ lệ cân bằng có liên quan đến bình đẳng về cơ hội, chỉ tập trung vào tỷ lệ lỗi của một lớp (dương hoặc âm).

Ví dụ: giả sử Đại học Glubbdubdrib nhận cả người Lilliput và người Brobdingnag vào một chương trình toán học nghiêm ngặt. Trường trung học của người Lilliput cung cấp một chương trình học mạnh mẽ về các lớp học toán và phần lớn học viên đều đủ điều kiện tham gia chương trình đại học. Các trường trung học của Brobdingnag không hề cung cấp các lớp học toán, do đó, rất ít học sinh đủ điều kiện. Điều kiện về tỷ lệ chênh lệch được đáp ứng miễn là không phân biệt ứng viên là người Lilliputian hay Brobdingnagian, nếu họ đủ điều kiện, họ có khả năng được nhận vào chương trình như nhau và nếu họ không đủ điều kiện, họ có khả năng bị từ chối như nhau.

Giả sử 100 người Lilliput và 100 người Brobdingnag đăng ký vào Đại học Glubbdubdrib và quyết định về việc nhập học được đưa ra như sau:

Bảng 3. Người đăng ký Lilliputian (90% đủ điều kiện)

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Đã được chấp nhận 45 2
Bị từ chối 45 8
Tổng 90 10
Tỷ lệ phần trăm học sinh đủ điều kiện được nhận: 45/90 = 50%
Tỷ lệ phần trăm học sinh không đủ điều kiện bị từ chối: 8/10 = 80%
Tổng tỷ lệ phần trăm học sinh Lilliputian được nhận: (45+2)/100 = 47%

 

Bảng 4. Người đăng ký Brobdingnagian (10% đủ điều kiện):

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Đã được chấp nhận 5 18
Bị từ chối 5 72
Tổng 10 90
Tỷ lệ phần trăm số sinh viên đủ điều kiện được nhận: 5/10 = 50%
Tỷ lệ phần trăm số sinh viên không đủ điều kiện bị từ chối: 72/90 = 80%
Tổng tỷ lệ phần trăm số sinh viên Brobdingnagian được nhận: (5+18)/100 = 23%

Điều kiện về tỷ lệ bằng nhau được đáp ứng vì cả học viên Lilliputian và Brobdingnagian đủ điều kiện đều có 50% cơ hội được nhận vào trường, còn học viên Lilliputian và Brobdingnagian không đủ điều kiện đều có 80% cơ hội bị từ chối.

Tỷ lệ cân bằng được xác định chính thức trong bài viết "Bình đẳng về cơ hội trong học có giám sát" như sau: "biến dự đoán Ŷ đáp ứng tỷ lệ cân bằng liên quan đến thuộc tính được bảo vệ A và kết quả Y nếu Ŷ và A độc lập, có điều kiện trên Y".

evals

#language
#generativeAI
#Metric

Chủ yếu dùng làm từ viết tắt của các hoạt động đánh giá LLM. Nói rộng ra, evals là viết tắt của mọi hình thức đánh giá.

đánh giá

#language
#generativeAI
#Metric

Quy trình đo lường chất lượng của một mô hình hoặc so sánh các mô hình với nhau.

Để đánh giá mô hình học máy có giám sát, bạn thường đánh giá mô hình đó dựa trên tập hợp dữ liệu xác thựctập hợp dữ liệu kiểm thử. Việc đánh giá LLM thường liên quan đến các hoạt động đánh giá chất lượng và độ an toàn ở phạm vi rộng hơn.

F

F1

#Metric

Chỉ số phân loại nhị phân "cuộn lên" dựa vào cả độ chính xáctỷ lệ thu hồi. Sau đây là công thức:

F1=2 * precision * recallprecision + recall

Giả sử độ chính xác và độ hồi quy có các giá trị sau:

  • precision = 0.6
  • recall = 0,4

Bạn tính F1 như sau:

F1=2 * 0.6 * 0.40.6 + 0.4=0.48

Khi độ chính xác và độ hồi quy khá giống nhau (như trong ví dụ trước), F1 sẽ gần với giá trị trung bình của chúng. Khi độ chính xác và độ hồi quy khác nhau đáng kể, F1 sẽ gần với giá trị thấp hơn. Ví dụ:

  • precision = 0,9
  • recall = 0,1
F1=2 * 0.9 * 0.10.9 + 0.1=0.18

chỉ số về tính công bằng

#fairness
#Metric

Định nghĩa toán học về "công bằng" có thể đo lường được. Sau đây là một số chỉ số công bằng thường dùng:

Nhiều chỉ số về tính công bằng là loại trừ lẫn nhau; hãy xem phần không tương thích của các chỉ số về tính công bằng.

âm tính giả (FN)

#fundamentals
#Metric

Ví dụ về trường hợp mô hình dự đoán nhầm lớp âm tính. Ví dụ: mô hình dự đoán rằng một email cụ thể không phải là thư rác (lớp âm) nhưng email đó thực sự là thư rác.

tỷ lệ âm tính giả

#Metric

Tỷ lệ phần trăm các ví dụ dương tính thực tế mà mô hình dự đoán nhầm là lớp âm tính. Công thức sau đây tính tỷ lệ âm tính giả:

false negative rate=false negativesfalse negatives+true positives

Hãy xem phần Ngưỡng và ma trận nhiễu trong khoá học Học máy ứng dụng để biết thêm thông tin.

dương tính giả (FP)

#fundamentals
#Metric

Ví dụ về trường hợp mô hình dự đoán nhầm lớp dương tính. Ví dụ: mô hình dự đoán một email cụ thể là thư rác (lớp dương tính), nhưng email đó thực sự không phải là thư rác.

Hãy xem phần Ngưỡng và ma trận nhiễu trong khoá học Học máy ứng dụng để biết thêm thông tin.

tỷ lệ dương tính giả (FPR)

#fundamentals
#Metric

Tỷ lệ phần trăm các ví dụ âm tính thực tế mà mô hình dự đoán nhầm là lớp dương tính. Công thức sau đây tính tỷ lệ dương tính giả:

false positive rate=false positivesfalse positives+true negatives

Tỷ lệ dương tính giả là trục x trong đường cong ROC.

Hãy xem phần Phân loại: ROC và AUC trong Khoá học học máy ứng dụng để biết thêm thông tin.

mức độ quan trọng của tính năng

#df
#Metric

Đồng nghĩa với tầm quan trọng của biến.

tỷ lệ thành công

#generativeAI
#Metric

Chỉ số để đánh giá văn bản do mô hình học máy tạo. Phần trăm thành công là số lượng đầu ra văn bản "thành công" được tạo chia cho tổng số đầu ra văn bản được tạo. Ví dụ: nếu một mô hình ngôn ngữ lớn tạo ra 10 khối mã, trong đó 5 khối mã thành công, thì tỷ lệ thành công sẽ là 50%.

Mặc dù tỷ lệ thành công hữu ích rộng rãi trong số liệu thống kê, nhưng trong ML, chỉ số này chủ yếu hữu ích để đo lường các nhiệm vụ có thể xác minh như tạo mã hoặc bài toán toán học.

G

tạp chất gini

#df
#Metric

Một chỉ số tương tự như entropy. Bộ chia sử dụng các giá trị bắt nguồn từ độ không tinh khiết gini hoặc entropy để tạo điều kiện cho việc phân loại cây quyết định. Mức tăng thông tin bắt nguồn từ entropy. Không có thuật ngữ tương đương nào được chấp nhận rộng rãi cho chỉ số bắt nguồn từ độ không tinh khiết gini; tuy nhiên, chỉ số chưa được đặt tên này cũng quan trọng như lợi tức thông tin.

Độ không tinh khiết của Gini còn được gọi là chỉ số Gini hoặc đơn giản là Gini.

Độ không tinh khiết của Gini là xác suất phân loại sai một phần dữ liệu mới lấy từ cùng một phân phối. Độ không tinh khiết gini của một tập hợp có hai giá trị có thể là "0" và "1" (ví dụ: nhãn trong bài toán phân loại nhị phân) được tính theo công thức sau:

   I = 1 - (p2 + q2) = 1 - (p2 + (1-p)2)

trong đó:

  • I là độ không tinh khiết gini.
  • p là phân số của các ví dụ "1".
  • q là phân số của các ví dụ "0". Lưu ý rằng q = 1-p

Ví dụ: hãy xem xét tập dữ liệu sau:

  • 100 nhãn (0,25 của tập dữ liệu) chứa giá trị "1"
  • 300 nhãn (0,75 của tập dữ liệu) chứa giá trị "0"

Do đó, độ không tinh khiết gini là:

  • p = 0,25
  • q = 0,75
  • I = 1 - (0,252 + 0,752) = 0,375

Do đó, một nhãn ngẫu nhiên trong cùng một tập dữ liệu sẽ có 37,5% cơ hội được phân loại sai và 62,5% cơ hội được phân loại đúng.

Nhãn được cân bằng hoàn hảo (ví dụ: 200 "0" và 200 "1") sẽ có độ không tinh khiết theo chỉ số gini là 0, 5. Nhãn bất cân bằng cao sẽ có độ không tinh khiết gini gần bằng 0.0.


Cao

tổn thất khớp nối

#Metric

Một nhóm hàm mất mát để phân loại được thiết kế để tìm ranh giới quyết định càng xa càng tốt từ mỗi ví dụ huấn luyện, do đó tối đa hoá khoảng cách giữa các ví dụ và ranh giới. KSVM sử dụng tổn thất bản lề (hoặc một hàm có liên quan, chẳng hạn như tổn thất bản lề bình phương). Đối với việc phân loại nhị phân, hàm tổn thất bản lề được xác định như sau:

loss=max(0,1(yy))

trong đó y là nhãn thực, -1 hoặc +1 và y' là đầu ra thô của mô hình phân loại:

y=b+w1x1+w2x2+wnxn

Do đó, biểu đồ về tổn thất bản lề so với (y * y') sẽ có dạng như sau:

Biểu đồ Descartes bao gồm hai đoạn đường thẳng nối với nhau. Đoạn đường thẳng đầu tiên bắt đầu tại (-3, 4) và kết thúc tại (1, 0). Đoạn đường thứ hai bắt đầu tại (1, 0) và tiếp tục vô thời hạn với độ dốc bằng 0.

I

không tương thích của các chỉ số về tính công bằng

#fairness
#Metric

Ý tưởng cho rằng một số khái niệm về sự công bằng không tương thích với nhau và không thể được đáp ứng cùng một lúc. Do đó, không có một chỉ số chung nào có thể đo lường được tính công bằng và áp dụng cho mọi vấn đề về học máy.

Mặc dù điều này có vẻ gây nản lòng, nhưng việc các chỉ số về tính công bằng không tương thích không có nghĩa là những nỗ lực nhằm đảm bảo tính công bằng là vô ích. Thay vào đó, bạn nên xác định tính công bằng theo ngữ cảnh cho một vấn đề học máy nhất định, với mục tiêu ngăn chặn những tác hại cụ thể đối với các trường hợp sử dụng của vấn đề đó.

Hãy xem bài viết "Về khả năng (không) công bằng" để thảo luận chi tiết hơn về việc các chỉ số về tính công bằng không tương thích với nhau.

tính công bằng cho cá nhân

#fairness
#Metric

Một chỉ số công bằng giúp kiểm tra xem các cá nhân tương tự có được phân loại tương tự hay không. Ví dụ: Học viện Brobdingnagian có thể muốn đáp ứng tính công bằng cá nhân bằng cách đảm bảo rằng hai học viên có điểm giống hệt nhau và điểm kiểm tra chuẩn hoá có khả năng được nhận vào học như nhau.

Xin lưu ý rằng tính công bằng của từng cá nhân hoàn toàn phụ thuộc vào cách bạn xác định "tính tương đồng" (trong trường hợp này là điểm số và điểm kiểm tra). Bạn có thể gặp rủi ro khi tạo ra các vấn đề mới về tính công bằng nếu chỉ số tương đồng của bạn thiếu thông tin quan trọng (chẳng hạn như mức độ nghiêm ngặt của chương trình học của học sinh).

Hãy xem bài viết "Tính công bằng thông qua nhận thức" để thảo luận chi tiết hơn về tính công bằng cá nhân.

thông tin thu được

#df
#Metric

Trong rừng quyết định, chênh lệch giữa entropy của một nút và tổng trọng số (theo số lượng ví dụ) của entropy của các nút con. Độ hỗn loạn của một nút là độ hỗn loạn của các ví dụ trong nút đó.

Ví dụ: hãy xem xét các giá trị entropy sau:

  • entropy của nút mẹ = 0,6
  • entropy của một nút con có 16 ví dụ có liên quan = 0,2
  • entropy của một nút con khác có 24 ví dụ có liên quan = 0,1

Vì vậy, 40% ví dụ nằm trong một nút con và 60% nằm trong nút con còn lại. Vì thế:

  • tổng entropy có trọng số của các nút con = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Do đó, lợi ích thông tin là:

  • thông tin thu được = entropy của nút mẹ – tổng entropy có trọng số của các nút con
  • thông tin thu được = 0,6 – 0,14 = 0,46

Hầu hết trình phân tách đều tìm cách tạo điều kiện giúp tăng tối đa lượng thông tin thu được.

mức độ đồng thuận giữa các người đánh giá

#Metric

Chỉ số đo lường tần suất người đánh giá đồng ý khi thực hiện một nhiệm vụ. Nếu người đánh giá không đồng ý, bạn có thể cần phải cải thiện hướng dẫn thực hiện nhiệm vụ. Đôi khi còn được gọi là tỷ lệ đồng thuận giữa người chú thích hoặc độ tin cậy giữa người đánh giá. Xem thêm về kappa của Cohen, đây là một trong những phép đo độ đồng thuận giữa các người đánh giá phổ biến nhất.

Hãy xem phần Dữ liệu phân loại: Các vấn đề thường gặp trong khoá học cấp tốc về học máy để biết thêm thông tin.

L

Mất L1

#fundamentals
#Metric

Hàm tổn thất tính toán giá trị tuyệt đối của chênh lệch giữa các giá trị thẻ thực tế và các giá trị mà mô hình dự đoán. Ví dụ: dưới đây là cách tính toán tổn thất L1 cho một gồm 5 ví dụ:

Giá trị thực tế của ví dụ Giá trị dự đoán của mô hình Giá trị tuyệt đối của delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = tổn thất L1

Mất mát L1 ít nhạy cảm với điểm ngoại lai hơn mất mát L2.

Sai số tuyệt đối trung bình là tổn thất trung bình L1 trên mỗi ví dụ.

L1loss=ni=0|yiˆyi|

trong đó:
  • n là số lượng ví dụ.
  • y là giá trị thực tế của nhãn.
  • ˆy là giá trị mà mô hình dự đoán cho y.

Hãy xem phần Phương pháp hồi quy tuyến tính: Mất trong khoá học cấp tốc về học máy để biết thêm thông tin.

Mất L2

#fundamentals
#Metric

Hàm tổn thất tính toán bình phương của chênh lệch giữa các giá trị thẻ thực tế và các giá trị mà mô hình dự đoán. Ví dụ: sau đây là cách tính toán tổn thất L2 cho một gồm 5 ví dụ:

Giá trị thực tế của ví dụ Giá trị dự đoán của mô hình Delta vuông
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = tổn thất L2

Do việc bình phương, tổn thất L2 làm tăng ảnh hưởng của điểm ngoại lai. Tức là tổn thất L2 phản ứng mạnh mẽ hơn với các dự đoán không chính xác so với tổn thất L1. Ví dụ: tổn thất L1 cho lô trước đó sẽ là 8 thay vì 16. Lưu ý rằng một giá trị ngoại lai chiếm 9 trong số 16 giá trị.

Các mô hình hồi quy thường sử dụng hàm tổn thất L2 làm hàm tổn thất.

Sai số bình phương trung bình là tổn thất trung bình L2 trên mỗi ví dụ. Tổn thất bình phương là một tên khác của tổn thất L2.

L2loss=ni=0(yiˆyi)2

trong đó:
  • n là số lượng ví dụ.
  • y là giá trị thực tế của nhãn.
  • ˆy là giá trị mà mô hình dự đoán cho y.

Hãy xem phần Logistic regression: Loss and regularization (Phương pháp hồi quy logistic: Mất và điều chỉnh) trong khoá học cấp tốc về học máy để biết thêm thông tin.

Đánh giá LLM (evals)

#language
#generativeAI
#Metric

Một bộ chỉ số và điểm chuẩn để đánh giá hiệu suất của mô hình ngôn ngữ lớn (LLM). Ở cấp độ cao, các hoạt động đánh giá LLM:

  • Giúp các nhà nghiên cứu xác định những khía cạnh cần cải thiện đối với LLM.
  • Hữu ích trong việc so sánh các LLM khác nhau và xác định LLM tốt nhất cho một tác vụ cụ thể.
  • Giúp đảm bảo rằng LLM được sử dụng một cách an toàn và hợp lý.

Hãy xem phần Mô hình ngôn ngữ lớn (LLM) trong khoá học Học máy ứng dụng để biết thêm thông tin.

thua

#fundamentals
#Metric

Trong quá trình huấn luyện một mô hình được giám sát, một chỉ số đo lường khoảng cách giữa dự đoán của mô hình với nhãn của mô hình đó.

Hàm tổn thất sẽ tính toán tổn thất.

Hãy xem phần Phương pháp hồi quy tuyến tính: Mất trong khoá học cấp tốc về học máy để biết thêm thông tin.

hàm tổn thất

#fundamentals
#Metric

Trong quá trình huấn luyện hoặc kiểm thử, một hàm toán học sẽ tính toán tổn thất trên một ví dụ. Hàm tổn thất trả về tổn thất thấp hơn cho các mô hình đưa ra dự đoán chính xác hơn so với các mô hình đưa ra dự đoán không chính xác.

Mục tiêu của quá trình huấn luyện thường là giảm thiểu tổn thất mà hàm tổn thất trả về.

Có nhiều loại hàm tổn thất. Chọn hàm tổn thất phù hợp với loại mô hình bạn đang xây dựng. Ví dụ:

M

Sai số tuyệt đối trung bình (MAE)

#Metric

Mức hao tổn trung bình trên mỗi ví dụ khi sử dụng mức hao tổn L1. Tính Sai số tuyệt đối trung bình như sau:

  1. Tính toán tổn thất L1 cho một lô.
  2. Chia tổn thất L1 cho số lượng ví dụ trong lô.

Mean Absolute Error=1nni=0|yiˆyi|

trong đó:

  • n là số lượng ví dụ.
  • y là giá trị thực tế của nhãn.
  • ˆy là giá trị mà mô hình dự đoán cho y.

Ví dụ: hãy xem xét cách tính tổn thất L1 trên lô gồm 5 ví dụ sau:

Giá trị thực tế của ví dụ Giá trị dự đoán của mô hình Mức hao tổn (chênh lệch giữa giá trị thực tế và giá trị dự đoán)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = tổn thất L1

Do đó, tổn thất L1 là 8 và số lượng ví dụ là 5. Do đó, Sai số tuyệt đối trung bình là:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

So sánh Sai số tuyệt đối trung bình với Sai số bình phương trung bìnhSai số bình phương trung bình gốc.

độ chính xác trung bình tại k (mAP@k)

#language
#generativeAI
#Metric

Giá trị trung bình thống kê của tất cả điểm số độ chính xác trung bình tại k trên một tập dữ liệu xác thực. Một cách sử dụng độ chính xác trung bình tại k là để đánh giá chất lượng của các đề xuất do hệ thống đề xuất tạo ra.

Mặc dù cụm từ "trung bình trung bình" nghe có vẻ thừa thãi, nhưng tên của chỉ số này là phù hợp. Xét cho cùng, chỉ số này tìm giá trị trung bình của nhiều giá trị độ chính xác trung bình tại k.

Giả sử bạn xây dựng một hệ thống đề xuất tạo danh sách tiểu thuyết được đề xuất dành riêng cho từng người dùng. Dựa trên ý kiến phản hồi của một số người dùng được chọn, bạn sẽ tính toán 5 độ chính xác trung bình sau đây tại k điểm (một điểm cho mỗi người dùng):

  • 0,73
  • 0,77
  • 0,67
  • 0,82
  • 0,76

Do đó, Độ chính xác trung bình trung bình tại K là:

mean =0.73 + 0.77 + 0.67 + 0.82 + 0.765=0.75

Sai số bình phương trung bình (MSE)

#Metric

Mức hao tổn trung bình trên mỗi ví dụ khi sử dụng mức hao tổn L2. Tính Sai số bình phương trung bình như sau:

  1. Tính toán tổn thất L2 cho một lô.
  2. Chia tổn thất L2 cho số lượng ví dụ trong lô.
Mean Squared Error=1nni=0(yiˆyi)2 trong đó:
  • n là số lượng ví dụ.
  • y là giá trị thực tế của nhãn.
  • ˆy là giá trị dự đoán của mô hình cho y.

Ví dụ: hãy xem xét tổn thất trên lô gồm 5 ví dụ sau:

Giá trị thực tế Dự đoán của mô hình Thua Tổn thất bình phương
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = tổn thất L2

Do đó, Sai số bình phương trung bình là:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Sai số bình phương trung bình là một trình tối ưu hoá phổ biến trong quá trình huấn luyện, đặc biệt là đối với bước hồi quy tuyến tính.

So sánh Sai số bình phương trung bình với Sai số tuyệt đối trung bìnhSai số trung bình bình phương căn bậc hai.

TensorFlow Playground sử dụng Mean Squared Error (Sai số bình phương trung bình) để tính toán các giá trị tổn thất.

Các giá trị ngoại lai ảnh hưởng mạnh đến Sai số bình phương trung bình. Ví dụ: tổn thất 1 là tổn thất bình phương 1, nhưng tổn thất 3 là tổn thất bình phương 9. Trong bảng trước, ví dụ có 3 giá trị bị mất chiếm khoảng 56% của Sai số trung bình bình phương, trong khi mỗi ví dụ có 1 giá trị bị mất chỉ chiếm 6% của Sai số trung bình bình phương.

Giá trị ngoại lai không ảnh hưởng mạnh đến Sai số tuyệt đối trung bình như Sai số bình phương trung bình. Ví dụ: việc mất 3 tài khoản chỉ chiếm khoảng 38% của Mean Absolute Error (Lỗi tuyệt đối trung bình).

Cắt bỏ là một cách để ngăn các giá trị ngoại lai cực đoan làm hỏng khả năng dự đoán của mô hình.


chỉ số

#TensorFlow
#Metric

Một số liệu thống kê mà bạn quan tâm.

Mục tiêu là một chỉ số mà hệ thống học máy cố gắng tối ưu hoá.

API chỉ số (tf.metrics)

#Metric

API TensorFlow để đánh giá mô hình. Ví dụ: tf.metrics.accuracy xác định tần suất dự đoán của mô hình khớp với nhãn.

tổn thất minimax

#Metric

Hàm tổn thất cho mạng đối kháng tạo sinh, dựa trên entropy chéo giữa phân phối dữ liệu được tạo và dữ liệu thực.

Mất mát Minimax được sử dụng trong bài báo đầu tiên để mô tả mạng đối kháng tạo sinh.

Hãy xem phần Hàm tổn thất trong khoá học về Mạng đối kháng tạo sinh để biết thêm thông tin.

dung lượng mô hình

#Metric

Mức độ phức tạp của các vấn đề mà mô hình có thể học được. Mô hình càng có thể học được các vấn đề phức tạp thì dung lượng của mô hình càng cao. Dung lượng của mô hình thường tăng theo số lượng tham số mô hình. Để biết định nghĩa chính thức về dung lượng của bộ phân loại, hãy xem phương diện VC.

Không

lớp âm

#fundamentals
#Metric

Trong phân loại nhị phân, một lớp được gọi là tích cực và lớp còn lại được gọi là tiêu cực. Lớp dương là đối tượng hoặc sự kiện mà mô hình đang kiểm thử và lớp âm là khả năng khác. Ví dụ:

  • Lớp âm tính trong một bài kiểm tra y tế có thể là "không phải khối u".
  • Lớp âm trong một bộ phân loại email có thể là "không phải nội dung rác".

Tương phản với lớp dương.

O

mục tiêu

#Metric

Một chỉ số mà thuật toán của bạn đang cố gắng tối ưu hoá.

hàm mục tiêu

#Metric

Công thức toán học hoặc chỉ số mà mô hình hướng đến tối ưu hoá. Ví dụ: hàm mục tiêu cho bước hồi quy tuyến tính thường là Mất mát bình phương trung bình. Do đó, khi huấn luyện mô hình hồi quy tuyến tính, mục tiêu của quá trình huấn luyện là giảm thiểu Mức hao tổn bình phương trung bình.

Trong một số trường hợp, mục tiêu là tối đa hoá hàm mục tiêu. Ví dụ: nếu hàm mục tiêu là độ chính xác, thì mục tiêu là tối đa hoá độ chính xác.

Xem thêm mất.

Điểm

truyền tại k (pass@k)

#Metric

Một chỉ số để xác định chất lượng của mã (ví dụ: Python) mà mô hình ngôn ngữ lớn tạo ra. Cụ thể hơn, việc vượt qua k cho bạn biết khả năng ít nhất một khối mã được tạo trong số k khối mã được tạo sẽ vượt qua tất cả các bài kiểm thử đơn vị.

Mô hình ngôn ngữ lớn thường gặp khó khăn trong việc tạo mã tốt cho các vấn đề lập trình phức tạp. Các kỹ sư phần mềm thích ứng với vấn đề này bằng cách nhắc mô hình ngôn ngữ lớn tạo ra nhiều (k) giải pháp cho cùng một vấn đề. Sau đó, kỹ sư phần mềm sẽ kiểm thử từng giải pháp dựa trên kiểm thử đơn vị. Việc tính toán số lần vượt qua ở k phụ thuộc vào kết quả của các bài kiểm thử đơn vị:

  • Nếu một hoặc nhiều giải pháp trong số đó vượt qua kiểm thử đơn vị, thì LLM sẽ Vượt qua thử thách tạo mã đó.
  • Nếu không có giải pháp nào vượt qua được kiểm thử đơn vị, thì LLM sẽ Không thành công trong thử thách tạo mã đó.

Công thức để truyền tại k như sau:

pass at k=total number of passestotal number of challenges

Nhìn chung, giá trị k càng cao thì tỷ lệ vượt qua ở điểm k càng cao; tuy nhiên, giá trị k càng cao thì càng cần nhiều tài nguyên kiểm thử đơn vị và mô hình ngôn ngữ lớn hơn.

Giả sử một kỹ sư phần mềm yêu cầu một mô hình ngôn ngữ lớn tạo ra k=10 giải pháp cho n=50 vấn đề lập trình khó khăn. Sau đây là kết quả:

  • 30 thẻ/vé
  • 20 lần không thành công

Do đó, điểm đạt được là 10:

pass at 10=3050=0.6

hiệu quả hoạt động

#Metric

Thuật ngữ nạp chồng có các nghĩa sau:

  • Ý nghĩa chuẩn trong kỹ thuật phần mềm. Cụ thể: Phần mềm này chạy nhanh (hoặc hiệu quả) đến mức nào?
  • Ý nghĩa trong học máy. Ở đây, hiệu suất trả lời câu hỏi sau: Mô hình này chính xác đến mức nào? Tức là, độ chính xác của kết quả dự đoán của mô hình là bao nhiêu?

mức độ quan trọng của biến hoán vị

#df
#Metric

Một loại tầm quan trọng của biến đánh giá mức tăng của lỗi dự đoán của một mô hình sau khi hoán vị các giá trị của đặc điểm. Tầm quan trọng của biến hoán vị là một chỉ số không phụ thuộc vào mô hình.

độ hỗn loạn

#Metric

Một chỉ số đo lường mức độ hiệu quả của một mô hình trong việc hoàn thành nhiệm vụ. Ví dụ: giả sử nhiệm vụ của bạn là đọc vài chữ cái đầu tiên của một từ mà người dùng đang nhập trên bàn phím điện thoại và cung cấp danh sách các từ có thể hoàn thành. Mức độ phức tạp, P, cho nhiệm vụ này gần bằng số lượng dự đoán bạn cần đưa ra để danh sách của bạn chứa từ thực tế mà người dùng đang cố gắng nhập.

Mức độ phức tạp liên quan đến entropy chéo như sau:

P=2cross entropy

lớp dương

#fundamentals
#Metric

Lớp mà bạn đang kiểm thử.

Ví dụ: lớp dương tính trong mô hình ung thư có thể là "u". Lớp dương trong một trình phân loại email có thể là "thư rác".

Tương phản với lớp âm.

Thuật ngữ lớp dương tính có thể gây nhầm lẫn vì kết quả "dương tính" của nhiều bài kiểm thử thường là kết quả không mong muốn. Ví dụ: lớp dương tính trong nhiều xét nghiệm y tế tương ứng với khối u hoặc bệnh tật. Nói chung, bạn muốn bác sĩ nói với bạn rằng: "Chúc mừng! Kết quả xét nghiệm của bạn là âm tính". Dù sao, lớp dương tính là sự kiện mà kiểm thử đang tìm kiếm.

Bạn đang đồng thời kiểm thử cả lớp tích cực và lớp âm.


AUC PR (diện tích dưới đường cong PR)

#Metric

Diện tích dưới đường cong độ chính xác-độ hồi quy nội suy, thu được bằng cách lập biểu đồ các điểm (độ hồi quy, độ chính xác) cho các giá trị khác nhau của ngưỡng phân loại.

độ chính xác

#Metric

Một chỉ số cho mô hình phân loại giúp trả lời câu hỏi sau:

Khi mô hình dự đoán lớp dương, tỷ lệ phần trăm dự đoán chính xác là bao nhiêu?

Sau đây là công thức:

Precision=true positivestrue positives+false positives

trong đó:

  • dương tính thật có nghĩa là mô hình đã dự đoán chính xác lớp dương tính.
  • dương tính giả có nghĩa là mô hình nhầm lẫn dự đoán lớp dương.

Ví dụ: giả sử một mô hình đã đưa ra 200 dự đoán dương tính. Trong số 200 cụm từ gợi ý tích cực này:

  • 150 là số lượng dương tính thật.
  • 50 trường hợp là dương tính giả.

Trong trường hợp này:

Precision=150150+50=0.75

Tương phản với độ chính xáctỷ lệ thu hồi.

Hãy xem phần Phân loại: Độ chính xác, tỷ lệ thu hồi, độ chính xác và các chỉ số liên quan trong khoá học cấp tốc về học máy để biết thêm thông tin.

độ chính xác tại k (precision@k)

#language
#Metric

Chỉ số để đánh giá danh sách các mục được xếp hạng (theo thứ tự). Độ chính xác tại k xác định tỷ lệ phần trăm các mục k đầu tiên trong danh sách đó là "liên quan". Đó là:

precision at k=relevant items in first k items of the listk

Giá trị của k phải nhỏ hơn hoặc bằng độ dài của danh sách được trả về. Xin lưu ý rằng độ dài của danh sách được trả về không thuộc phạm vi tính toán.

Mức độ phù hợp thường mang tính chủ quan; ngay cả người đánh giá là chuyên gia cũng thường không đồng ý về những mục nào là phù hợp.

So với:

Giả sử một mô hình ngôn ngữ lớn được cung cấp truy vấn sau:

List the 6 funniest movies of all time in order.

Và mô hình ngôn ngữ lớn sẽ trả về danh sách hiển thị trong hai cột đầu tiên của bảng sau:

Vị trí Phim Có liên quan không?
1 Tướng
2 Mean Girls
3 Platoon Không
4 Phù dâu
5 Citizen Kane Không
6 This is Spinal Tap

Hai trong số 3 bộ phim đầu tiên có liên quan, vì vậy, độ chính xác ở 3 là:

precision at 3=23=0.67

4 trong số 5 bộ phim đầu tiên rất hài hước, vì vậy, độ chính xác ở mức 5 là:

precision at 5=45=0.8

đường cong độ chính xác-tỷ lệ thu hồi

#Metric

Đường cong độ chính xác so với độ chính xác ở các ngưỡng phân loại khác nhau.

thiên kiến dự đoán

#Metric

Một giá trị cho biết mức độ chênh lệch giữa giá trị trung bình của dự đoán với giá trị trung bình của nhãn trong tập dữ liệu.

Đừng nhầm lẫn với thời hạn thiên vị trong các mô hình học máy hoặc với thiên vị về đạo đức và công bằng.

tính năng tương đương dự đoán

#fairness
#Metric

Chỉ số công bằng kiểm tra xem đối với một bộ phân loại nhất định, tỷ lệ độ chính xác có tương đương với các nhóm con đang được xem xét hay không.

Ví dụ: một mô hình dự đoán khả năng được nhận vào trường đại học sẽ đáp ứng tính tương đương dự đoán về quốc tịch nếu tỷ lệ chính xác của mô hình này giống nhau đối với người Lilliput và người Brobdingnag.

Đôi khi, tính năng cân bằng giá dự đoán còn được gọi là cân bằng giá dự đoán.

Hãy xem phần "Giải thích định nghĩa về tính công bằng" (mục 3.2.1) để thảo luận chi tiết hơn về tính năng so sánh dự đoán.

tỷ giá dự đoán

#fairness
#Metric

Tên khác của tính năng so khớp dự đoán.

hàm mật độ xác suất

#Metric

Hàm xác định tần suất của các mẫu dữ liệu có chính xác một giá trị cụ thể. Khi các giá trị của tập dữ liệu là số dấu phẩy động liên tục, hiếm khi xảy ra trường hợp khớp chính xác. Tuy nhiên, việc tích hợp hàm mật độ xác suất từ giá trị x đến giá trị y sẽ tạo ra tần suất dự kiến của các mẫu dữ liệu giữa xy.

Ví dụ: hãy xem xét một phân phối chuẩn có giá trị trung bình là 200 và độ lệch chuẩn là 30. Để xác định tần suất dự kiến của các mẫu dữ liệu nằm trong phạm vi từ 211,4 đến 218,7, bạn có thể tích hợp hàm mật độ xác suất cho một phân phối chuẩn từ 211,4 đến 218,7.

Điểm

mức độ ghi nhớ

#Metric

Một chỉ số cho mô hình phân loại giúp trả lời câu hỏi sau:

Khi đầu ra thực sựlớp dương tính, mô hình đã xác định chính xác bao nhiêu phần trăm dự đoán là lớp dương tính?

Sau đây là công thức:

Recall=true positivestrue positives+false negatives

trong đó:

  • dương tính thật có nghĩa là mô hình đã dự đoán chính xác lớp dương tính.
  • kết quả âm tính giả có nghĩa là mô hình nhầm lẫn dự đoán lớp âm tính.

Ví dụ: giả sử mô hình của bạn đã đưa ra 200 dự đoán về các ví dụ mà giá trị thực tế là lớp dương tính. Trong số 200 cụm từ gợi ý này:

  • 180 là số lượng dương tính thật.
  • 20 trường hợp là âm tính giả.

Trong trường hợp này:

Recall=180180+20=0.9

Mức độ hồi quy đặc biệt hữu ích để xác định khả năng dự đoán của các mô hình phân loại, trong đó lớp dương tính hiếm khi xuất hiện. Ví dụ: hãy xem xét một dữ liệu tập hợp không cân bằng về lớp trong đó lớp dương tính cho một bệnh nhất định chỉ xảy ra ở 10 bệnh nhân trong số một triệu bệnh nhân. Giả sử mô hình của bạn đưa ra 5 triệu dự đoán và thu được các kết quả sau:

  • 30 giá trị dương tính thật
  • 20 kết quả âm tính giả
  • 4.999.000 giá trị âm tính thật
  • 950 kết quả dương tính giả

Do đó, hàm gọi lại của mô hình này là:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%
Ngược lại, độ chính xác của mô hình này là:
accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Giá trị độ chính xác cao đó trông rất ấn tượng nhưng về cơ bản là vô nghĩa. Khả năng gợi nhắc là một chỉ số hữu ích hơn nhiều so với độ chính xác đối với các tập dữ liệu không cân bằng về loại.


Hãy xem bài viết Phân loại: Độ chính xác, tỷ lệ thu hồi, độ chính xác và các chỉ số liên quan để biết thêm thông tin.

gọi lại tại k (recall@k)

#language
#Metric

Chỉ số để đánh giá các hệ thống đưa ra danh sách các mục được xếp hạng (theo thứ tự). Mức độ gợi nhắc tại k xác định tỷ lệ phần trăm các mục có liên quan trong k mục đầu tiên trong danh sách đó trên tổng số mục có liên quan được trả về.

recall at k=relevant items in first k items of the listtotal number of relevant items in the list

So sánh với độ chính xác tại k.

Giả sử một mô hình ngôn ngữ lớn được cung cấp truy vấn sau:

List the 10 funniest movies of all time in order.

Và mô hình ngôn ngữ lớn sẽ trả về danh sách hiển thị trong hai cột đầu tiên:

Vị trí Phim Có liên quan không?
1 Tướng
2 Mean Girls
3 Platoon Không
4 Phù dâu
5 This is Spinal Tap
6 Máy bay!
7 Groundhog Day
8 Monty Python and the Holy Grail
9 Oppenheimer Không
10 Clueless

8 trong số các bộ phim trong danh sách trước rất hài hước, vì vậy, chúng là "các mục có liên quan trong danh sách". Do đó, 8 sẽ là mẫu số trong tất cả các phép tính về tỷ lệ gợi nhắc tại k. Còn mẫu số thì sao? 3 trong số 4 mục đầu tiên có liên quan, vì vậy, khi gợi nhắc ở 4, bạn sẽ thấy:

recall at 4=38=0.375

7 trong số 8 bộ phim đầu tiên rất hài hước, vì vậy, khi nhớ đến 8, bạn sẽ có:

recall at 8=78=0.875

Đường cong ROC (đường cong đặc trưng hoạt động của bộ thu)

#fundamentals
#Metric

Biểu đồ tỷ lệ dương tính thực sự so với tỷ lệ dương tính giả cho nhiều ngưỡng phân loại trong phân loại nhị phân.

Hình dạng của đường cong ROC cho biết khả năng của mô hình phân loại nhị phân trong việc tách các lớp dương tính khỏi các lớp âm tính. Ví dụ: giả sử một mô hình phân loại nhị phân tách biệt hoàn toàn tất cả các lớp âm với tất cả các lớp dương:

Một đường số có 8 ví dụ dương ở bên phải và
          7 ví dụ âm ở bên trái.

Đường cong ROC cho mô hình trước có dạng như sau:

Đường cong ROC. Trục x là Tỷ lệ dương tính giả và trục y là Tỷ lệ dương tính thật. Đường cong có hình chữ L ngược. Đường cong bắt đầu tại (0,0) và đi thẳng lên (0,1). Sau đó, đường cong sẽ đi từ (0,1) đến (1,1).

Ngược lại, hình minh hoạ sau đây biểu đồ các giá trị hồi quy logistic thô cho một mô hình tệ hại không thể tách biệt các lớp âm với các lớp dương:

Một dòng số có các ví dụ dương và lớp âm lẫn lộn hoàn toàn.

Đường cong ROC cho mô hình này có dạng như sau:

Đường cong ROC, thực chất là một đường thẳng từ (0,0) đến (1,1).

Trong khi đó, trở lại thực tế, hầu hết các mô hình phân loại nhị phân đều tách các lớp dương và âm ở một mức độ nào đó, nhưng thường không hoàn hảo. Do đó, một đường cong ROC điển hình nằm ở đâu đó giữa hai điểm cực đoan:

Đường cong ROC. Trục x là Tỷ lệ dương tính giả và trục y là Tỷ lệ dương tính thật. Đường cong ROC gần giống với một vòng cung không ổn định
          đi qua các điểm la bàn từ Tây sang Bắc.

Theo lý thuyết, điểm trên đường cong ROC gần nhất với (0,0,1,0) sẽ xác định ngưỡng phân loại lý tưởng. Tuy nhiên, một số vấn đề thực tế khác ảnh hưởng đến việc lựa chọn ngưỡng phân loại lý tưởng. Ví dụ: có thể kết quả âm tính giả gây ra nhiều phiền toái hơn kết quả dương tính giả.

Một chỉ số dạng số có tên là AUC tóm tắt đường cong ROC thành một giá trị dấu phẩy động duy nhất.

Sai số trung bình bình phương căn bậc hai (RMSE)

#fundamentals
#Metric

Căn bậc hai của Sai số bình phương trung bình.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation – Mô hình đánh giá tóm tắt dựa trên khả năng gợi nhắc)

#language
#Metric

Một nhóm chỉ số đánh giá các mô hình dịch máy và tóm tắt tự động. Chỉ số ROUGE xác định mức độ trùng lặp giữa văn bản tham chiếuvăn bản do mô hình học máy tạo. Mỗi thành viên trong gia đình ROUGE đo lường mức độ trùng lặp theo cách khác nhau. Điểm ROUGE cao hơn cho biết mức độ tương đồng giữa văn bản tham chiếu và văn bản được tạo cao hơn so với điểm ROUGE thấp hơn.

Mỗi thành viên trong gia đình ROUGE thường tạo ra các chỉ số sau:

  • Chính xác
  • Nhớ lại
  • F1

Để biết thông tin chi tiết và ví dụ, hãy xem:

ROUGE-L

#language
#Metric

Một thành viên của gia đình ROUGE tập trung vào độ dài của chuỗi con chung dài nhất trong văn bản tham chiếuvăn bản được tạo. Các công thức sau đây tính toán tỷ lệ thu hồi và độ chính xác cho ROUGE-L:

ROUGE-L recall=longest common sequencenumber of words in the reference text
ROUGE-L precision=longest common sequencenumber of words in the generated text

Sau đó, bạn có thể sử dụng F1 để cuộn lên độ thu hồi ROUGE-L và độ chính xác ROUGE-L thành một chỉ số duy nhất:

ROUGE-L F1=2ROUGE-L recallROUGE-L precisionROUGE-L recall+ROUGE-L precision
Hãy xem xét văn bản tham chiếu và văn bản được tạo sau đây.
Danh mục Ai sản xuất? Văn bản
Văn bản tham khảo Người phiên dịch Tôi muốn hiểu biết nhiều thứ.
Văn bản được tạo Mô hình học máy Tôi muốn tìm hiểu nhiều thứ.
Do đó:
  • Chuỗi con chung dài nhất là 5 (I want to of things)
  • Số từ trong văn bản tham chiếu là 9.
  • Số từ trong văn bản được tạo là 7.
Do đó:
ROUGE-L recall=59=0.56
ROUGE-L precision=57=0.71
ROUGE-L F1=20.560.710.56+0.71=0.63

ROUGE-L bỏ qua mọi dòng mới trong văn bản tham chiếu và văn bản được tạo, vì vậy, trình tự con chung dài nhất có thể vượt qua nhiều câu. Khi văn bản tham chiếu và văn bản được tạo có nhiều câu, một biến thể của ROUGE-L có tên là ROUGE-Lsum thường là chỉ số tốt hơn. ROUGE-Lsum xác định trình tự con chung dài nhất cho mỗi câu trong một đoạn văn, sau đó tính trung bình của các trình tự con chung dài nhất đó.

Hãy xem xét văn bản tham chiếu và văn bản được tạo sau đây.
Danh mục Ai sản xuất? Văn bản
Văn bản tham khảo Người phiên dịch Bề mặt của Sao Hoả khô. Gần như toàn bộ lượng nước đều nằm sâu dưới lòng đất.
Văn bản được tạo Mô hình học máy Sao Hoả có bề mặt khô. Tuy nhiên, phần lớn nước lại nằm dưới lòng đất.
Vì thế:
Câu đầu tiên Câu thứ hai
Trình tự chung dài nhất2 (Khô trên sao Hoả) 3 (nước ngầm)
Độ dài câu của văn bản tham chiếu 6 7
Độ dài câu của văn bản được tạo 5 8
Do đó:
recall of first sentence=26=0.33
recall of second sentence=37=0.43
ROUGE-Lsum recall=0.33+0.432=0.38
precision of first sentence=25=0.4
precision of second sentence=38=0.38
ROUGE-Lsum precision=0.4+0.382=0.39
ROUGE-Lsum F1=20.380.390.38+0.39=0.38

ROUGE-N

#language
#Metric

Một tập hợp các chỉ số trong nhóm ROUGE so sánh các N-gram dùng chung có kích thước nhất định trong văn bản tham chiếuvăn bản được tạo. Ví dụ:

  • ROUGE-1 đo lường số lượng mã thông báo được chia sẻ trong văn bản tham chiếu và văn bản được tạo.
  • ROUGE-2 đo lường số lượng từ kép (2-gram) chung trong văn bản tham chiếu và văn bản được tạo.
  • ROUGE-3 đo lường số lượng bộ ba (3-gram) chung trong văn bản đối chiếu và văn bản được tạo.

Bạn có thể sử dụng các công thức sau để tính toán độ thu hồi ROUGE-N và độ chính xác ROUGE-N cho bất kỳ thành viên nào trong gia đình ROUGE-N:

ROUGE-N recall=number of matching N-gramsnumber of N-grams in the reference text
ROUGE-N precision=number of matching N-gramsnumber of N-grams in the generated text

Sau đó, bạn có thể sử dụng F1 để tổng hợp giá trị gợi nhắc ROUGE-N và độ chính xác ROUGE-N thành một chỉ số duy nhất:

ROUGE-N F1=2ROUGE-N recallROUGE-N precisionROUGE-N recall+ROUGE-N precision
Giả sử bạn quyết định sử dụng ROUGE-2 để đo lường hiệu quả của bản dịch của mô hình học máy so với bản dịch của người dịch.
Danh mục Ai sản xuất? Văn bản Hai từ
Văn bản tham khảo Người phiên dịch Tôi muốn hiểu biết nhiều thứ. Tôi muốn, muốn, muốn hiểu, hiểu một, một loạt, rất nhiều, nhiều thứ
Văn bản được tạo Mô hình học máy Tôi muốn tìm hiểu nhiều thứ. Tôi muốn, muốn, muốn học, học nhiều, nhiều, nhiều thứ
Do đó:
  • Số lượng từ ghép 2-gram khớp là 3 (I want (Tôi muốn), want to (muốn) và of things (những việc)).
  • Số lượng từ 2 âm tiết trong văn bản tham chiếu là 8.
  • Số lượng từ 2 âm tiết trong văn bản được tạo là 6.
Do đó:
ROUGE-2 recall=38=0.375
ROUGE-2 precision=36=0.5
ROUGE-2 F1=20.3750.50.375+0.5=0.43

ROUGE-S

#language
#Metric

Một dạng ROUGE-N dễ tính cho phép so khớp skip-gram. Tức là ROUGE-N chỉ tính N-gram khớp chính xác, nhưng ROUGE-S cũng tính N-gram được phân tách bằng một hoặc nhiều từ. Ví dụ: hãy cân nhắc những điều sau đây:

Khi tính toán ROUGE-N, cụm từ 2-gram White clouds (Mây trắng) không khớp với cụm từ White billowing clouds (Mây trắng cuồn cuộn). Tuy nhiên, khi tính toán ROUGE-S, Mây trắng khớp với Mây trắng cuồn cuộn.

R bình phương

#Metric

Chỉ số biến hồi quy cho biết mức độ biến thiên trong một thẻ là do một tính năng riêng lẻ hay một tập hợp tính năng. R-squared là một giá trị nằm trong khoảng từ 0 đến 1. Bạn có thể diễn giải giá trị này như sau:

  • R-squared bằng 0 có nghĩa là không có biến thể nào của nhãn là do tập hợp tính năng.
  • R-squared bằng 1 có nghĩa là tất cả các biến thể của nhãn đều là do tập hợp tính năng.
  • R-squared từ 0 đến 1 cho biết mức độ biến thiên của nhãn có thể được dự đoán từ một tính năng cụ thể hoặc tập hợp tính năng. Ví dụ: R-squared bằng 0,10 có nghĩa là 10% phương sai trong nhãn là do tập hợp tính năng, R-squared bằng 0,20 có nghĩa là 20% là do tập hợp tính năng, v.v.

R-squared là bình phương của hệ số tương quan Pearson giữa các giá trị mà mô hình dự đoán và giá trị thực tế.

S

tính điểm

#recsystems
#Metric

Một phần của hệ thống đề xuất cung cấp giá trị hoặc thứ hạng cho từng mục do giai đoạn tạo đề xuất tạo ra.

chỉ số tương đồng

#clustering
#Metric

Trong các thuật toán nhóm, chỉ số này dùng để xác định mức độ giống nhau (tương đồng) giữa hai ví dụ bất kỳ.

độ thưa

#Metric

Số phần tử được đặt thành 0 (hoặc rỗng) trong một vectơ hoặc ma trận chia cho tổng số mục trong vectơ hoặc ma trận đó. Ví dụ: hãy xem xét một ma trận gồm 100 phần tử, trong đó 98 ô chứa số 0. Cách tính độ thưa thớt như sau:

sparsity=98100=0.98

Mức độ thưa thớt của đặc điểm đề cập đến mức độ thưa thớt của một vectơ đặc điểm; mức độ thưa thớt của mô hình đề cập đến mức độ thưa thớt của các trọng số mô hình.

tổn thất khớp nối bình phương

#Metric

Bình phương của tổn thất khớp nối. Mức hao tổn khớp nối bình phương sẽ phạt các giá trị ngoại lai nghiêm khắc hơn so với mức hao tổn khớp nối thông thường.

tổn thất bình phương

#fundamentals
#Metric

Từ đồng nghĩa với tổn thất L2.

T

tổn thất kiểm thử

#fundamentals
#Metric

Chỉ số thể hiện mất mát của mô hình so với tập dữ liệu kiểm thử. Khi xây dựng một mô hình, bạn thường cố gắng giảm thiểu tổn thất thử nghiệm. Đó là do tổn thất kiểm thử thấp là một tín hiệu chất lượng mạnh hơn so với tổn thất huấn luyện hoặc tổn thất xác thực thấp.

Đôi khi, khoảng cách lớn giữa tổn thất kiểm thử và tổn thất huấn luyện hoặc tổn thất xác thực cho thấy rằng bạn cần tăng tỷ lệ chuẩn hoá.

độ chính xác top-k

#language
#Metric

Tỷ lệ phần trăm số lần "nhãn mục tiêu" xuất hiện trong k vị trí đầu tiên của danh sách đã tạo. Danh sách có thể là các đề xuất được cá nhân hoá hoặc danh sách các mục được sắp xếp theo softmax.

Độ chính xác top-k còn được gọi là độ chính xác tại k.

Hãy xem xét một hệ thống học máy sử dụng softmax để xác định xác suất cây dựa trên hình ảnh lá cây. Bảng sau đây cho thấy các danh sách đầu ra được tạo từ 5 hình ảnh cây đầu vào. Mỗi hàng chứa một nhãn mục tiêu và 5 cây có nhiều khả năng nhất. Ví dụ: khi nhãn mục tiêu là maple (maple), mô hình học máy đã xác định elm (sồi) là cây có nhiều khả năng nhất, oak (sồi) là cây có nhiều khả năng thứ hai, v.v.

Nhãn mục tiêu 1 2 3 4 5
cây phong elm sồi maple cây dẻ gai cây dương
cây sơn thù du sồi hoa mận cây dương hickory cây phong
sồi oak gỗ basswood châu chấu cây dương linden
linden cây phong paw-paw sồi gỗ basswood cây dương
sồi châu chấu linden oak cây phong paw-paw

Nhãn mục tiêu chỉ xuất hiện một lần ở vị trí đầu tiên, vì vậy, độ chính xác hàng đầu là:

top-1 accuracy=15=0.2

Nhãn mục tiêu xuất hiện ở một trong ba vị trí hàng đầu bốn lần, vì vậy, độ chính xác hàng đầu là:

top-1 accuracy=45=0.8

nội dung độc hại

#language
#Metric

Mức độ phản cảm, đe doạ hoặc lăng mạ của nội dung. Nhiều mô hình học máy có thể xác định và đo lường nội dung độc hại. Hầu hết các mô hình này xác định nội dung độc hại theo nhiều thông số, chẳng hạn như mức độ ngôn từ xúc phạm và mức độ ngôn từ đe doạ.

tổn thất trong quá trình huấn luyện

#fundamentals
#Metric

Một chỉ số thể hiện mất mát của mô hình trong một vòng lặp huấn luyện cụ thể. Ví dụ: giả sử hàm tổn thất là Sai số bình phương trung bình. Có thể tổn thất huấn luyện (Lỗi trung bình theo bình phương) cho lần lặp thứ 10 là 2,2 và tổn thất huấn luyện cho lần lặp thứ 100 là 1,9.

Đường cong tổn thất biểu thị tổn thất trong quá trình huấn luyện so với số lần lặp lại. Đường cong tổn thất cung cấp các gợi ý sau đây về quá trình huấn luyện:

  • Độ dốc hướng xuống cho biết mô hình đang cải thiện.
  • Độ dốc lên cho thấy mô hình đang trở nên tệ hơn.
  • Độ dốc phẳng ngụ ý rằng mô hình đã đạt đến trạng thái hội tụ.

Ví dụ: Đường cong tổn hao lý tưởng sau đây cho thấy:

  • Độ dốc giảm mạnh trong các lần lặp lại ban đầu, cho thấy mô hình được cải thiện nhanh chóng.
  • Độ dốc dần dần phẳng hơn (nhưng vẫn đi xuống) cho đến gần cuối quá trình huấn luyện, điều này có nghĩa là mô hình tiếp tục cải thiện ở tốc độ chậm hơn một chút so với trong các lần lặp lại ban đầu.
  • Độ dốc phẳng về cuối quá trình huấn luyện, cho thấy sự hội tụ.

Biểu đồ về tổn thất huấn luyện so với số lần lặp lại. Đường cong tổn thất này bắt đầu bằng một độ dốc giảm mạnh. Độ dốc dần dần trở nên phẳng cho đến khi độ dốc bằng 0.

Mặc dù tổn thất trong quá trình huấn luyện là quan trọng, nhưng bạn cũng nên xem xét tính tổng quát.

âm tính thật (TN)

#fundamentals
#Metric

Ví dụ về trường hợp mô hình đã dự đoán chính xác lớp âm tính. Ví dụ: mô hình suy luận rằng một thư email cụ thể không phải là thư rác và thư email đó thực sự không phải là thư rác.

dương tính thật (TP)

#fundamentals
#Metric

Ví dụ về trường hợp mô hình chính xác dự đoán lớp dương tính. Ví dụ: mô hình suy luận rằng một email cụ thể là thư rác và email đó thực sự là thư rác.

tỷ lệ dương tính thật (TPR)

#fundamentals
#Metric

Từ đồng nghĩa với gợi nhắc. Đó là:

true positive rate=true positivestrue positives+false negatives

Tỷ lệ dương tính thật là trục y trong đường cong ROC.

V

tổn thất xác thực

#fundamentals
#Metric

Một chỉ số thể hiện mất mát của mô hình trên tập dữ liệu xác thực trong một lặp lại cụ thể của quá trình huấn luyện.

Xem thêm đường cong tổng quát hoá.

mức độ quan trọng của biến

#df
#Metric

Một tập hợp điểm số cho biết mức độ quan trọng tương đối của từng tính năng đối với mô hình.

Ví dụ: hãy xem xét một cây quyết định giúp ước tính giá nhà. Giả sử cây quyết định này sử dụng 3 tính năng: kích thước, độ tuổi và kiểu dáng. Nếu một tập hợp các mức độ quan trọng của biến cho 3 đặc điểm được tính toán là {size=5.8, age=2.5, style=4.7}, thì kích thước sẽ quan trọng hơn đối với cây quyết định so với độ tuổi hoặc kiểu dáng.

Có nhiều chỉ số về tầm quan trọng của biến, có thể cung cấp thông tin cho các chuyên gia về học máy về nhiều khía cạnh của mô hình.

W

Hàm mất mát Wasserstein

#Metric

Một trong những hàm tổn thất thường được dùng trong mạng đối kháng tạo sinh, dựa trên khoảng cách của máy di chuyển đất giữa việc phân phối dữ liệu được tạo và dữ liệu thực.