Trang này chứa các thuật ngữ trong Bảng thuật ngữ về chỉ số. Để xem tất cả các thuật ngữ trong từ điển, hãy nhấp vào đây.
A
độ chính xác
Số dự đoán phân loại chính xác chia cho tổng số dự đoán. Đó là:
Ví dụ: một mô hình đưa ra 40 dự đoán chính xác và 10 dự đoán không chính xác sẽ có độ chính xác là:
Phân loại nhị phân cung cấp tên cụ thể cho các danh mục dự đoán chính xác và dự đoán không chính xác. Vì vậy, công thức độ chính xác cho phương pháp phân loại nhị phân là như sau:
trong đó:
- TP là số dương tính thật (dự đoán chính xác).
- TN là số dương tính giả (dự đoán chính xác).
- FP là số lượng dương tính giả (dự đoán không chính xác).
- FN là số lượng dương tính giả (dự đoán không chính xác).
So sánh và đối chiếu độ chính xác với độ chính xác và độ chính xác.
Nhấp vào biểu tượng để biết thông tin chi tiết về độ chính xác và tập dữ liệu không cân bằng về lớp.
Hãy xem phần Phân loại: Độ chính xác, tỷ lệ thu hồi, độ chính xác và các chỉ số liên quan trong khoá học cấp tốc về học máy để biết thêm thông tin.
diện tích dưới đường cong PR
Xem AUC PR (Diện tích dưới đường cong PR).
diện tích dưới đường cong ROC
Xem AUC (Diện tích dưới đường cong ROC).
AUC (Diện tích dưới đường cong ROC)
Một số từ 0 đến 1 thể hiện khả năng của mô hình phân loại nhị phân để tách các lớp dương khỏi các lớp âm. AUC càng gần 1.0 thì mô hình càng có khả năng phân tách các lớp với nhau.
Ví dụ: hình minh hoạ sau đây cho thấy một mô hình phân loại tách biệt hoàn toàn các lớp dương tính (hình bầu dục màu xanh lục) với các lớp âm tính (hình chữ nhật màu tím). Mô hình hoàn hảo không thực tế này có AUC là 1,0:
Ngược lại, hình minh hoạ sau đây cho thấy kết quả của một mô hình phân loại tạo ra kết quả ngẫu nhiên. Mô hình này có AUC là 0,5:
Có, mô hình trước đó có AUC là 0,5 chứ không phải 0,0.
Hầu hết các mô hình đều nằm ở đâu đó giữa hai thái cực này. Ví dụ: mô hình sau đây phân tách các giá trị dương khỏi các giá trị âm, do đó có AUC nằm trong khoảng từ 0,5 đến 1,0:
AUC bỏ qua mọi giá trị bạn đặt cho ngưỡng phân loại. Thay vào đó, AUC xem xét tất cả ngưỡng phân loại có thể có.
Nhấp vào biểu tượng này để tìm hiểu về mối quan hệ giữa AUC và đường cong ROC.
Nhấp vào biểu tượng để xem định nghĩa chính thức hơn về AUC.
Hãy xem phần Phân loại: ROC và AUC trong Khoá học học máy ứng dụng để biết thêm thông tin.
độ chính xác trung bình tại k
Một chỉ số để tóm tắt hiệu suất của một mô hình trên một câu lệnh duy nhất tạo ra kết quả được xếp hạng, chẳng hạn như danh sách đánh số các đề xuất sách. Độ chính xác trung bình tại k là trung bình của các giá trị độ chính xác tại k cho mỗi kết quả liên quan. Do đó, công thức tính độ chính xác trung bình tại k là:
average precision at k=1nn∑i=1precision at k for each relevant item
trong đó:
- n là số lượng mục có liên quan trong danh sách.
Tương phản với lệnh gọi lại tại k.
Nhấp vào biểu tượng để xem ví dụ
B
đường cơ sở
Mô hình được dùng làm điểm tham chiếu để so sánh hiệu suất của một mô hình khác (thường là mô hình phức tạp hơn). Ví dụ: mô hình hồi quy logistic có thể đóng vai trò là đường cơ sở phù hợp cho mô hình sâu.
Đối với một vấn đề cụ thể, đường cơ sở giúp nhà phát triển mô hình định lượng hiệu suất tối thiểu dự kiến mà mô hình mới phải đạt được để mô hình mới hữu ích.
C
chi phí
Từ đồng nghĩa với mất.
tính công bằng giả định
Chỉ số công bằng kiểm tra xem một thuật toán phân loại có đưa ra kết quả giống nhau cho một cá nhân và một cá nhân khác giống hệt với cá nhân đầu tiên hay không, ngoại trừ một hoặc nhiều thuộc tính nhạy cảm. Đánh giá một thuật toán phân loại về tính công bằng giả định là một phương pháp để đưa ra các nguồn tiềm ẩn gây ra thiên kiến trong mô hình.
Hãy xem một trong những nội dung sau để biết thêm thông tin:
- Công bằng: Công bằng giả định trong khoá học Học máy ứng dụng.
- When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness (Khi các thế giới va chạm: Tích hợp các giả định đối chứng khác nhau trong tính công bằng)
entropy chéo
Tổng quát hoá Mất mát theo nhật ký cho các vấn đề phân loại đa lớp. Độ chênh lệch entropy định lượng sự khác biệt giữa hai hàm phân phối xác suất. Xem thêm perplexity.
hàm phân phối tích luỹ (CDF)
Hàm xác định tần suất của các mẫu nhỏ hơn hoặc bằng giá trị mục tiêu. Ví dụ: hãy xem xét một phân phối chuẩn của các giá trị liên tục. CDF cho bạn biết rằng khoảng 50% mẫu phải nhỏ hơn hoặc bằng trung bình và khoảng 84% mẫu phải nhỏ hơn hoặc bằng một độ lệch chuẩn cao hơn trung bình.
D
Tương đương về nhân khẩu học
Chỉ số công bằng được đáp ứng nếu kết quả phân loại của mô hình không phụ thuộc vào một thuộc tính nhạy cảm nhất định.
Ví dụ: nếu cả người Lilliput và người Brobdingnag đều đăng ký vào Đại học Glubbdubdrib, thì sự bình đẳng về nhân khẩu học sẽ đạt được nếu tỷ lệ phần trăm người Lilliput được nhận vào trường giống với tỷ lệ phần trăm người Brobdingnag được nhận vào trường, bất kể một nhóm có trung bình đủ điều kiện hơn nhóm còn lại hay không.
Tương phản với tỷ lệ cân bằng và bình đẳng về cơ hội, cho phép kết quả phân loại tổng hợp phụ thuộc vào các thuộc tính nhạy cảm, nhưng không cho phép kết quả phân loại cho một số nhãn đúng thực tế được chỉ định phụ thuộc vào các thuộc tính nhạy cảm. Hãy xem bài viết "Chống phân biệt bằng công nghệ học máy thông minh hơn" để xem hình ảnh trực quan khám phá những đánh đổi khi tối ưu hoá cho sự cân bằng về nhân khẩu học.
Hãy xem phần Tính công bằng: bình đẳng về nhân khẩu học trong Khoá học học máy ứng dụng để biết thêm thông tin.
E
khoảng cách của máy xúc đất (EMD)
Một chỉ số đo lường mức độ tương đồng tương đối của hai phân phối. Khoảng cách của máy ủi càng thấp thì mức phân phối càng giống nhau.
chỉnh sửa khoảng cách
Một phép đo mức độ tương đồng giữa hai chuỗi văn bản. Trong học máy, khoảng cách chỉnh sửa rất hữu ích vì những lý do sau:
- Dễ dàng tính toán khoảng cách chỉnh sửa.
- Khoảng cách chỉnh sửa có thể so sánh hai chuỗi được biết là tương tự nhau.
- Khoảng cách chỉnh sửa có thể xác định mức độ tương đồng giữa các chuỗi với một chuỗi nhất định.
Có một số định nghĩa về khoảng cách chỉnh sửa, mỗi định nghĩa sử dụng các thao tác chuỗi khác nhau. Hãy xem Khoảng cách Levenshtein để biết ví dụ.
hàm phân phối tích luỹ kinh nghiệm (eCDF hoặc EDF)
Hàm phân phối tích luỹ dựa trên các phép đo thực nghiệm từ một tập dữ liệu thực. Giá trị của hàm tại bất kỳ điểm nào dọc theo trục x là tỷ lệ phần trăm số quan sát trong tập dữ liệu nhỏ hơn hoặc bằng giá trị đã chỉ định.
entropy
Trong thuyết thông tin, entropy là một mô tả về mức độ khó dự đoán của một quá trình phân phối xác suất. Ngoài ra, entropy cũng được xác định là lượng thông tin mà mỗi ví dụ chứa. Một phân phối có entropi cao nhất có thể khi tất cả các giá trị của một biến ngẫu nhiên đều có khả năng như nhau.
Entanpi của một tập hợp có hai giá trị có thể là "0" và "1" (ví dụ: các nhãn trong bài toán phân loại nhị phân) có công thức sau:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
trong đó:
- H là entropy.
- p là phân số của các ví dụ "1".
- q là phân số của các ví dụ "0". Lưu ý rằng q = (1 - p)
- log thường là log2. Trong trường hợp này, đơn vị entropi là một bit.
Ví dụ: giả sử những điều sau:
- 100 ví dụ chứa giá trị "1"
- 300 ví dụ chứa giá trị "0"
Do đó, giá trị entropy là:
- p = 0,25
- q = 0,75
- H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit/ví dụ
Một tập hợp được cân bằng hoàn hảo (ví dụ: 200 "0" và 200 "1") sẽ có entropi là 1, 0 bit cho mỗi ví dụ. Khi một tập hợp trở nên không cân bằng hơn, entropy của tập hợp đó sẽ chuyển về 0.0.
Trong cây quyết định, entropy giúp xây dựng mức tăng thông tin để giúp trình phân tách chọn các điều kiện trong quá trình phát triển của cây quyết định phân loại.
So sánh entropy với:
- mức độ không tinh khiết theo chỉ số gini
- Hàm mất mát entropy chéo
Entanpi thường được gọi là entanpi của Shannon.
Hãy xem phần Bộ phân tách chính xác để phân loại nhị phân bằng các tính năng số trong khoá học Rừng quyết định để biết thêm thông tin.
bình đẳng về cơ hội
Chỉ số công bằng để đánh giá xem một mô hình có dự đoán kết quả mong muốn một cách đồng đều cho tất cả các giá trị của một thuộc tính nhạy cảm hay không. Nói cách khác, nếu kết quả mong muốn cho một mô hình là lớp dương tính, thì mục tiêu sẽ là để tỷ lệ dương tính thực sự giống nhau cho tất cả các nhóm.
Bình đẳng về cơ hội liên quan đến tỷ lệ cân bằng, trong đó yêu cầu cả tỷ lệ dương tính thực và tỷ lệ dương tính giả đều giống nhau đối với tất cả các nhóm.
Giả sử Đại học Glubbdubdrib nhận cả người Lilliput và người Brobdingnag vào một chương trình toán học nghiêm ngặt. Trường trung học của người Lilliput cung cấp một chương trình học vững chắc về các lớp học toán và phần lớn học sinh đều đủ điều kiện tham gia chương trình đại học. Các trường trung học của người Brobdingnag không hề cung cấp lớp học toán, do đó, số học sinh đủ điều kiện sẽ ít hơn nhiều. Cơ hội bình đẳng được đáp ứng đối với nhãn ưu tiên "được nhận" liên quan đến quốc tịch (Lilliputian hoặc Brobdingnagian) nếu học viên đủ tiêu chuẩn có khả năng được nhận như nhau, bất kể họ là Lilliputian hay Brobdingnagian.
Ví dụ: giả sử 100 người Lilliput và 100 người Brobdingnag đăng ký vào Đại học Glubbdubdrib và quyết định nhận sinh viên được đưa ra như sau:
Bảng 1. Người đăng ký Lilliputian (90% đủ điều kiện)
Đủ tiêu chuẩn | Không đủ tiêu chuẩn | |
---|---|---|
Đã được chấp nhận | 45 | 3 |
Bị từ chối | 45 | 7 |
Tổng | 90 | 10 |
Tỷ lệ phần trăm học viên đủ điều kiện được nhận: 45/90 = 50% Tỷ lệ phần trăm học viên không đủ điều kiện bị từ chối: 7/10 = 70% Tổng tỷ lệ phần trăm học viên Lilliputian được nhận: (45+3)/100 = 48% |
Bảng 2. Người đăng ký Brobdingnagian (10% đủ điều kiện):
Đủ tiêu chuẩn | Không đủ tiêu chuẩn | |
---|---|---|
Đã được chấp nhận | 5 | 9 |
Bị từ chối | 5 | 81 |
Tổng | 10 | 90 |
Tỷ lệ phần trăm học viên đủ điều kiện được nhận: 5/10 = 50% Tỷ lệ phần trăm học viên không đủ điều kiện bị từ chối: 81/90 = 90% Tổng tỷ lệ phần trăm học viên Brobdingnagian được nhận: (5+9)/100 = 14% |
Các ví dụ trước đáp ứng cơ hội bình đẳng để chấp nhận sinh viên đủ điều kiện vì cả người Lilliputian và Brobdingnagian đủ điều kiện đều có 50% cơ hội được nhận vào trường.
Mặc dù đáp ứng được tiêu chí bình đẳng về cơ hội, nhưng hai chỉ số công bằng sau đây lại không đáp ứng được:
- bình đẳng về nhân khẩu học: Người Lilliput và người Brobdingnag được nhận vào trường đại học theo tỷ lệ khác nhau; 48% sinh viên Lilliput được nhận, nhưng chỉ 14% sinh viên Brobdingnag được nhận.
- cơ hội bằng nhau: Mặc dù học viên Lilliputian và Brobdingnagian đủ điều kiện đều có cơ hội được nhận vào trường như nhau, nhưng điều kiện ràng buộc bổ sung là học viên Lilliputian và Brobdingnagian không đủ điều kiện đều có cơ hội bị từ chối như nhau thì không được thoả mãn. Những người Lilliputian không đủ điều kiện có tỷ lệ bị từ chối là 70%, trong khi những người Brobdingnag không đủ điều kiện có tỷ lệ bị từ chối là 90%.
Hãy xem phần Tính công bằng: Bình đẳng về cơ hội trong khoá học cấp tốc về học máy để biết thêm thông tin.
tỷ lệ cược bằng nhau
Một chỉ số công bằng để đánh giá xem một mô hình có dự đoán kết quả tốt như nhau cho tất cả các giá trị của một thuộc tính nhạy cảm đối với cả lớp tích cực và lớp tiêu cực hay không, chứ không chỉ một lớp hay lớp còn lại. Nói cách khác, cả tỷ lệ dương tính thực sự và tỷ lệ âm tính giả phải giống nhau đối với tất cả các nhóm.
Tỷ lệ cân bằng có liên quan đến bình đẳng về cơ hội, chỉ tập trung vào tỷ lệ lỗi của một lớp (dương hoặc âm).
Ví dụ: giả sử Đại học Glubbdubdrib nhận cả người Lilliput và người Brobdingnag vào một chương trình toán học nghiêm ngặt. Trường trung học của người Lilliput cung cấp một chương trình học mạnh mẽ về các lớp học toán và phần lớn học viên đều đủ điều kiện tham gia chương trình đại học. Các trường trung học của Brobdingnag không hề cung cấp các lớp học toán, do đó, rất ít học sinh đủ điều kiện. Điều kiện về tỷ lệ chênh lệch được đáp ứng miễn là không phân biệt ứng viên là người Lilliputian hay Brobdingnagian, nếu họ đủ điều kiện, họ có khả năng được nhận vào chương trình như nhau và nếu họ không đủ điều kiện, họ có khả năng bị từ chối như nhau.
Giả sử 100 người Lilliput và 100 người Brobdingnag đăng ký vào Đại học Glubbdubdrib và quyết định về việc nhập học được đưa ra như sau:
Bảng 3. Người đăng ký Lilliputian (90% đủ điều kiện)
Đủ tiêu chuẩn | Không đủ tiêu chuẩn | |
---|---|---|
Đã được chấp nhận | 45 | 2 |
Bị từ chối | 45 | 8 |
Tổng | 90 | 10 |
Tỷ lệ phần trăm học sinh đủ điều kiện được nhận: 45/90 = 50% Tỷ lệ phần trăm học sinh không đủ điều kiện bị từ chối: 8/10 = 80% Tổng tỷ lệ phần trăm học sinh Lilliputian được nhận: (45+2)/100 = 47% |
Bảng 4. Người đăng ký Brobdingnagian (10% đủ điều kiện):
Đủ tiêu chuẩn | Không đủ tiêu chuẩn | |
---|---|---|
Đã được chấp nhận | 5 | 18 |
Bị từ chối | 5 | 72 |
Tổng | 10 | 90 |
Tỷ lệ phần trăm số sinh viên đủ điều kiện được nhận: 5/10 = 50% Tỷ lệ phần trăm số sinh viên không đủ điều kiện bị từ chối: 72/90 = 80% Tổng tỷ lệ phần trăm số sinh viên Brobdingnagian được nhận: (5+18)/100 = 23% |
Điều kiện về tỷ lệ bằng nhau được đáp ứng vì cả học viên Lilliputian và Brobdingnagian đủ điều kiện đều có 50% cơ hội được nhận vào trường, còn học viên Lilliputian và Brobdingnagian không đủ điều kiện đều có 80% cơ hội bị từ chối.
Tỷ lệ cân bằng được xác định chính thức trong bài viết "Bình đẳng về cơ hội trong học có giám sát" như sau: "biến dự đoán Ŷ đáp ứng tỷ lệ cân bằng liên quan đến thuộc tính được bảo vệ A và kết quả Y nếu Ŷ và A độc lập, có điều kiện trên Y".
evals
Chủ yếu dùng làm từ viết tắt của các hoạt động đánh giá LLM. Nói rộng ra, evals là viết tắt của mọi hình thức đánh giá.
đánh giá
Quy trình đo lường chất lượng của một mô hình hoặc so sánh các mô hình với nhau.
Để đánh giá mô hình học máy có giám sát, bạn thường đánh giá mô hình đó dựa trên tập hợp dữ liệu xác thực và tập hợp dữ liệu kiểm thử. Việc đánh giá LLM thường liên quan đến các hoạt động đánh giá chất lượng và độ an toàn ở phạm vi rộng hơn.
F
F1
Chỉ số phân loại nhị phân "cuộn lên" dựa vào cả độ chính xác và tỷ lệ thu hồi. Sau đây là công thức:
Nhấp vào biểu tượng để xem ví dụ.
chỉ số về tính công bằng
Định nghĩa toán học về "công bằng" có thể đo lường được. Sau đây là một số chỉ số công bằng thường dùng:
Nhiều chỉ số về tính công bằng là loại trừ lẫn nhau; hãy xem phần không tương thích của các chỉ số về tính công bằng.
âm tính giả (FN)
Ví dụ về trường hợp mô hình dự đoán nhầm lớp âm tính. Ví dụ: mô hình dự đoán rằng một email cụ thể không phải là thư rác (lớp âm) nhưng email đó thực sự là thư rác.
tỷ lệ âm tính giả
Tỷ lệ phần trăm các ví dụ dương tính thực tế mà mô hình dự đoán nhầm là lớp âm tính. Công thức sau đây tính tỷ lệ âm tính giả:
Hãy xem phần Ngưỡng và ma trận nhiễu trong khoá học Học máy ứng dụng để biết thêm thông tin.
dương tính giả (FP)
Ví dụ về trường hợp mô hình dự đoán nhầm lớp dương tính. Ví dụ: mô hình dự đoán một email cụ thể là thư rác (lớp dương tính), nhưng email đó thực sự không phải là thư rác.
Hãy xem phần Ngưỡng và ma trận nhiễu trong khoá học Học máy ứng dụng để biết thêm thông tin.
tỷ lệ dương tính giả (FPR)
Tỷ lệ phần trăm các ví dụ âm tính thực tế mà mô hình dự đoán nhầm là lớp dương tính. Công thức sau đây tính tỷ lệ dương tính giả:
Tỷ lệ dương tính giả là trục x trong đường cong ROC.
Hãy xem phần Phân loại: ROC và AUC trong Khoá học học máy ứng dụng để biết thêm thông tin.
mức độ quan trọng của tính năng
Đồng nghĩa với tầm quan trọng của biến.
tỷ lệ thành công
Chỉ số để đánh giá văn bản do mô hình học máy tạo. Phần trăm thành công là số lượng đầu ra văn bản "thành công" được tạo chia cho tổng số đầu ra văn bản được tạo. Ví dụ: nếu một mô hình ngôn ngữ lớn tạo ra 10 khối mã, trong đó 5 khối mã thành công, thì tỷ lệ thành công sẽ là 50%.
Mặc dù tỷ lệ thành công hữu ích rộng rãi trong số liệu thống kê, nhưng trong ML, chỉ số này chủ yếu hữu ích để đo lường các nhiệm vụ có thể xác minh như tạo mã hoặc bài toán toán học.
G
tạp chất gini
Một chỉ số tương tự như entropy. Bộ chia sử dụng các giá trị bắt nguồn từ độ không tinh khiết gini hoặc entropy để tạo điều kiện cho việc phân loại cây quyết định. Mức tăng thông tin bắt nguồn từ entropy. Không có thuật ngữ tương đương nào được chấp nhận rộng rãi cho chỉ số bắt nguồn từ độ không tinh khiết gini; tuy nhiên, chỉ số chưa được đặt tên này cũng quan trọng như lợi tức thông tin.
Độ không tinh khiết của Gini còn được gọi là chỉ số Gini hoặc đơn giản là Gini.
Nhấp vào biểu tượng để biết thông tin chi tiết về toán học về độ không tinh khiết gini.
Cao
tổn thất khớp nối
Một nhóm hàm mất mát để phân loại được thiết kế để tìm ranh giới quyết định càng xa càng tốt từ mỗi ví dụ huấn luyện, do đó tối đa hoá khoảng cách giữa các ví dụ và ranh giới. KSVM sử dụng tổn thất bản lề (hoặc một hàm có liên quan, chẳng hạn như tổn thất bản lề bình phương). Đối với việc phân loại nhị phân, hàm tổn thất bản lề được xác định như sau:
trong đó y là nhãn thực, -1 hoặc +1 và y' là đầu ra thô của mô hình phân loại:
Do đó, biểu đồ về tổn thất bản lề so với (y * y') sẽ có dạng như sau:
I
không tương thích của các chỉ số về tính công bằng
Ý tưởng cho rằng một số khái niệm về sự công bằng không tương thích với nhau và không thể được đáp ứng cùng một lúc. Do đó, không có một chỉ số chung nào có thể đo lường được tính công bằng và áp dụng cho mọi vấn đề về học máy.
Mặc dù điều này có vẻ gây nản lòng, nhưng việc các chỉ số về tính công bằng không tương thích không có nghĩa là những nỗ lực nhằm đảm bảo tính công bằng là vô ích. Thay vào đó, bạn nên xác định tính công bằng theo ngữ cảnh cho một vấn đề học máy nhất định, với mục tiêu ngăn chặn những tác hại cụ thể đối với các trường hợp sử dụng của vấn đề đó.
Hãy xem bài viết "Về khả năng (không) công bằng" để thảo luận chi tiết hơn về việc các chỉ số về tính công bằng không tương thích với nhau.
tính công bằng cho cá nhân
Một chỉ số công bằng giúp kiểm tra xem các cá nhân tương tự có được phân loại tương tự hay không. Ví dụ: Học viện Brobdingnagian có thể muốn đáp ứng tính công bằng cá nhân bằng cách đảm bảo rằng hai học viên có điểm giống hệt nhau và điểm kiểm tra chuẩn hoá có khả năng được nhận vào học như nhau.
Xin lưu ý rằng tính công bằng của từng cá nhân hoàn toàn phụ thuộc vào cách bạn xác định "tính tương đồng" (trong trường hợp này là điểm số và điểm kiểm tra). Bạn có thể gặp rủi ro khi tạo ra các vấn đề mới về tính công bằng nếu chỉ số tương đồng của bạn thiếu thông tin quan trọng (chẳng hạn như mức độ nghiêm ngặt của chương trình học của học sinh).
Hãy xem bài viết "Tính công bằng thông qua nhận thức" để thảo luận chi tiết hơn về tính công bằng cá nhân.
thông tin thu được
Trong rừng quyết định, chênh lệch giữa entropy của một nút và tổng trọng số (theo số lượng ví dụ) của entropy của các nút con. Độ hỗn loạn của một nút là độ hỗn loạn của các ví dụ trong nút đó.
Ví dụ: hãy xem xét các giá trị entropy sau:
- entropy của nút mẹ = 0,6
- entropy của một nút con có 16 ví dụ có liên quan = 0,2
- entropy của một nút con khác có 24 ví dụ có liên quan = 0,1
Vì vậy, 40% ví dụ nằm trong một nút con và 60% nằm trong nút con còn lại. Vì thế:
- tổng entropy có trọng số của các nút con = (0,4 * 0,2) + (0,6 * 0,1) = 0,14
Do đó, lợi ích thông tin là:
- thông tin thu được = entropy của nút mẹ – tổng entropy có trọng số của các nút con
- thông tin thu được = 0,6 – 0,14 = 0,46
Hầu hết trình phân tách đều tìm cách tạo điều kiện giúp tăng tối đa lượng thông tin thu được.
mức độ đồng thuận giữa các người đánh giá
Chỉ số đo lường tần suất người đánh giá đồng ý khi thực hiện một nhiệm vụ. Nếu người đánh giá không đồng ý, bạn có thể cần phải cải thiện hướng dẫn thực hiện nhiệm vụ. Đôi khi còn được gọi là tỷ lệ đồng thuận giữa người chú thích hoặc độ tin cậy giữa người đánh giá. Xem thêm về kappa của Cohen, đây là một trong những phép đo độ đồng thuận giữa các người đánh giá phổ biến nhất.
Hãy xem phần Dữ liệu phân loại: Các vấn đề thường gặp trong khoá học cấp tốc về học máy để biết thêm thông tin.
L
Mất L1
Hàm tổn thất tính toán giá trị tuyệt đối của chênh lệch giữa các giá trị thẻ thực tế và các giá trị mà mô hình dự đoán. Ví dụ: dưới đây là cách tính toán tổn thất L1 cho một lô gồm 5 ví dụ:
Giá trị thực tế của ví dụ | Giá trị dự đoán của mô hình | Giá trị tuyệt đối của delta |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = tổn thất L1 |
Mất mát L1 ít nhạy cảm với điểm ngoại lai hơn mất mát L2.
Sai số tuyệt đối trung bình là tổn thất trung bình L1 trên mỗi ví dụ.
Nhấp vào biểu tượng để xem toán học chính thức.
Hãy xem phần Phương pháp hồi quy tuyến tính: Mất trong khoá học cấp tốc về học máy để biết thêm thông tin.
Mất L2
Hàm tổn thất tính toán bình phương của chênh lệch giữa các giá trị thẻ thực tế và các giá trị mà mô hình dự đoán. Ví dụ: sau đây là cách tính toán tổn thất L2 cho một lô gồm 5 ví dụ:
Giá trị thực tế của ví dụ | Giá trị dự đoán của mô hình | Delta vuông |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 9 |
4 | 6 | 4 |
9 | 8 | 1 |
16 = tổn thất L2 |
Do việc bình phương, tổn thất L2 làm tăng ảnh hưởng của điểm ngoại lai. Tức là tổn thất L2 phản ứng mạnh mẽ hơn với các dự đoán không chính xác so với tổn thất L1. Ví dụ: tổn thất L1 cho lô trước đó sẽ là 8 thay vì 16. Lưu ý rằng một giá trị ngoại lai chiếm 9 trong số 16 giá trị.
Các mô hình hồi quy thường sử dụng hàm tổn thất L2 làm hàm tổn thất.
Sai số bình phương trung bình là tổn thất trung bình L2 trên mỗi ví dụ. Tổn thất bình phương là một tên khác của tổn thất L2.
Nhấp vào biểu tượng để xem toán học chính thức.
Hãy xem phần Logistic regression: Loss and regularization (Phương pháp hồi quy logistic: Mất và điều chỉnh) trong khoá học cấp tốc về học máy để biết thêm thông tin.
Đánh giá LLM (evals)
Một bộ chỉ số và điểm chuẩn để đánh giá hiệu suất của mô hình ngôn ngữ lớn (LLM). Ở cấp độ cao, các hoạt động đánh giá LLM:
- Giúp các nhà nghiên cứu xác định những khía cạnh cần cải thiện đối với LLM.
- Hữu ích trong việc so sánh các LLM khác nhau và xác định LLM tốt nhất cho một tác vụ cụ thể.
- Giúp đảm bảo rằng LLM được sử dụng một cách an toàn và hợp lý.
Hãy xem phần Mô hình ngôn ngữ lớn (LLM) trong khoá học Học máy ứng dụng để biết thêm thông tin.
thua
Trong quá trình huấn luyện một mô hình được giám sát, một chỉ số đo lường khoảng cách giữa dự đoán của mô hình với nhãn của mô hình đó.
Hàm tổn thất sẽ tính toán tổn thất.
Hãy xem phần Phương pháp hồi quy tuyến tính: Mất trong khoá học cấp tốc về học máy để biết thêm thông tin.
hàm tổn thất
Trong quá trình huấn luyện hoặc kiểm thử, một hàm toán học sẽ tính toán tổn thất trên một lô ví dụ. Hàm tổn thất trả về tổn thất thấp hơn cho các mô hình đưa ra dự đoán chính xác hơn so với các mô hình đưa ra dự đoán không chính xác.
Mục tiêu của quá trình huấn luyện thường là giảm thiểu tổn thất mà hàm tổn thất trả về.
Có nhiều loại hàm tổn thất. Chọn hàm tổn thất phù hợp với loại mô hình bạn đang xây dựng. Ví dụ:
- Lỗ hổng2 (hoặc Sai số bình phương trung bình) là hàm tổn thất cho bước hồi quy tuyến tính.
- Mất mát theo lôgarit là hàm mất mát cho bước hồi quy logistic.
M
Sai số tuyệt đối trung bình (MAE)
Mức hao tổn trung bình trên mỗi ví dụ khi sử dụng mức hao tổn L1. Tính Sai số tuyệt đối trung bình như sau:
- Tính toán tổn thất L1 cho một lô.
- Chia tổn thất L1 cho số lượng ví dụ trong lô.
Nhấp vào biểu tượng để xem toán học chính thức.
Ví dụ: hãy xem xét cách tính tổn thất L1 trên lô gồm 5 ví dụ sau:
Giá trị thực tế của ví dụ | Giá trị dự đoán của mô hình | Mức hao tổn (chênh lệch giữa giá trị thực tế và giá trị dự đoán) |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = tổn thất L1 |
Do đó, tổn thất L1 là 8 và số lượng ví dụ là 5. Do đó, Sai số tuyệt đối trung bình là:
Mean Absolute Error = L1 loss / Number of Examples Mean Absolute Error = 8/5 = 1.6
So sánh Sai số tuyệt đối trung bình với Sai số bình phương trung bình và Sai số bình phương trung bình gốc.
độ chính xác trung bình tại k (mAP@k)
Giá trị trung bình thống kê của tất cả điểm số độ chính xác trung bình tại k trên một tập dữ liệu xác thực. Một cách sử dụng độ chính xác trung bình tại k là để đánh giá chất lượng của các đề xuất do hệ thống đề xuất tạo ra.
Mặc dù cụm từ "trung bình trung bình" nghe có vẻ thừa thãi, nhưng tên của chỉ số này là phù hợp. Xét cho cùng, chỉ số này tìm giá trị trung bình của nhiều giá trị độ chính xác trung bình tại k.
Nhấp vào biểu tượng để xem ví dụ.
Sai số bình phương trung bình (MSE)
Mức hao tổn trung bình trên mỗi ví dụ khi sử dụng mức hao tổn L2. Tính Sai số bình phương trung bình như sau:
- Tính toán tổn thất L2 cho một lô.
- Chia tổn thất L2 cho số lượng ví dụ trong lô.
Nhấp vào biểu tượng để xem toán học chính thức.
Ví dụ: hãy xem xét tổn thất trên lô gồm 5 ví dụ sau:
Giá trị thực tế | Dự đoán của mô hình | Thua | Tổn thất bình phương |
---|---|---|---|
7 | 6 | 1 | 1 |
5 | 4 | 1 | 1 |
8 | 11 | 3 | 9 |
4 | 6 | 2 | 4 |
9 | 8 | 1 | 1 |
16 = tổn thất L2 |
Do đó, Sai số bình phương trung bình là:
Mean Squared Error = L2 loss / Number of Examples Mean Squared Error = 16/5 = 3.2
Sai số bình phương trung bình là một trình tối ưu hoá phổ biến trong quá trình huấn luyện, đặc biệt là đối với bước hồi quy tuyến tính.
So sánh Sai số bình phương trung bình với Sai số tuyệt đối trung bình và Sai số trung bình bình phương căn bậc hai.
TensorFlow Playground sử dụng Mean Squared Error (Sai số bình phương trung bình) để tính toán các giá trị tổn thất.
Nhấp vào biểu tượng để xem thêm thông tin chi tiết về giá trị ngoại lai.
chỉ số
Một số liệu thống kê mà bạn quan tâm.
Mục tiêu là một chỉ số mà hệ thống học máy cố gắng tối ưu hoá.
API chỉ số (tf.metrics)
API TensorFlow để đánh giá mô hình. Ví dụ: tf.metrics.accuracy
xác định tần suất dự đoán của mô hình khớp với nhãn.
tổn thất minimax
Hàm tổn thất cho mạng đối kháng tạo sinh, dựa trên entropy chéo giữa phân phối dữ liệu được tạo và dữ liệu thực.
Mất mát Minimax được sử dụng trong bài báo đầu tiên để mô tả mạng đối kháng tạo sinh.
Hãy xem phần Hàm tổn thất trong khoá học về Mạng đối kháng tạo sinh để biết thêm thông tin.
dung lượng mô hình
Mức độ phức tạp của các vấn đề mà mô hình có thể học được. Mô hình càng có thể học được các vấn đề phức tạp thì dung lượng của mô hình càng cao. Dung lượng của mô hình thường tăng theo số lượng tham số mô hình. Để biết định nghĩa chính thức về dung lượng của bộ phân loại, hãy xem phương diện VC.
Không
lớp âm
Trong phân loại nhị phân, một lớp được gọi là tích cực và lớp còn lại được gọi là tiêu cực. Lớp dương là đối tượng hoặc sự kiện mà mô hình đang kiểm thử và lớp âm là khả năng khác. Ví dụ:
- Lớp âm tính trong một bài kiểm tra y tế có thể là "không phải khối u".
- Lớp âm trong một bộ phân loại email có thể là "không phải nội dung rác".
Tương phản với lớp dương.
O
mục tiêu
Một chỉ số mà thuật toán của bạn đang cố gắng tối ưu hoá.
hàm mục tiêu
Công thức toán học hoặc chỉ số mà mô hình hướng đến tối ưu hoá. Ví dụ: hàm mục tiêu cho bước hồi quy tuyến tính thường là Mất mát bình phương trung bình. Do đó, khi huấn luyện mô hình hồi quy tuyến tính, mục tiêu của quá trình huấn luyện là giảm thiểu Mức hao tổn bình phương trung bình.
Trong một số trường hợp, mục tiêu là tối đa hoá hàm mục tiêu. Ví dụ: nếu hàm mục tiêu là độ chính xác, thì mục tiêu là tối đa hoá độ chính xác.
Xem thêm mất.
Điểm
truyền tại k (pass@k)
Một chỉ số để xác định chất lượng của mã (ví dụ: Python) mà mô hình ngôn ngữ lớn tạo ra. Cụ thể hơn, việc vượt qua k cho bạn biết khả năng ít nhất một khối mã được tạo trong số k khối mã được tạo sẽ vượt qua tất cả các bài kiểm thử đơn vị.
Mô hình ngôn ngữ lớn thường gặp khó khăn trong việc tạo mã tốt cho các vấn đề lập trình phức tạp. Các kỹ sư phần mềm thích ứng với vấn đề này bằng cách nhắc mô hình ngôn ngữ lớn tạo ra nhiều (k) giải pháp cho cùng một vấn đề. Sau đó, kỹ sư phần mềm sẽ kiểm thử từng giải pháp dựa trên kiểm thử đơn vị. Việc tính toán số lần vượt qua ở k phụ thuộc vào kết quả của các bài kiểm thử đơn vị:
- Nếu một hoặc nhiều giải pháp trong số đó vượt qua kiểm thử đơn vị, thì LLM sẽ Vượt qua thử thách tạo mã đó.
- Nếu không có giải pháp nào vượt qua được kiểm thử đơn vị, thì LLM sẽ Không thành công trong thử thách tạo mã đó.
Công thức để truyền tại k như sau:
pass at k=total number of passestotal number of challenges
Nhìn chung, giá trị k càng cao thì tỷ lệ vượt qua ở điểm k càng cao; tuy nhiên, giá trị k càng cao thì càng cần nhiều tài nguyên kiểm thử đơn vị và mô hình ngôn ngữ lớn hơn.
Nhấp vào biểu tượng để xem ví dụ.
hiệu quả hoạt động
Thuật ngữ nạp chồng có các nghĩa sau:
- Ý nghĩa chuẩn trong kỹ thuật phần mềm. Cụ thể: Phần mềm này chạy nhanh (hoặc hiệu quả) đến mức nào?
- Ý nghĩa trong học máy. Ở đây, hiệu suất trả lời câu hỏi sau: Mô hình này chính xác đến mức nào? Tức là, độ chính xác của kết quả dự đoán của mô hình là bao nhiêu?
mức độ quan trọng của biến hoán vị
Một loại tầm quan trọng của biến đánh giá mức tăng của lỗi dự đoán của một mô hình sau khi hoán vị các giá trị của đặc điểm. Tầm quan trọng của biến hoán vị là một chỉ số không phụ thuộc vào mô hình.
độ hỗn loạn
Một chỉ số đo lường mức độ hiệu quả của một mô hình trong việc hoàn thành nhiệm vụ. Ví dụ: giả sử nhiệm vụ của bạn là đọc vài chữ cái đầu tiên của một từ mà người dùng đang nhập trên bàn phím điện thoại và cung cấp danh sách các từ có thể hoàn thành. Mức độ phức tạp, P, cho nhiệm vụ này gần bằng số lượng dự đoán bạn cần đưa ra để danh sách của bạn chứa từ thực tế mà người dùng đang cố gắng nhập.
Mức độ phức tạp liên quan đến entropy chéo như sau:
lớp dương
Lớp mà bạn đang kiểm thử.
Ví dụ: lớp dương tính trong mô hình ung thư có thể là "u". Lớp dương trong một trình phân loại email có thể là "thư rác".
Tương phản với lớp âm.
Nhấp vào biểu tượng để xem thêm ghi chú.
AUC PR (diện tích dưới đường cong PR)
Diện tích dưới đường cong độ chính xác-độ hồi quy nội suy, thu được bằng cách lập biểu đồ các điểm (độ hồi quy, độ chính xác) cho các giá trị khác nhau của ngưỡng phân loại.
độ chính xác
Một chỉ số cho mô hình phân loại giúp trả lời câu hỏi sau:
Khi mô hình dự đoán lớp dương, tỷ lệ phần trăm dự đoán chính xác là bao nhiêu?
Sau đây là công thức:
trong đó:
- dương tính thật có nghĩa là mô hình đã dự đoán chính xác lớp dương tính.
- dương tính giả có nghĩa là mô hình nhầm lẫn dự đoán lớp dương.
Ví dụ: giả sử một mô hình đã đưa ra 200 dự đoán dương tính. Trong số 200 cụm từ gợi ý tích cực này:
- 150 là số lượng dương tính thật.
- 50 trường hợp là dương tính giả.
Trong trường hợp này:
Tương phản với độ chính xác và tỷ lệ thu hồi.
Hãy xem phần Phân loại: Độ chính xác, tỷ lệ thu hồi, độ chính xác và các chỉ số liên quan trong khoá học cấp tốc về học máy để biết thêm thông tin.
độ chính xác tại k (precision@k)
Chỉ số để đánh giá danh sách các mục được xếp hạng (theo thứ tự). Độ chính xác tại k xác định tỷ lệ phần trăm các mục k đầu tiên trong danh sách đó là "liên quan". Đó là:
precision at k=relevant items in first k items of the listk
Giá trị của k phải nhỏ hơn hoặc bằng độ dài của danh sách được trả về. Xin lưu ý rằng độ dài của danh sách được trả về không thuộc phạm vi tính toán.
Mức độ phù hợp thường mang tính chủ quan; ngay cả người đánh giá là chuyên gia cũng thường không đồng ý về những mục nào là phù hợp.
So với:
Nhấp vào biểu tượng để xem ví dụ.
đường cong độ chính xác-tỷ lệ thu hồi
Đường cong độ chính xác so với độ chính xác ở các ngưỡng phân loại khác nhau.
thiên kiến dự đoán
Một giá trị cho biết mức độ chênh lệch giữa giá trị trung bình của dự đoán với giá trị trung bình của nhãn trong tập dữ liệu.
Đừng nhầm lẫn với thời hạn thiên vị trong các mô hình học máy hoặc với thiên vị về đạo đức và công bằng.
tính năng tương đương dự đoán
Chỉ số công bằng kiểm tra xem đối với một bộ phân loại nhất định, tỷ lệ độ chính xác có tương đương với các nhóm con đang được xem xét hay không.
Ví dụ: một mô hình dự đoán khả năng được nhận vào trường đại học sẽ đáp ứng tính tương đương dự đoán về quốc tịch nếu tỷ lệ chính xác của mô hình này giống nhau đối với người Lilliput và người Brobdingnag.
Đôi khi, tính năng cân bằng giá dự đoán còn được gọi là cân bằng giá dự đoán.
Hãy xem phần "Giải thích định nghĩa về tính công bằng" (mục 3.2.1) để thảo luận chi tiết hơn về tính năng so sánh dự đoán.
tỷ giá dự đoán
Tên khác của tính năng so khớp dự đoán.
hàm mật độ xác suất
Hàm xác định tần suất của các mẫu dữ liệu có chính xác một giá trị cụ thể. Khi các giá trị của tập dữ liệu là số dấu phẩy động liên tục, hiếm khi xảy ra trường hợp khớp chính xác. Tuy nhiên, việc tích hợp hàm mật độ xác suất từ giá trị x
đến giá trị y
sẽ tạo ra tần suất dự kiến của các mẫu dữ liệu giữa x
và y
.
Ví dụ: hãy xem xét một phân phối chuẩn có giá trị trung bình là 200 và độ lệch chuẩn là 30. Để xác định tần suất dự kiến của các mẫu dữ liệu nằm trong phạm vi từ 211,4 đến 218,7, bạn có thể tích hợp hàm mật độ xác suất cho một phân phối chuẩn từ 211,4 đến 218,7.
Điểm
mức độ ghi nhớ
Một chỉ số cho mô hình phân loại giúp trả lời câu hỏi sau:
Khi đầu ra thực sự là lớp dương tính, mô hình đã xác định chính xác bao nhiêu phần trăm dự đoán là lớp dương tính?
Sau đây là công thức:
Recall=true positivestrue positives+false negatives
trong đó:
- dương tính thật có nghĩa là mô hình đã dự đoán chính xác lớp dương tính.
- kết quả âm tính giả có nghĩa là mô hình nhầm lẫn dự đoán lớp âm tính.
Ví dụ: giả sử mô hình của bạn đã đưa ra 200 dự đoán về các ví dụ mà giá trị thực tế là lớp dương tính. Trong số 200 cụm từ gợi ý này:
- 180 là số lượng dương tính thật.
- 20 trường hợp là âm tính giả.
Trong trường hợp này:
Recall=180180+20=0.9
Nhấp vào biểu tượng để xem ghi chú về tập dữ liệu bất cân đối về loại.
Hãy xem bài viết Phân loại: Độ chính xác, tỷ lệ thu hồi, độ chính xác và các chỉ số liên quan để biết thêm thông tin.
gọi lại tại k (recall@k)
Chỉ số để đánh giá các hệ thống đưa ra danh sách các mục được xếp hạng (theo thứ tự). Mức độ gợi nhắc tại k xác định tỷ lệ phần trăm các mục có liên quan trong k mục đầu tiên trong danh sách đó trên tổng số mục có liên quan được trả về.
recall at k=relevant items in first k items of the listtotal number of relevant items in the list
So sánh với độ chính xác tại k.
Nhấp vào biểu tượng để xem ví dụ.
Đường cong ROC (đường cong đặc trưng hoạt động của bộ thu)
Biểu đồ tỷ lệ dương tính thực sự so với tỷ lệ dương tính giả cho nhiều ngưỡng phân loại trong phân loại nhị phân.
Hình dạng của đường cong ROC cho biết khả năng của mô hình phân loại nhị phân trong việc tách các lớp dương tính khỏi các lớp âm tính. Ví dụ: giả sử một mô hình phân loại nhị phân tách biệt hoàn toàn tất cả các lớp âm với tất cả các lớp dương:
Đường cong ROC cho mô hình trước có dạng như sau:
Ngược lại, hình minh hoạ sau đây biểu đồ các giá trị hồi quy logistic thô cho một mô hình tệ hại không thể tách biệt các lớp âm với các lớp dương:
Đường cong ROC cho mô hình này có dạng như sau:
Trong khi đó, trở lại thực tế, hầu hết các mô hình phân loại nhị phân đều tách các lớp dương và âm ở một mức độ nào đó, nhưng thường không hoàn hảo. Do đó, một đường cong ROC điển hình nằm ở đâu đó giữa hai điểm cực đoan:
Theo lý thuyết, điểm trên đường cong ROC gần nhất với (0,0,1,0) sẽ xác định ngưỡng phân loại lý tưởng. Tuy nhiên, một số vấn đề thực tế khác ảnh hưởng đến việc lựa chọn ngưỡng phân loại lý tưởng. Ví dụ: có thể kết quả âm tính giả gây ra nhiều phiền toái hơn kết quả dương tính giả.
Một chỉ số dạng số có tên là AUC tóm tắt đường cong ROC thành một giá trị dấu phẩy động duy nhất.
Sai số trung bình bình phương căn bậc hai (RMSE)
Căn bậc hai của Sai số bình phương trung bình.
ROUGE (Recall-Oriented Understudy for Gisting Evaluation – Mô hình đánh giá tóm tắt dựa trên khả năng gợi nhắc)
Một nhóm chỉ số đánh giá các mô hình dịch máy và tóm tắt tự động. Chỉ số ROUGE xác định mức độ trùng lặp giữa văn bản tham chiếu và văn bản do mô hình học máy tạo. Mỗi thành viên trong gia đình ROUGE đo lường mức độ trùng lặp theo cách khác nhau. Điểm ROUGE cao hơn cho biết mức độ tương đồng giữa văn bản tham chiếu và văn bản được tạo cao hơn so với điểm ROUGE thấp hơn.
Mỗi thành viên trong gia đình ROUGE thường tạo ra các chỉ số sau:
- Chính xác
- Nhớ lại
- F1
Để biết thông tin chi tiết và ví dụ, hãy xem:
ROUGE-L
Một thành viên của gia đình ROUGE tập trung vào độ dài của chuỗi con chung dài nhất trong văn bản tham chiếu và văn bản được tạo. Các công thức sau đây tính toán tỷ lệ thu hồi và độ chính xác cho ROUGE-L:
Sau đó, bạn có thể sử dụng F1 để cuộn lên độ thu hồi ROUGE-L và độ chính xác ROUGE-L thành một chỉ số duy nhất:
Nhấp vào biểu tượng để xem ví dụ về cách tính ROUGE-L.
ROUGE-L bỏ qua mọi dòng mới trong văn bản tham chiếu và văn bản được tạo, vì vậy, trình tự con chung dài nhất có thể vượt qua nhiều câu. Khi văn bản tham chiếu và văn bản được tạo có nhiều câu, một biến thể của ROUGE-L có tên là ROUGE-Lsum thường là chỉ số tốt hơn. ROUGE-Lsum xác định trình tự con chung dài nhất cho mỗi câu trong một đoạn văn, sau đó tính trung bình của các trình tự con chung dài nhất đó.
Nhấp vào biểu tượng để xem ví dụ về cách tính ROUGE-Lsum.
ROUGE-N
Một tập hợp các chỉ số trong nhóm ROUGE so sánh các N-gram dùng chung có kích thước nhất định trong văn bản tham chiếu và văn bản được tạo. Ví dụ:
- ROUGE-1 đo lường số lượng mã thông báo được chia sẻ trong văn bản tham chiếu và văn bản được tạo.
- ROUGE-2 đo lường số lượng từ kép (2-gram) chung trong văn bản tham chiếu và văn bản được tạo.
- ROUGE-3 đo lường số lượng bộ ba (3-gram) chung trong văn bản đối chiếu và văn bản được tạo.
Bạn có thể sử dụng các công thức sau để tính toán độ thu hồi ROUGE-N và độ chính xác ROUGE-N cho bất kỳ thành viên nào trong gia đình ROUGE-N:
Sau đó, bạn có thể sử dụng F1 để tổng hợp giá trị gợi nhắc ROUGE-N và độ chính xác ROUGE-N thành một chỉ số duy nhất:
Nhấp vào biểu tượng để xem ví dụ.
ROUGE-S
Một dạng ROUGE-N dễ tính cho phép so khớp skip-gram. Tức là ROUGE-N chỉ tính N-gram khớp chính xác, nhưng ROUGE-S cũng tính N-gram được phân tách bằng một hoặc nhiều từ. Ví dụ: hãy cân nhắc những điều sau đây:
- văn bản tham khảo: Mây trắng
- văn bản được tạo: Mây trắng cuồn cuộn
Khi tính toán ROUGE-N, cụm từ 2-gram White clouds (Mây trắng) không khớp với cụm từ White billowing clouds (Mây trắng cuồn cuộn). Tuy nhiên, khi tính toán ROUGE-S, Mây trắng khớp với Mây trắng cuồn cuộn.
R bình phương
Chỉ số biến hồi quy cho biết mức độ biến thiên trong một thẻ là do một tính năng riêng lẻ hay một tập hợp tính năng. R-squared là một giá trị nằm trong khoảng từ 0 đến 1. Bạn có thể diễn giải giá trị này như sau:
- R-squared bằng 0 có nghĩa là không có biến thể nào của nhãn là do tập hợp tính năng.
- R-squared bằng 1 có nghĩa là tất cả các biến thể của nhãn đều là do tập hợp tính năng.
- R-squared từ 0 đến 1 cho biết mức độ biến thiên của nhãn có thể được dự đoán từ một tính năng cụ thể hoặc tập hợp tính năng. Ví dụ: R-squared bằng 0,10 có nghĩa là 10% phương sai trong nhãn là do tập hợp tính năng, R-squared bằng 0,20 có nghĩa là 20% là do tập hợp tính năng, v.v.
R-squared là bình phương của hệ số tương quan Pearson giữa các giá trị mà mô hình dự đoán và giá trị thực tế.
S
tính điểm
Một phần của hệ thống đề xuất cung cấp giá trị hoặc thứ hạng cho từng mục do giai đoạn tạo đề xuất tạo ra.
chỉ số tương đồng
Trong các thuật toán nhóm, chỉ số này dùng để xác định mức độ giống nhau (tương đồng) giữa hai ví dụ bất kỳ.
độ thưa
Số phần tử được đặt thành 0 (hoặc rỗng) trong một vectơ hoặc ma trận chia cho tổng số mục trong vectơ hoặc ma trận đó. Ví dụ: hãy xem xét một ma trận gồm 100 phần tử, trong đó 98 ô chứa số 0. Cách tính độ thưa thớt như sau:
Mức độ thưa thớt của đặc điểm đề cập đến mức độ thưa thớt của một vectơ đặc điểm; mức độ thưa thớt của mô hình đề cập đến mức độ thưa thớt của các trọng số mô hình.
tổn thất khớp nối bình phương
Bình phương của tổn thất khớp nối. Mức hao tổn khớp nối bình phương sẽ phạt các giá trị ngoại lai nghiêm khắc hơn so với mức hao tổn khớp nối thông thường.
tổn thất bình phương
Từ đồng nghĩa với tổn thất L2.
T
tổn thất kiểm thử
Chỉ số thể hiện mất mát của mô hình so với tập dữ liệu kiểm thử. Khi xây dựng một mô hình, bạn thường cố gắng giảm thiểu tổn thất thử nghiệm. Đó là do tổn thất kiểm thử thấp là một tín hiệu chất lượng mạnh hơn so với tổn thất huấn luyện hoặc tổn thất xác thực thấp.
Đôi khi, khoảng cách lớn giữa tổn thất kiểm thử và tổn thất huấn luyện hoặc tổn thất xác thực cho thấy rằng bạn cần tăng tỷ lệ chuẩn hoá.
độ chính xác top-k
Tỷ lệ phần trăm số lần "nhãn mục tiêu" xuất hiện trong k vị trí đầu tiên của danh sách đã tạo. Danh sách có thể là các đề xuất được cá nhân hoá hoặc danh sách các mục được sắp xếp theo softmax.
Độ chính xác top-k còn được gọi là độ chính xác tại k.
Nhấp vào biểu tượng để xem ví dụ.
nội dung độc hại
Mức độ phản cảm, đe doạ hoặc lăng mạ của nội dung. Nhiều mô hình học máy có thể xác định và đo lường nội dung độc hại. Hầu hết các mô hình này xác định nội dung độc hại theo nhiều thông số, chẳng hạn như mức độ ngôn từ xúc phạm và mức độ ngôn từ đe doạ.
tổn thất trong quá trình huấn luyện
Một chỉ số thể hiện mất mát của mô hình trong một vòng lặp huấn luyện cụ thể. Ví dụ: giả sử hàm tổn thất là Sai số bình phương trung bình. Có thể tổn thất huấn luyện (Lỗi trung bình theo bình phương) cho lần lặp thứ 10 là 2,2 và tổn thất huấn luyện cho lần lặp thứ 100 là 1,9.
Đường cong tổn thất biểu thị tổn thất trong quá trình huấn luyện so với số lần lặp lại. Đường cong tổn thất cung cấp các gợi ý sau đây về quá trình huấn luyện:
- Độ dốc hướng xuống cho biết mô hình đang cải thiện.
- Độ dốc lên cho thấy mô hình đang trở nên tệ hơn.
- Độ dốc phẳng ngụ ý rằng mô hình đã đạt đến trạng thái hội tụ.
Ví dụ: Đường cong tổn hao lý tưởng sau đây cho thấy:
- Độ dốc giảm mạnh trong các lần lặp lại ban đầu, cho thấy mô hình được cải thiện nhanh chóng.
- Độ dốc dần dần phẳng hơn (nhưng vẫn đi xuống) cho đến gần cuối quá trình huấn luyện, điều này có nghĩa là mô hình tiếp tục cải thiện ở tốc độ chậm hơn một chút so với trong các lần lặp lại ban đầu.
- Độ dốc phẳng về cuối quá trình huấn luyện, cho thấy sự hội tụ.
Mặc dù tổn thất trong quá trình huấn luyện là quan trọng, nhưng bạn cũng nên xem xét tính tổng quát.
âm tính thật (TN)
Ví dụ về trường hợp mô hình đã dự đoán chính xác lớp âm tính. Ví dụ: mô hình suy luận rằng một thư email cụ thể không phải là thư rác và thư email đó thực sự không phải là thư rác.
dương tính thật (TP)
Ví dụ về trường hợp mô hình chính xác dự đoán lớp dương tính. Ví dụ: mô hình suy luận rằng một email cụ thể là thư rác và email đó thực sự là thư rác.
tỷ lệ dương tính thật (TPR)
Từ đồng nghĩa với gợi nhắc. Đó là:
Tỷ lệ dương tính thật là trục y trong đường cong ROC.
V
tổn thất xác thực
Một chỉ số thể hiện mất mát của mô hình trên tập dữ liệu xác thực trong một lặp lại cụ thể của quá trình huấn luyện.
Xem thêm đường cong tổng quát hoá.
mức độ quan trọng của biến
Một tập hợp điểm số cho biết mức độ quan trọng tương đối của từng tính năng đối với mô hình.
Ví dụ: hãy xem xét một cây quyết định giúp ước tính giá nhà. Giả sử cây quyết định này sử dụng 3 tính năng: kích thước, độ tuổi và kiểu dáng. Nếu một tập hợp các mức độ quan trọng của biến cho 3 đặc điểm được tính toán là {size=5.8, age=2.5, style=4.7}, thì kích thước sẽ quan trọng hơn đối với cây quyết định so với độ tuổi hoặc kiểu dáng.
Có nhiều chỉ số về tầm quan trọng của biến, có thể cung cấp thông tin cho các chuyên gia về học máy về nhiều khía cạnh của mô hình.
W
Hàm mất mát Wasserstein
Một trong những hàm tổn thất thường được dùng trong mạng đối kháng tạo sinh, dựa trên khoảng cách của máy di chuyển đất giữa việc phân phối dữ liệu được tạo và dữ liệu thực.