Bảng thuật ngữ máy học

Từ điển này định nghĩa các thuật ngữ về học máy.

A

loại bỏ

Một kỹ thuật để đánh giá tầm quan trọng của một tính năng hoặc thành phần bằng cách tạm thời xoá tính năng hoặc thành phần đó khỏi mô hình. Sau đó, bạn đào tạo lại mô hình mà không có tính năng hoặc thành phần đó. Nếu mô hình được huấn luyện lại hoạt động kém hơn đáng kể, thì tính năng hoặc thành phần đã xoá có thể là quan trọng.

Ví dụ: giả sử bạn huấn luyện một mô hình phân loại trên 10 đặc điểm và đạt được độ chính xác là 88% trên tập dữ liệu kiểm thử. Để kiểm tra tầm quan trọng của tính năng đầu tiên, bạn có thể chỉ cần huấn luyện lại mô hình bằng 9 tính năng còn lại. Nếu mô hình được huấn luyện lại hoạt động kém hơn đáng kể (ví dụ: độ chính xác là 55%), thì có thể đặc điểm đã xoá là quan trọng. Ngược lại, nếu mô hình được huấn luyện lại hoạt động tốt như nhau, thì có thể tính năng đó không quan trọng lắm.

Phương pháp loại bỏ cũng có thể giúp xác định tầm quan trọng của:

  • Các thành phần lớn hơn, chẳng hạn như toàn bộ hệ thống con của một hệ thống học máy lớn hơn
  • Quy trình hoặc kỹ thuật, chẳng hạn như bước xử lý trước dữ liệu

Trong cả hai trường hợp, bạn sẽ quan sát cách hiệu suất của hệ thống thay đổi (hoặc không thay đổi) sau khi xoá thành phần.

Thử nghiệm A/B

Một phương pháp thống kê để so sánh hai (hoặc nhiều) kỹ thuật – AB. Thông thường, A là một kỹ thuật hiện có và B là một kỹ thuật mới. Thử nghiệm A/B không chỉ xác định kỹ thuật nào hoạt động hiệu quả hơn mà còn xác định xem sự khác biệt có ý nghĩa thống kê hay không.

Thử nghiệm A/B thường so sánh một chỉ số trên hai kỹ thuật; ví dụ: độ chính xác của mô hình so sánh như thế nào giữa hai kỹ thuật? Tuy nhiên, thử nghiệm A/B cũng có thể so sánh bất kỳ số lượng chỉ số nào có giới hạn.

khối tăng tốc

#GoogleCloud

Một danh mục các thành phần phần cứng chuyên biệt được thiết kế để thực hiện các phép tính chính cần thiết cho thuật toán học sâu.

Các khối tăng tốc (viết tắt là bộ tăng tốc) có thể tăng đáng kể tốc độ và hiệu quả của các tác vụ huấn luyện và suy luận so với CPU đa năng. Đây là lựa chọn lý tưởng để huấn luyện mạng nơron và các tác vụ có tính toán chuyên sâu tương tự.

Sau đây là một số ví dụ về chip tăng tốc:

  • Bộ xử lý tensor (TPU) của Google có phần cứng chuyên dụng cho việc học sâu.
  • Các GPU của NVIDIA, mặc dù ban đầu được thiết kế để xử lý đồ hoạ, nhưng được thiết kế để cho phép xử lý song song, nhờ đó có thể tăng đáng kể tốc độ xử lý.

độ chính xác

#fundamentals

Số dự đoán phân loại chính xác chia cho tổng số dự đoán. Đó là:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ví dụ: một mô hình đưa ra 40 dự đoán chính xác và 10 dự đoán không chính xác sẽ có độ chính xác là:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Phân loại nhị phân cung cấp tên cụ thể cho các danh mục dự đoán chính xácdự đoán không chính xác. Vì vậy, công thức độ chính xác cho phương pháp phân loại nhị phân sẽ như sau:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

trong đó:

So sánh và đối chiếu độ chính xác với độ chính xácđộ chính xác.

Hãy xem phần Phân loại: Độ chính xác, tỷ lệ thu hồi, độ chính xác và các chỉ số liên quan trong khoá học cấp tốc về học máy để biết thêm thông tin.

hành động

#rl

Trong học tăng cường, cơ chế mà tác nhân chuyển đổi giữa trạng thái của môi trường. Tác nhân chọn hành động bằng cách sử dụng một chính sách.

hàm kích hoạt

#fundamentals

Một hàm cho phép mạng nơron tìm hiểu các mối quan hệ phi tuyến tính (phức tạp) giữa các đặc điểm và nhãn.

Các hàm kích hoạt phổ biến bao gồm:

Biểu đồ của hàm kích hoạt không bao giờ là một đường thẳng. Ví dụ: Biểu đồ của hàm kích hoạt ReLU bao gồm hai đường thẳng:

Biểu đồ Descartes của hai đường. Dòng đầu tiên có giá trị y không đổi là 0, chạy dọc theo trục x từ -vô cực,0 đến 0,-0.
          Dòng thứ hai bắt đầu tại 0,0. Đường này có độ dốc là +1, vì vậy, nó chạy từ 0,0 đến +vô cực, +vô cực.

Biểu đồ của hàm kích hoạt sigmoid có dạng như sau:

Biểu đồ cong hai chiều với các giá trị x trải dài từ miền -vô cực đến +dương, trong khi các giá trị y trải dài từ gần 0 đến gần 1. Khi x là 0, y là 0,5. Độ dốc của đường cong luôn dương, với độ dốc cao nhất tại 0,0,5 và độ dốc giảm dần khi giá trị tuyệt đối của x tăng lên.

Xem phần Mạng nơron: Hàm kích hoạt trong khoá học Học nhanh về học máy để biết thêm thông tin.

học tập tích cực

Phương pháp huấn luyện trong đó thuật toán chọn một số dữ liệu mà nó học được. Học chủ động đặc biệt có giá trị khi ví dụ được gắn nhãn khan hiếm hoặc tốn kém để có được. Thay vì tìm kiếm một loạt ví dụ được gắn nhãn một cách mù quáng, thuật toán học chủ động sẽ tìm kiếm một cách có chọn lọc một loạt ví dụ cụ thể mà nó cần để học.

AdaGrad

Một thuật toán hạ độ dốc tinh vi giúp điều chỉnh lại độ dốc của từng thông số, giúp mỗi thông số có một tốc độ học độc lập một cách hiệu quả. Để biết nội dung giải thích đầy đủ, hãy xem bài viết này về AdaGrad.

nhân viên hỗ trợ

#rl

Trong học tăng cường, thực thể sử dụng chính sách để tối đa hoá lợi tức dự kiến thu được từ việc chuyển đổi giữa các trạng thái của môi trường.

Nói chung, tác nhân là phần mềm tự động lập kế hoạch và thực thi một loạt hành động để đạt được mục tiêu, đồng thời có khả năng thích ứng với những thay đổi trong môi trường của nó. Ví dụ: một tác nhân dựa trên LLM có thể sử dụng LLM để tạo kế hoạch, thay vì áp dụng chính sách học tăng cường.

phân cụm kết hợp

#clustering

Xem phần thu thập dữ liệu theo cụm phân cấp.

phát hiện hoạt động bất thường

Quá trình xác định điểm ngoại lai. Ví dụ: nếu giá trị trung bình của một tính năng nhất định là 100 với độ lệch chuẩn là 10, thì tính năng phát hiện bất thường sẽ gắn cờ giá trị 200 là đáng ngờ.

Thực tế tăng cường (AR)

Viết tắt của thực tế tăng cường.

diện tích dưới đường cong PR

Xem AUC PR (Diện tích dưới đường cong PR).

diện tích dưới đường cong ROC

Xem AUC (Diện tích dưới đường cong ROC).

trí tuệ nhân tạo tổng quát

Một cơ chế không phải con người thể hiện một phạm vi rộng về khả năng giải quyết vấn đề, sáng tạo và thích ứng. Ví dụ: một chương trình minh hoạ trí tuệ tổng quát nhân tạo có thể dịch văn bản, sáng tác bản giao hưởng, xuất sắc trong các trò chơi chưa được phát minh.

trí tuệ nhân tạo

#fundamentals

Một chương trình hoặc mô hình không phải con người có thể giải quyết các nhiệm vụ phức tạp. Ví dụ: một chương trình hoặc mô hình dịch văn bản hoặc một chương trình hoặc mô hình xác định bệnh từ hình ảnh X-quang đều thể hiện trí tuệ nhân tạo.

Theo cách chính thức, học máy là một lĩnh vực phụ của trí tuệ nhân tạo. Tuy nhiên, trong những năm gần đây, một số tổ chức đã bắt đầu sử dụng các thuật ngữ trí tuệ nhân tạohọc máy thay thế cho nhau.

chú ý

#language

Một cơ chế được dùng trong mạng nơron cho biết tầm quan trọng của một từ hoặc một phần của từ. Tính năng chú ý nén lượng thông tin mà mô hình cần để dự đoán mã thông báo/từ tiếp theo. Một cơ chế chú ý thông thường có thể bao gồm một giá trị tổng trọng số trên một tập hợp đầu vào, trong đó trọng số cho mỗi đầu vào được tính toán bằng một phần khác của mạng nơron.

Hãy tham khảo thêm về tự chú ýtự chú ý nhiều đầu. Đây là các khối xây dựng của Transformer.

Hãy xem phần LLM: Mô hình ngôn ngữ lớn là gì? trong khoá học Học nhanh về học máy để biết thêm thông tin về tính năng tự chú ý.

thuộc tính

#fairness

Từ đồng nghĩa với tính năng.

Trong tính công bằng của công nghệ học máy, các thuộc tính thường đề cập đến các đặc điểm liên quan đến cá nhân.

lấy mẫu thuộc tính

#df

Một chiến thuật để huấn luyện rừng quyết định, trong đó mỗi cây quyết định chỉ xem xét một tập hợp con ngẫu nhiên của các tính năng có thể có khi học điều kiện. Nhìn chung, một tập hợp con khác nhau của các tính năng được lấy mẫu cho mỗi nút. Ngược lại, khi huấn luyện cây quyết định mà không lấy mẫu thuộc tính, tất cả các đặc điểm có thể có sẽ được xem xét cho mỗi nút.

AUC (Diện tích dưới đường cong ROC)

#fundamentals

Một số từ 0 đến 1 thể hiện khả năng của mô hình phân loại nhị phân để tách các lớp dương khỏi các lớp âm. AUC càng gần 1.0 thì mô hình càng có khả năng phân tách các lớp với nhau.

Ví dụ: hình minh hoạ sau đây cho thấy một mô hình phân loại tách biệt hoàn toàn các lớp dương tính (hình bầu dục màu xanh lục) với các lớp âm tính (hình chữ nhật màu tím). Mô hình hoàn hảo không thực tế này có AUC là 1,0:

Một đường số có 8 ví dụ dương ở một bên và
          9 ví dụ âm ở bên kia.

Ngược lại, hình minh hoạ sau đây cho thấy kết quả của một mô hình phân loại tạo ra kết quả ngẫu nhiên. Mô hình này có AUC là 0,5:

Một đường số có 6 ví dụ tích cực và 6 ví dụ tiêu cực.
          Trình tự các ví dụ là dương, âm, dương, âm, dương, âm, dương, âm, dương, âm, dương.

Có, mô hình trước đó có AUC là 0,5 chứ không phải 0,0.

Hầu hết các mô hình đều nằm ở đâu đó giữa hai thái cực này. Ví dụ: mô hình sau đây phân tách các giá trị dương khỏi các giá trị âm, do đó có AUC nằm trong khoảng từ 0,5 đến 1,0:

Một đường số có 6 ví dụ tích cực và 6 ví dụ tiêu cực.
          Trình tự các ví dụ là âm, âm, âm, âm, dương, âm, dương, dương, âm, dương, dương, dương.

AUC bỏ qua mọi giá trị bạn đặt cho ngưỡng phân loại. Thay vào đó, AUC xem xét tất cả ngưỡng phân loại có thể có.

Hãy xem phần Phân loại: ROC và AUC trong Khoá học học máy ứng dụng để biết thêm thông tin.

thực tế tăng cường

#image

Công nghệ phủ hình ảnh do máy tính tạo lên chế độ xem của người dùng về thế giới thực, từ đó cung cấp chế độ xem tổng hợp.

bộ tự mã hoá

#language
#image

Một hệ thống học cách trích xuất thông tin quan trọng nhất từ dữ liệu đầu vào. Bộ tự mã hoá là sự kết hợp giữa bộ mã hoábộ giải mã. Bộ tự mã hoá dựa trên quy trình hai bước sau:

  1. Bộ mã hoá ánh xạ đầu vào đến một định dạng (thường) có kích thước thấp hơn (trung gian) bị mất dữ liệu.
  2. Bộ giải mã tạo một phiên bản có tổn hao của dữ liệu đầu vào ban đầu bằng cách ánh xạ định dạng chiều thấp hơn với định dạng đầu vào chiều cao hơn ban đầu.

Bộ tự mã hoá được huấn luyện toàn diện bằng cách yêu cầu bộ giải mã cố gắng tái tạo dữ liệu đầu vào ban đầu từ định dạng trung gian của bộ mã hoá gần nhất có thể. Vì định dạng trung gian nhỏ hơn (có kích thước thấp hơn) so với định dạng ban đầu, nên bộ tự mã hoá buộc phải tìm hiểu thông tin nào trong dữ liệu đầu vào là cần thiết và dữ liệu đầu ra sẽ không giống hệt với dữ liệu đầu vào.

Ví dụ:

  • Nếu dữ liệu đầu vào là đồ hoạ, thì bản sao không chính xác sẽ tương tự như đồ hoạ gốc, nhưng có một chút sửa đổi. Có thể bản sao không chính xác sẽ loại bỏ nhiễu khỏi đồ hoạ gốc hoặc lấp đầy một số pixel bị thiếu.
  • Nếu dữ liệu đầu vào là văn bản, thì bộ tự mã hoá sẽ tạo văn bản mới mô phỏng (nhưng không giống với) văn bản gốc.

Xem thêm tự mã hoá biến thiên.

đánh giá tự động

#language
#generativeAI

Sử dụng phần mềm để đánh giá chất lượng đầu ra của một mô hình.

Khi đầu ra của mô hình tương đối đơn giản, tập lệnh hoặc chương trình có thể so sánh đầu ra của mô hình với phản hồi chuẩn. Loại hình đánh giá tự động này đôi khi được gọi là đánh giá có lập trình. Các chỉ số như ROUGE hoặc BLEU thường hữu ích cho việc đánh giá theo phương thức lập trình.

Khi đầu ra của mô hình phức tạp hoặc không có câu trả lời đúng, một chương trình ML riêng biệt có tên là trình tự động đánh giá đôi khi sẽ thực hiện việc đánh giá tự động.

Khác với quy trình đánh giá thủ công.

thiên vị tự động

#fairness

Khi người đưa ra quyết định ưu tiên các đề xuất do hệ thống tự động đưa ra hơn thông tin được tạo mà không cần hệ thống tự động, ngay cả khi hệ thống tự động đưa ra quyết định có lỗi.

Hãy xem phần Tính công bằng: Các loại thiên kiến trong khoá học cấp tốc về học máy để biết thêm thông tin.

AutoML

Bất kỳ quy trình tự động nào để xây dựng mô hình học máy . AutoML có thể tự động thực hiện các nhiệm vụ như sau:

AutoML hữu ích cho các nhà khoa học dữ liệu vì có thể giúp họ tiết kiệm thời gian và nỗ lực trong việc phát triển quy trình học máy cũng như cải thiện độ chính xác của dự đoán. Công cụ này cũng hữu ích cho những người không phải chuyên gia, bằng cách giúp họ dễ dàng tiếp cận các nhiệm vụ học máy phức tạp.

Hãy xem phần Học máy tự động (AutoML) trong khoá học Học máy ứng dụng để biết thêm thông tin.

đánh giá trình tự động đánh giá

#language
#generativeAI
Cơ chế kết hợp để đánh giá chất lượng của kết quả đầu ra của mô hình AI tạo sinh, kết hợp quy trình đánh giá của con người với quy trình đánh giá tự động. Trình tự động chấm điểm là một mô hình học máy được huấn luyện dựa trên dữ liệu do hoạt động đánh giá của con người tạo ra. Lý tưởng nhất là trình tự động đánh giá sẽ học cách bắt chước một người đánh giá.

Bạn có thể sử dụng các trình tự động đánh giá tạo sẵn, nhưng các trình tự động đánh giá tốt nhất được điều chỉnh chính xác cho nhiệm vụ mà bạn đang đánh giá.

mô hình tự hồi quy

#language
#image
#generativeAI

Mô hình suy luận một dự đoán dựa trên các dự đoán trước đó của chính mô hình đó. Ví dụ: mô hình ngôn ngữ tự hồi quy dự đoán mã thông báo tiếp theo dựa trên các mã thông báo đã dự đoán trước đó. Tất cả mô hình ngôn ngữ lớn dựa trên Transformer đều tự hồi quy.

Ngược lại, các mô hình hình ảnh dựa trên GAN thường không tự động hồi quy vì các mô hình này tạo hình ảnh trong một lượt truyền tới và không lặp lại theo các bước. Tuy nhiên, một số mô hình tạo hình ảnh tự hồi quy vì tạo hình ảnh theo từng bước.

tổn thất phụ

Hàm tổn thất – được sử dụng kết hợp với hàm tổn thất chính của mạng nơron mô hình – giúp tăng tốc quá trình huấn luyện trong các lần lặp đầu tiên khi trọng số được khởi tạo ngẫu nhiên.

Hàm tổn thất phụ đẩy độ dốc hiệu quả vào các lớp trước đó. Điều này tạo điều kiện cho quá trình hội tụ trong quá trình huấn luyện bằng cách chống lại vấn đề về độ dốc biến mất.

độ chính xác trung bình tại k

#language

Một chỉ số để tóm tắt hiệu suất của một mô hình trên một câu lệnh duy nhất tạo ra kết quả được xếp hạng, chẳng hạn như danh sách đánh số các đề xuất sách. Độ chính xác trung bình tại k là trung bình của các giá trị độ chính xác tại k cho mỗi kết quả liên quan. Do đó, công thức tính độ chính xác trung bình tại k là:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

trong đó:

  • \(n\) là số lượng mục có liên quan trong danh sách.

Tương phản với lệnh gọi lại tại k.

điều kiện căn chỉnh theo trục

#df

Trong cây quyết định, điều kiện chỉ liên quan đến một tính năng. Ví dụ: nếu area là một tính năng, thì sau đây là điều kiện căn chỉnh theo trục:

area > 200

Tương phản với điều kiện xiên.

B

lan truyền ngược

#fundamentals

Thuật toán triển khai phương pháp giảm độ dốc trong mạng nơron.

Quá trình huấn luyện mạng nơron bao gồm nhiều iterations của chu kỳ hai lượt sau:

  1. Trong quá trình truyền thẳng, hệ thống xử lý một gồm ví dụ để đưa ra(các) kết quả dự đoán. Hệ thống so sánh từng dự đoán với từng giá trị nhãn. Sự khác biệt giữa giá trị dự đoán và giá trị nhãn là lỗ hổng cho ví dụ đó. Hệ thống tổng hợp các tổn thất cho tất cả các ví dụ để tính tổng tổn thất cho lô hiện tại.
  2. Trong quá trình truyền ngược (truyền ngược), hệ thống giảm tổn thất bằng cách điều chỉnh trọng số của tất cả neuron trong tất cả lớp ẩn.

Mạng nơron thường chứa nhiều tế bào thần kinh trên nhiều lớp ẩn. Mỗi tế bào thần kinh trong số đó đều đóng góp vào tổn thất tổng thể theo nhiều cách. Phương pháp truyền ngược xác định việc tăng hay giảm trọng số áp dụng cho các tế bào thần kinh cụ thể.

Tốc độ học là một hệ số kiểm soát mức độ mà mỗi lượt truyền ngược tăng hoặc giảm mỗi trọng số. Tốc độ học lớn sẽ làm tăng hoặc giảm mỗi trọng số nhiều hơn so với tốc độ học nhỏ.

Trong thuật toán vi tích phân, phương pháp truyền ngược triển khai quy tắc chuỗi từ vi tích phân. Tức là, phương pháp truyền ngược tính toán đạo hàm riêng của lỗi theo từng tham số.

Cách đây nhiều năm, những người làm việc trong lĩnh vực học máy phải viết mã để triển khai phương pháp hồi quy. Các API máy học hiện đại như Keras hiện đã triển khai tính năng hồi quy cho bạn. Chà!

Hãy xem phần Mạng nơron trong Khoá học học máy ứng dụng để biết thêm thông tin.

đóng gói

#df

Một phương thức để huấn luyện một bộ mô hình, trong đó mỗi mô hình thành phần được huấn luyện trên một tập hợp con ngẫu nhiên của các ví dụ huấn luyện được lấy mẫu có thay thế. Ví dụ: Rừng ngẫu nhiên là một tập hợp các cây quyết định được huấn luyện bằng phương pháp gộp dữ liệu.

Thuật ngữ bagging là viết tắt của bootstrap aggregating.

Hãy xem phần Rừng ngẫu nhiên trong khoá học Rừng quyết định để biết thêm thông tin.

túi từ

#language

Biểu thị các từ trong một cụm từ hoặc đoạn văn, bất kể thứ tự. Ví dụ: túi từ đại diện cho ba cụm từ sau đây giống hệt nhau:

  • con chó nhảy
  • nhảy lên chó
  • chó nhảy

Mỗi từ được liên kết với một chỉ mục trong vectơ thưa, trong đó vectơ có một chỉ mục cho mỗi từ trong từ vựng. Ví dụ: cụm từ the dog jumps (con chó nhảy) được ánh xạ vào một vectơ đặc trưng có giá trị khác 0 tại 3 chỉ mục tương ứng với các từ the (cái), dog (chó) và jumps (nhảy). Giá trị khác 0 có thể là bất kỳ giá trị nào sau đây:

  • Số 1 để cho biết có một từ.
  • Số lần một từ xuất hiện trong túi. Ví dụ: nếu cụm từ là con chó màu đỏ tía là một con chó có bộ lông màu đỏ tía, thì cả màu đỏ tíachó sẽ được biểu thị là 2, trong khi các từ khác sẽ được biểu thị là 1.
  • Một số giá trị khác, chẳng hạn như logarit của số lần một từ xuất hiện trong túi.

đường cơ sở

Mô hình được dùng làm điểm tham chiếu để so sánh hiệu suất của một mô hình khác (thường là mô hình phức tạp hơn). Ví dụ: mô hình hồi quy logistic có thể đóng vai trò là đường cơ sở phù hợp cho mô hình sâu.

Đối với một vấn đề cụ thể, đường cơ sở giúp nhà phát triển mô hình định lượng hiệu suất tối thiểu dự kiến mà mô hình mới phải đạt được để mô hình mới hữu ích.

#fundamentals

Tập hợp ví dụ được sử dụng trong một lặp lại huấn luyện. Kích thước lô xác định số lượng ví dụ trong một lô.

Hãy xem phần thời gian bắt đầu để biết nội dung giải thích về mối quan hệ giữa một lô với thời gian bắt đầu.

Hãy xem phần Phương pháp hồi quy tuyến tính: Thông số siêu dữ liệu trong khoá học cấp tốc về học máy để biết thêm thông tin.

suy luận hàng loạt

#TensorFlow
#GoogleCloud

Quá trình xác định các dự đoán trên nhiều ví dụ chưa được gắn nhãn được chia thành các tập hợp con nhỏ hơn ("lô").

Suy luận hàng loạt có thể tận dụng các tính năng song song của chip tăng tốc. Tức là nhiều trình tăng tốc có thể đồng thời suy luận các dự đoán trên nhiều lô ví dụ chưa được gắn nhãn, làm tăng đáng kể số lượng suy luận mỗi giây.

Hãy xem phần Hệ thống ML thương mại: Suy luận tĩnh so với động trong khoá học cấp tốc về học máy để biết thêm thông tin.

chuẩn hoá theo lô

Chuẩn hoá đầu vào hoặc đầu ra của hàm kích hoạt trong lớp ẩn. Phương pháp chuẩn hoá theo lô có thể mang lại các lợi ích sau:

kích thước lô

#fundamentals

Số lượng ví dụ trong một . Ví dụ: nếu kích thước lô là 100, thì mô hình sẽ xử lý 100 ví dụ cho mỗi lần lặp.

Sau đây là các chiến lược kích thước lô phổ biến:

  • Giảm độ dốc ngẫu nhiên (SGD), trong đó kích thước lô là 1.
  • Hàng loạt đầy đủ, trong đó kích thước lô là số lượng ví dụ trong toàn bộ tập huấn luyện. Ví dụ: nếu tập huấn luyện chứa một triệu ví dụ, thì kích thước lô sẽ là một triệu ví dụ. Chiến lược toàn bộ lô thường là một chiến lược không hiệu quả.
  • tập hợp nhỏ, trong đó kích thước lô thường nằm trong khoảng từ 10 đến 1000. Tệp tối thiểu thường là chiến lược hiệu quả nhất.

Hãy xem những nội dung sau để biết thêm thông tin:

Mạng nơron Bayesian

Mạng nơron có tính xác suất tính đến độ không chắc chắn trong trọng số và đầu ra. Mô hình hồi quy mạng nơron tiêu chuẩn thường dự đoán một giá trị vô hướng; ví dụ: mô hình tiêu chuẩn dự đoán giá nhà là 853.000. Ngược lại, mạng nơron Bayesian dự đoán một phân phối giá trị; ví dụ: mô hình Bayesian dự đoán giá nhà là 853.000 với độ lệch chuẩn là 67.200.

Mạng nơron Bayesian dựa vào Định lý Bayes để tính toán độ không chắc chắn trong các trọng số và dự đoán. Mạng nơron Bayesian có thể hữu ích khi cần định lượng mức độ không chắc chắn, chẳng hạn như trong các mô hình liên quan đến dược phẩm. Mạng nơron Bayesian cũng có thể giúp ngăn chặn việc đưa ra mô hình quá phù hợp.

Tối ưu hoá Bayesian

Kỹ thuật mô hình hồi quy xác suất để tối ưu hoá hàm mục tiêu tốn kém về mặt tính toán bằng cách tối ưu hoá một hàm thay thế định lượng mức độ không chắc chắn bằng kỹ thuật học Bayesian. Vì bản thân phương pháp tối ưu hoá Bayesian rất tốn kém, nên phương pháp này thường được dùng để tối ưu hoá các tác vụ tốn kém để đánh giá có số lượng tham số nhỏ, chẳng hạn như chọn tham số siêu dữ liệu.

Phương trình Bellman

#rl

Trong học tăng cường, hàm-Q tối ưu thỏa mãn bản sắc sau:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Các thuật toán Học tăng cường áp dụng giá trị nhận dạng này để tạo Học Q thông qua quy tắc cập nhật sau:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Ngoài việc học tăng cường, phương trình Bellman còn có ứng dụng cho lập trình động. Xem bài viết trên Wikipedia về phương trình Bellman.

BERT (Biểu diễn Thể hiện Mã hoá Hai chiều từ Transformer)

#language

Cấu trúc mô hình để biểu thị văn bản. Mô hình BERT đã huấn luyện có thể đóng vai trò là một phần của mô hình lớn hơn để phân loại văn bản hoặc các nhiệm vụ khác về máy học.

BERT có các đặc điểm sau:

Các biến thể của BERT bao gồm:

  • ALBERT, là từ viết tắt của A Light BERT.
  • LaBSE.

Hãy xem bài viết BERT nguồn mở: Công nghệ huấn luyện trước tiên tiến để xử lý ngôn ngữ tự nhiên để biết thông tin tổng quan về BERT.

thiên kiến (đạo đức/công bằng)

#fairness
#fundamentals

1. Nội dung tạo ra định kiến, thành kiến hoặc thiên vị một số người, nhóm người hoặc sự vật hơn những người, nhóm người hoặc sự vật khác. Những thành kiến này có thể ảnh hưởng đến việc thu thập và diễn giải dữ liệu, thiết kế hệ thống và cách người dùng tương tác với hệ thống. Sau đây là một số hình thức của loại thiên kiến này:

2. Lỗi hệ thống do quy trình lấy mẫu hoặc báo cáo gây ra. Sau đây là một số hình thức của loại thiên kiến này:

Đừng nhầm lẫn với hệ số chệch trong mô hình học máy hoặc chệch dự đoán.

Hãy xem phần Tính công bằng: Các loại thiên kiến trong Khoá học cấp tốc về học máy để biết thêm thông tin.

thiên kiến (toán học) hoặc thuật ngữ thiên kiến

#fundamentals

Giá trị cắt hoặc độ dời từ một gốc. Sai số là một tham số trong các mô hình học máy, được biểu thị bằng một trong các ký hiệu sau:

  • b
  • w0

Ví dụ: độ lệch là b trong công thức sau:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Trong một đường hai chiều đơn giản, độ lệch chỉ có nghĩa là "điểm giao cắt y". Ví dụ: độ lệch của đường trong hình minh hoạ sau là 2.

Biểu đồ của một đường có độ dốc là 0,5 và độ lệch (giao điểm y) là 2.

Sự thiên lệch tồn tại vì không phải tất cả mô hình đều bắt đầu từ gốc (0,0). Ví dụ: giả sử một công viên giải trí có giá vé vào cổng là 2 Euro và thêm 0,5 Euro cho mỗi giờ khách hàng ở lại. Do đó, mô hình liên kết tổng chi phí có độ lệch là 2 vì chi phí thấp nhất là 2 Euro.

Không nên nhầm lẫn thiên kiến với thiên kiến về đạo đức và sự công bằng hoặc thiên kiến dự đoán.

Hãy xem phần Phương pháp hồi quy tuyến tính trong khoá học Học máy ứng dụng để biết thêm thông tin.

hai chiều

#language

Thuật ngữ dùng để mô tả một hệ thống đánh giá văn bản trướcsau một phần văn bản mục tiêu. Ngược lại, hệ thống một chiều chỉ đánh giá văn bản trước một phần văn bản mục tiêu.

Ví dụ: hãy xem xét một mô hình ngôn ngữ bị che phải xác định xác suất cho từ hoặc các từ đại diện cho dấu gạch dưới trong câu hỏi sau:

_____ của bạn thế nào?

Mô hình ngôn ngữ một chiều sẽ chỉ dựa trên xác suất của ngữ cảnh do các từ "What" (Cái gì), "is" (là) và "the" (cái) cung cấp. Ngược lại, mô hình ngôn ngữ hai chiều cũng có thể lấy ngữ cảnh từ "với" và "bạn", điều này có thể giúp mô hình tạo ra thông tin dự đoán chính xác hơn.

mô hình ngôn ngữ hai chiều

#language

Mô hình ngôn ngữ xác định xác suất một mã thông báo nhất định xuất hiện ở một vị trí nhất định trong một đoạn văn bản dựa trên văn bản trước đósau đó.

bigram

#seq
#language

N-gram trong đó N=2.

phân loại nhị phân

#fundamentals

Một loại tác vụ phân loại dự đoán một trong hai lớp loại trừ lẫn nhau:

Ví dụ: hai mô hình học máy sau đây đều thực hiện việc phân loại nhị phân:

  • Mô hình xác định xem thư email là thư rác (lớp dương) hay không phải thư rác (lớp âm).
  • Mô hình đánh giá các triệu chứng y tế để xác định xem một người có mắc một bệnh cụ thể hay không (lớp dương tính) hoặc không mắc bệnh đó (lớp âm tính).

Tương phản với phân loại đa lớp.

Xem thêm về biến hồi quy logisticngưỡng phân loại.

Hãy xem phần Phân loại trong Khoá học học máy ứng dụng để biết thêm thông tin.

điều kiện nhị phân

#df

Trong cây quyết định, điều kiện chỉ có thể có hai kết quả, thường là hoặc không. Ví dụ: sau đây là một điều kiện nhị phân:

temperature >= 100

Tương phản với điều kiện không nhị phân.

Hãy xem phần Các loại điều kiện trong khoá học Rừng quyết định để biết thêm thông tin.

phân thùng

Từ đồng nghĩa với nhóm.

BLEU (Bilingual Evaluation Understudy – Thử nghiệm đánh giá song ngữ)

#language

Một chỉ số từ 0 đến 1 để đánh giá bản dịch máy, ví dụ: từ tiếng Tây Ban Nha sang tiếng Nhật.

Để tính điểm, BLEU thường so sánh bản dịch của một mô hình học máy (văn bản được tạo) với bản dịch của một chuyên gia (văn bản tham chiếu). Mức độ khớp của N-gram trong văn bản được tạo và văn bản đối chiếu sẽ xác định điểm BLEU.

Bài báo gốc về chỉ số này là BLEU: a Method for Automatic Evaluation of Machine Translation (BLEU: Một phương pháp tự động đánh giá bản dịch máy).

Xem thêm BLEURT.

BLEURT (Bilingual Evaluation Understudy from Transformers – Học viên đánh giá song ngữ từ Transformers)

#language

Một chỉ số để đánh giá bản dịch máy từ ngôn ngữ này sang ngôn ngữ khác, đặc biệt là từ và sang tiếng Anh.

Đối với bản dịch sang và từ tiếng Anh, BLEURT phù hợp hơn với điểm xếp hạng của con người so với BLEU. Không giống như BLEU, BLEURT nhấn mạnh các điểm tương đồng về ngữ nghĩa (ý nghĩa) và có thể chấp nhận việc diễn đạt lại.

BLEURT dựa vào một mô hình ngôn ngữ lớn được huấn luyện trước (chính xác là BERT), sau đó được điều chỉnh chi tiết dựa trên văn bản của người dịch.

Bài báo gốc về chỉ số này là BLEURT: Học các chỉ số mạnh mẽ để tạo văn bản.

tăng cường

Một kỹ thuật học máy kết hợp lặp lại một tập hợp các bộ phân loại đơn giản và không chính xác lắm (gọi là bộ phân loại "yếu") thành một bộ phân loại có độ chính xác cao (bộ phân loại "mạnh") bằng cách tăng trọng số cho các ví dụ mà mô hình hiện đang phân loại sai.

Xem phần Cây quyết định tăng cường theo độ dốc trong khoá học về Rừng quyết định để biết thêm thông tin.

hộp giới hạn

#image

Trong một hình ảnh, tọa độ (x, y) của một hình chữ nhật xung quanh một khu vực quan tâm, chẳng hạn như chú chó trong hình ảnh bên dưới.

Ảnh chụp một chú chó ngồi trên ghế sofa. Một hộp giới hạn màu xanh lục với toạ độ trên cùng bên trái là (275, 1271) và toạ độ dưới cùng bên phải là (2954, 2761) bao quanh cơ thể của chú chó

phát sóng

Mở rộng hình dạng của toán hạng trong phép toán ma trận thành phương diện tương thích với phép toán đó. Ví dụ: Đại số tuyến tính yêu cầu hai toán hạng trong phép cộng ma trận phải có cùng kích thước. Do đó, bạn không thể thêm một ma trận có hình dạng (m, n) vào một vectơ có độ dài n. Broadcasting cho phép thực hiện thao tác này bằng cách mở rộng vectơ có độ dài n thành một ma trận có hình dạng (m, n) bằng cách sao chép cùng một giá trị xuống mỗi cột.

Ví dụ: với các định nghĩa sau, đại số tuyến tính cấm A+B vì A và B có các phương diện khác nhau:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Tuy nhiên, tính năng truyền tin cho phép thực hiện phép toán A+B bằng cách mở rộng B theo cách ảo thành:

 [[2, 2, 2],
  [2, 2, 2]]

Do đó, A+B hiện là một phép toán hợp lệ:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Hãy xem nội dung mô tả sau đây về tính năng truyền tin trong NumPy để biết thêm thông tin chi tiết.

phân giỏ

#fundamentals

Chuyển đổi một tính năng thành nhiều tính năng nhị phân được gọi là vùng chứa hoặc bin, thường dựa trên một dải giá trị. Tính năng cắt thường là một tính năng liên tục.

Ví dụ: thay vì biểu thị nhiệt độ dưới dạng một tính năng dấu phẩy động liên tục, bạn có thể cắt các phạm vi nhiệt độ thành các bộ chứa riêng biệt, chẳng hạn như:

  • <= 10 độ C sẽ là bộ chứa "lạnh".
  • 11 – 24 độ C sẽ là nhóm "trung bình".
  • >= 25 độ C sẽ là bộ chứa "nóng".

Mô hình sẽ xử lý mọi giá trị trong cùng một nhóm giống nhau. Ví dụ: các giá trị 1322 đều nằm trong bộ chứa ôn đới, do đó mô hình sẽ xử lý hai giá trị này giống nhau.

Hãy xem phần Dữ liệu số: Phân nhóm trong khoá học cấp tốc về học máy để biết thêm thông tin.

C

lớp hiệu chỉnh

Giá trị điều chỉnh sau khi dự đoán, thường là để tính đến tính thiên vị của kết quả dự đoán. Các giá trị dự đoán và xác suất đã điều chỉnh phải khớp với phân phối của một tập hợp nhãn đã quan sát được.

tạo đề xuất

#recsystems

Bộ đề xuất ban đầu do một hệ thống đề xuất chọn. Ví dụ: hãy xem xét một hiệu sách cung cấp 100.000 đầu sách. Giai đoạn tạo đề xuất tạo một danh sách sách phù hợp nhỏ hơn nhiều cho một người dùng cụ thể, giả sử là 500 cuốn. Nhưng ngay cả 500 cuốn sách cũng là quá nhiều để đề xuất cho người dùng. Các giai đoạn tiếp theo, tốn kém hơn của hệ thống đề xuất (chẳng hạn như đánh giáxếp hạng lại) sẽ giảm 500 đề xuất đó xuống một nhóm đề xuất nhỏ hơn và hữu ích hơn nhiều.

Hãy xem phần Tổng quan về việc tạo đề xuất trong khoá học Hệ thống đề xuất để biết thêm thông tin.

lấy mẫu đề xuất

Tính năng tối ưu hoá thời gian huấn luyện tính toán xác suất cho tất cả các nhãn dương, chẳng hạn như sử dụng softmax, nhưng chỉ cho một mẫu ngẫu nhiên của nhãn âm. Ví dụ: với một ví dụ được gắn nhãn beagledog (chó săn sục và chó), tính năng lấy mẫu đề xuất sẽ tính toán xác suất dự đoán và các thuật toán tổn thất tương ứng cho:

  • chó săn thỏ
  • chó
  • một tập hợp con ngẫu nhiên của các lớp âm còn lại (ví dụ: mèo, kẹo mút, hàng rào).

Ý tưởng là các lớp âm tính có thể học từ việc củng cố âm tính ít thường xuyên hơn miễn là các lớp dương tính luôn nhận được sự củng cố dương tính thích hợp, và điều này thực sự được quan sát bằng thực nghiệm.

Tính năng lấy mẫu đề xuất có hiệu quả tính toán cao hơn so với các thuật toán huấn luyện tính toán dự đoán cho tất cả lớp âm, đặc biệt là khi số lượng lớp âm rất lớn.

dữ liệu phân loại

#fundamentals

Tính năng có một tập hợp giá trị có thể có. Ví dụ: hãy xem xét một tính năng phân loại có tên là traffic-light-state. Tính năng này chỉ có thể có một trong ba giá trị sau:

  • red
  • yellow
  • green

Bằng cách biểu thị traffic-light-state dưới dạng một tính năng phân loại, mô hình có thể tìm hiểu các tác động khác nhau của red, greenyellow đối với hành vi của người lái xe.

Đôi khi, các tính năng phân loại được gọi là tính năng rời rạc.

Tương phản với dữ liệu dạng số.

Hãy xem phần Xử lý dữ liệu phân loại trong khoá học cấp tốc về học máy để biết thêm thông tin.

mô hình ngôn ngữ nhân quả

#language

Đồng nghĩa với mô hình ngôn ngữ một chiều.

Hãy xem mô hình ngôn ngữ hai chiều để phân biệt các phương pháp định hướng khác nhau trong mô hình ngôn ngữ.

tâm

#clustering

Tâm của một cụm do thuật toán k-means hoặc k-median xác định. Ví dụ: nếu k là 3, thì thuật toán k-means hoặc k-median sẽ tìm thấy 3 tâm điểm.

Hãy xem phần Thuật toán phân cụm trong khoá học Phân cụm để biết thêm thông tin.

phân cụm dựa trên tâm điểm

#clustering

Một danh mục thuật toán phân cụm sắp xếp dữ liệu thành các cụm không phân cấp. k-means là thuật toán phân cụm dựa trên tâm điểm được sử dụng rộng rãi nhất.

Tương phản với các thuật toán phân cụm phân cấp.

Hãy xem phần Thuật toán phân cụm trong khoá học Phân cụm để biết thêm thông tin.

câu lệnh gợi ý theo chuỗi suy nghĩ

#language
#generativeAI

Kỹ thuật kỹ thuật câu lệnh khuyến khích mô hình ngôn ngữ lớn (LLM) giải thích từng bước lý do của nó. Ví dụ: hãy xem xét câu lệnh sau, chú ý đặc biệt đến câu thứ hai:

Tài xế sẽ phải chịu bao nhiêu lực g khi lái một chiếc xe tăng tốc từ 0 lên 60 dặm/giờ trong 7 giây? Trong câu trả lời, hãy trình bày tất cả các phép tính liên quan.

Phản hồi của LLM có thể:

  • Hiển thị một chuỗi các công thức vật lý, cắm các giá trị 0, 60 và 7 vào các vị trí thích hợp.
  • Giải thích lý do chọn những công thức đó và ý nghĩa của các biến.

Lệnh nhắc theo chuỗi suy nghĩ buộc LLM thực hiện tất cả các phép tính, điều này có thể dẫn đến câu trả lời chính xác hơn. Ngoài ra, lời nhắc chuỗi suy nghĩ cho phép người dùng kiểm tra các bước của LLM để xác định xem câu trả lời có hợp lý hay không.

trò chuyện

#language
#generativeAI

Nội dung của cuộc trò chuyện qua lại với một hệ thống học máy, thường là một mô hình ngôn ngữ lớn. Hoạt động tương tác trước đó trong cuộc trò chuyện (những gì bạn đã nhập và cách mô hình ngôn ngữ lớn phản hồi) trở thành ngữ cảnh cho các phần tiếp theo của cuộc trò chuyện.

Chatbot là một ứng dụng của mô hình ngôn ngữ lớn.

chốt kiểm tra

Dữ liệu ghi lại trạng thái của các tham số của mô hình trong quá trình huấn luyện hoặc sau khi huấn luyện xong. Ví dụ: trong quá trình huấn luyện, bạn có thể:

  1. Dừng huấn luyện, có thể là do chủ ý hoặc do một số lỗi nhất định.
  2. Ghi lại điểm kiểm tra.
  3. Sau đó, hãy tải lại điểm kiểm tra, có thể là trên phần cứng khác.
  4. Khởi động lại quá trình huấn luyện.

lớp

#fundamentals

Danh mục mà nhãn có thể thuộc về. Ví dụ:

  • Trong mô hình phân loại nhị phân phát hiện thư rác, hai lớp có thể là thư ráckhông phải thư rác.
  • Trong mô hình phân loại nhiều lớp xác định giống chó, các lớp có thể là poodle, beagle, pug, v.v.

Mô hình phân loại dự đoán một lớp. Ngược lại, mô hình hồi quy dự đoán một con số thay vì một lớp.

Hãy xem phần Phân loại trong Khoá học học máy ứng dụng để biết thêm thông tin.

mô hình phân loại

#fundamentals

Mô hình có kết quả dự đoán là một lớp. Ví dụ: sau đây là tất cả các mô hình phân loại:

  • Mô hình dự đoán ngôn ngữ của một câu đầu vào (tiếng Pháp? Tiếng Tây Ban Nha? Tiếng Ý?).
  • Mô hình dự đoán loài cây (Cây phong?) Gỗ sồi? Bao báp?).
  • Mô hình dự đoán lớp dương tính hoặc âm tính cho một tình trạng bệnh cụ thể.

Ngược lại, mô hình hồi quy dự đoán số liệu thay vì các lớp.

Có hai loại mô hình phân loại phổ biến là:

ngưỡng phân loại

#fundamentals

Trong một lớp phân loại nhị phân, một số từ 0 đến 1 sẽ chuyển đổi đầu ra thô của mô hình biến hồi quy logistic thành một dự đoán về lớp tích cực hoặc lớp tiêu cực. Xin lưu ý rằng ngưỡng phân loại là một giá trị do con người chọn, không phải giá trị do quá trình huấn luyện mô hình chọn.

Mô hình hồi quy logistic sẽ xuất ra một giá trị thô trong khoảng từ 0 đến 1. Sau đó:

  • Nếu giá trị thô này lớn hơn ngưỡng phân loại, thì lớp dương tính sẽ được dự đoán.
  • Nếu giá trị thô này nhỏ hơn ngưỡng phân loại, thì lớp âm sẽ được dự đoán.

Ví dụ: giả sử ngưỡng phân loại là 0, 8. Nếu giá trị thô là 0,9, thì mô hình sẽ dự đoán lớp dương. Nếu giá trị thô là 0,7, thì mô hình sẽ dự đoán lớp âm.

Lựa chọn ngưỡng phân loại ảnh hưởng rất lớn đến số lượng dương tính giảâm tính giả.

Hãy xem phần Ngưỡng và ma trận nhiễu trong khoá học Học máy ứng dụng để biết thêm thông tin.

tập dữ liệu bất cân đối về loại

#fundamentals

Một tập dữ liệu cho một vấn đề phân loại, trong đó tổng số nhãn của mỗi lớp khác nhau đáng kể. Ví dụ: hãy xem xét một tập dữ liệu phân loại nhị phân có hai nhãn được chia như sau:

  • 1.000.000 nhãn phủ định
  • 10 nhãn dương

Tỷ lệ nhãn âm so với nhãn dương là 100.000 trên 1,vì vậy, đây là một tập dữ liệu bất cân đối về loại.

Ngược lại, tập dữ liệu sau đây không mất cân bằng lớp vì tỷ lệ nhãn âm so với nhãn dương tương đối gần với 1:

  • 517 nhãn phủ định
  • 483 nhãn dương

Tập dữ liệu nhiều lớp cũng có thể không cân bằng về lớp. Ví dụ: tập dữ liệu phân loại nhiều lớp sau đây cũng bất cân đối về lớp vì một nhãn có nhiều ví dụ hơn nhiều so với hai nhãn còn lại:

  • 1.000.000 nhãn có lớp "green"
  • 200 nhãn có lớp "purple"
  • 350 nhãn có lớp "orange"

Xem thêm entropy, lớp đa sốlớp thiểu số.

cắt bớt

#fundamentals

Một kỹ thuật để xử lý điểm ngoại lai bằng cách thực hiện một hoặc cả hai việc sau:

  • Giảm các giá trị tính năng lớn hơn ngưỡng tối đa xuống ngưỡng tối đa đó.
  • Tăng giá trị đặc điểm nhỏ hơn ngưỡng tối thiểu lên ngưỡng tối thiểu đó.

Ví dụ: giả sử <0, 5% giá trị của một tính năng cụ thể nằm ngoài phạm vi 40–60. Trong trường hợp này, bạn có thể làm như sau:

  • Cắt tất cả các giá trị trên 60 (ngưỡng tối đa) thành đúng 60.
  • Cắt tất cả các giá trị dưới 40 (ngưỡng tối thiểu) thành đúng 40.

Giá trị ngoại lai có thể làm hỏng mô hình, đôi khi khiến trọng số tràn trong quá trình huấn luyện. Một số giá trị ngoại lai cũng có thể làm hỏng đáng kể các chỉ số như độ chính xác. Cắt là một kỹ thuật phổ biến để hạn chế thiệt hại.

Tính năng cắt phông màu buộc các giá trị phông màu nằm trong một phạm vi được chỉ định trong quá trình huấn luyện.

Hãy xem phần Dữ liệu số: Bình thường hoá trong khoá học cấp tốc về học máy để biết thêm thông tin.

Cloud TPU

#TensorFlow
#GoogleCloud

Một trình tăng tốc phần cứng chuyên biệt được thiết kế để tăng tốc khối lượng công việc của máy học trên Google Cloud.

phân cụm

#clustering

Nhóm các ví dụ có liên quan, đặc biệt là trong quá trình học không có giám sát. Sau khi tất cả các ví dụ được nhóm lại với nhau, con người có thể tuỳ ý cung cấp ý nghĩa cho từng cụm.

Có nhiều thuật toán phân cụm. Ví dụ: thuật toán k-means phân cụm các ví dụ dựa trên khoảng cách của các ví dụ đó với trung tâm trọng lực, như trong sơ đồ sau:

Biểu đồ hai chiều trong đó trục x được gắn nhãn chiều rộng cây và trục y được gắn nhãn chiều cao cây. Biểu đồ này chứa hai tâm điểm và vài chục điểm dữ liệu. Các điểm dữ liệu được phân loại dựa trên khoảng cách của chúng. Tức là các điểm dữ liệu gần nhất với một tâm điểm được phân loại là cụm 1, trong khi các điểm dữ liệu gần nhất với tâm điểm còn lại được phân loại là cụm 2.

Sau đó, nhà nghiên cứu có thể xem xét các cụm này và ví dụ: gắn nhãn cụm 1 là "cây lùn" và cụm 2 là "cây kích thước đầy đủ".

Ví dụ khác: hãy xem xét thuật toán phân cụm dựa trên khoảng cách của một ví dụ từ một điểm trung tâm, minh hoạ như sau:

Hàng chục điểm dữ liệu được sắp xếp theo hình tròn đồng tâm, gần giống như các lỗ xung quanh tâm của bảng phi tiêu. Vòng trong cùng của các điểm dữ liệu được phân loại là cụm 1, vòng giữa được phân loại là cụm 2 và vòng ngoài cùng được phân loại là cụm 3.

Hãy xem khoá học về tính năng Nhóm để biết thêm thông tin.

đồng thích ứng

Khi các tế bào thần kinh dự đoán các mẫu trong dữ liệu huấn luyện bằng cách chỉ dựa vào đầu ra của một số tế bào thần kinh cụ thể thay vì dựa vào hành vi tổng thể của mạng. Khi các mẫu gây ra quá trình thích ứng không có trong dữ liệu xác thực, thì quá trình thích ứng sẽ gây ra tình trạng phù hợp quá mức. Quy trình chuẩn hoá bỏ qua làm giảm khả năng thích ứng song song vì quy trình này đảm bảo rằng các tế bào thần kinh không thể chỉ dựa vào các tế bào thần kinh cụ thể khác.

lọc cộng tác

#recsystems

Dự đoán mối quan tâm của một người dùng dựa trên mối quan tâm của nhiều người dùng khác. Lọc cộng tác thường được dùng trong hệ thống đề xuất.

Hãy xem phần Lọc cộng tác trong khoá học Hệ thống đề xuất để biết thêm thông tin.

độ trôi của khái niệm

Sự thay đổi trong mối quan hệ giữa các tính năng và nhãn. Theo thời gian, sự dịch chuyển khái niệm sẽ làm giảm chất lượng của mô hình.

Trong quá trình huấn luyện, mô hình sẽ tìm hiểu mối quan hệ giữa các đặc điểm và nhãn của các đặc điểm đó trong tập huấn luyện. Nếu nhãn trong tập huấn luyện là giá trị đại diện tốt cho thế giới thực, thì mô hình sẽ đưa ra dự đoán tốt về thế giới thực. Tuy nhiên, do sự dịch chuyển khái niệm, dự đoán của mô hình có xu hướng giảm dần theo thời gian.

Ví dụ: hãy xem xét một mô hình phân loại nhị phân dự đoán xem một mẫu xe nhất định có "tiết kiệm nhiên liệu" hay không. Tức là các tính năng có thể là:

  • trọng lượng xe
  • nén công cụ
  • loại truyền

trong khi nhãn là:

  • tiết kiệm nhiên liệu
  • không tiết kiệm nhiên liệu

Tuy nhiên, khái niệm "xe tiết kiệm nhiên liệu" liên tục thay đổi. Một mẫu xe được gắn nhãn tiết kiệm nhiên liệu vào năm 1994 gần như chắc chắn sẽ được gắn nhãn không tiết kiệm nhiên liệu vào năm 2024. Một mô hình bị trôi khái niệm có xu hướng đưa ra các dự đoán ngày càng ít hữu ích theo thời gian.

So sánh và đối chiếu với tính không ổn định.

điều kiện

#df

Trong cây quyết định, mọi nút đều đánh giá một biểu thức. Ví dụ: phần sau của cây quyết định chứa hai điều kiện:

Cây quyết định bao gồm hai điều kiện: (x > 0) và (y > 0).

Điều kiện còn được gọi là phần phân tách hoặc kiểm thử.

Điều kiện tương phản với .

Xem thêm:

Hãy xem phần Các loại điều kiện trong khoá học Rừng quyết định để biết thêm thông tin.

hoang tưởng

#language

Từ đồng nghĩa với ảo giác.

Ảo tưởng có thể là một thuật ngữ chính xác hơn về mặt kỹ thuật so với ảo giác. Tuy nhiên, ảo giác đã trở nên phổ biến trước.

cấu hình

Quá trình chỉ định giá trị thuộc tính ban đầu dùng để huấn luyện mô hình, bao gồm:

Trong các dự án học máy, bạn có thể định cấu hình thông qua một tệp cấu hình đặc biệt hoặc sử dụng các thư viện cấu hình như sau:

thiên kiến xác nhận

#fairness

Khuynh hướng tìm kiếm, diễn giải, ưu tiên và gợi nhắc thông tin theo cách xác nhận niềm tin hoặc giả thuyết có sẵn của một người. Nhà phát triển công nghệ học máy có thể vô tình thu thập hoặc gắn nhãn dữ liệu theo cách ảnh hưởng đến kết quả ủng hộ niềm tin hiện có của họ. Thiên kiến xác nhận là một dạng thiên kiến ngầm ẩn.

Thiên kiến của người thử nghiệm là một dạng thiên kiến xác nhận, trong đó người thử nghiệm tiếp tục huấn luyện mô hình cho đến khi xác nhận được giả thuyết có sẵn.

ma trận nhầm lẫn

#fundamentals

Bảng NxN tóm tắt số lượng dự đoán chính xác và không chính xác mà mô hình phân loại đưa ra. Ví dụ: hãy xem xét ma trận nhầm lẫn sau đây cho mô hình phân loại nhị phân:

U (dự đoán) Không phải khối u (dự đoán)
U (thông tin thực tế) 18 (TP) 1 (FN)
Không phải khối u (thông tin thực tế) 6 (FP) 452 (TN)

Ma trận nhầm lẫn trước đó cho thấy những thông tin sau:

  • Trong số 19 lần dự đoán mà giá trị thực tế là U bướu, mô hình đã phân loại chính xác 18 lần và phân loại không chính xác 1 lần.
  • Trong số 458 kết quả dự đoán mà giá trị thực tế là Không phải khối u, mô hình đã phân loại chính xác 452 kết quả và phân loại không chính xác 6 kết quả.

Ma trận nhầm lẫn cho vấn đề phân loại nhiều lớp có thể giúp bạn xác định các mẫu lỗi. Ví dụ: hãy xem xét ma trận nhầm lẫn sau đây cho mô hình phân loại nhiều lớp 3 lớp, phân loại 3 loại hoa iris khác nhau (Virginica, Versicolor và Setosa). Khi giá trị thực tế là Virginica, ma trận nhầm lẫn cho thấy mô hình có nhiều khả năng dự đoán nhầm Versicolor hơn Setosa:

  Setosa (dự đoán) Versicolor (dự đoán) Virginica (dự đoán)
Setosa (thông tin thực tế) 88 12 0
Versicolor (thông tin thực tế) 6 141 7
Virginica (thông tin thực tế) 2 27 109

Ví dụ khác: một ma trận nhầm lẫn có thể cho thấy rằng một mô hình được huấn luyện để nhận dạng chữ số viết tay có xu hướng dự đoán nhầm 9 thay vì 4 hoặc dự đoán nhầm 1 thay vì 7.

Ma trận nhầm lẫn chứa đủ thông tin để tính toán nhiều chỉ số hiệu suất, bao gồm cả độ chính xácđộ hồi quy.

phân tích cú pháp khu vực bầu cử

#language

Chia một câu thành các cấu trúc ngữ pháp nhỏ hơn ("thành phần"). Một phần sau của hệ thống học máy, chẳng hạn như mô hình hiểu ngôn ngữ tự nhiên, có thể phân tích cú pháp các thành phần dễ dàng hơn so với câu ban đầu. Ví dụ: hãy xem xét câu sau:

Bạn tôi đã nhận nuôi hai chú mèo.

Trình phân tích cú pháp thành phần có thể chia câu này thành hai thành phần sau:

  • My friend (Bạn của tôi) là một cụm danh từ.
  • nhận nuôi hai chú mèo là một cụm động từ.

Các thành phần này có thể được chia nhỏ thành các thành phần nhỏ hơn. Ví dụ: cụm động từ

nhận nuôi hai chú mèo

có thể được chia nhỏ thành:

  • adopted là động từ.
  • hai con mèo là một cụm danh từ khác.

Nhúng ngôn ngữ theo ngữ cảnh

#language
#generativeAI

Một mã nhúng gần như "hiểu" các từ và cụm từ theo cách mà người bản địa có thể hiểu. Các phần nhúng ngôn ngữ theo ngữ cảnh có thể hiểu được cú pháp, ngữ nghĩa và ngữ cảnh phức tạp.

Ví dụ: hãy xem xét các phần nhúng của từ tiếng Anh cow. Các phương pháp nhúng cũ hơn như word2vec có thể biểu thị các từ tiếng Anh sao cho khoảng cách trong không gian nhúng từ cow (bò) đến bull (bò đực) tương tự như khoảng cách từ ewe (cừu cái) đến ram (cừu đực) hoặc từ female (nữ) đến male (nam). Tính năng nhúng ngôn ngữ theo ngữ cảnh có thể tiến xa hơn bằng cách nhận ra rằng người nói tiếng Anh đôi khi sử dụng từ cow (bò) để chỉ bò cái hoặc bò đực.

cửa sổ ngữ cảnh

#language
#generativeAI

Số lượng mã thông báo mà một mô hình có thể xử lý trong một lời nhắc nhất định. Cửa sổ ngữ cảnh càng lớn, mô hình càng có thể sử dụng nhiều thông tin để đưa ra các phản hồi nhất quán và rõ ràng cho câu lệnh.

tính năng liên tục

#fundamentals

Tính năng dấu phẩy động có phạm vi vô hạn các giá trị có thể có, chẳng hạn như nhiệt độ hoặc trọng lượng.

Tương phản với tính năng rời rạc.

lấy mẫu tiện lợi

Sử dụng tập dữ liệu không được thu thập một cách khoa học để chạy các thử nghiệm nhanh. Sau đó, bạn cần chuyển sang một tập dữ liệu được thu thập một cách khoa học.

sự hội tụ

#fundamentals

Trạng thái đạt được khi các giá trị mất thay đổi rất ít hoặc hoàn toàn không thay đổi với mỗi lặp lại. Ví dụ: Đường cong tổn thất sau đây cho thấy sự hội tụ ở khoảng 700 lần lặp:

Biểu đồ Descartes. Trục X là mất. Trục Y là số lần lặp lại quá trình huấn luyện. Mức hao tổn rất cao trong vài lần lặp lại đầu tiên, nhưng giảm mạnh. Sau khoảng 100 lần lặp lại, tổn thất vẫn giảm nhưng chậm hơn nhiều. Sau khoảng 700 lần lặp lại, tổn thất vẫn giữ nguyên.

Mô hình hội tụ khi quá trình huấn luyện bổ sung không cải thiện mô hình.

Trong học sâu, các giá trị tổn thất đôi khi giữ nguyên hoặc gần như vậy trong nhiều lần lặp lại trước khi cuối cùng giảm dần. Trong một khoảng thời gian dài có các giá trị tổn thất không đổi, bạn có thể tạm thời có cảm giác hội tụ sai.

Xem thêm phần dừng sớm.

Hãy xem phần Đường cong tổn thất và hội tụ mô hình trong khoá học cấp tốc về học máy để biết thêm thông tin.

hàm lồi

Một hàm trong đó vùng phía trên biểu đồ của hàm là một tập hợp lồi. Hàm lồi nguyên mẫu có hình dạng giống như chữ cái U. Ví dụ: sau đây là tất cả các hàm lồi:

Đường cong hình chữ U, mỗi đường cong có một điểm cực tiểu.

Ngược lại, hàm sau đây không phải là hàm lồi. Hãy lưu ý cách vùng phía trên biểu đồ không phải là tập hợp lồi:

Một đường cong hình chữ W với hai điểm cực tiểu cục bộ khác nhau.

Hàm lồi nghiêm ngặt có đúng một điểm cực tiểu cục bộ, cũng là điểm cực tiểu toàn cục. Các hàm hình chữ U cổ điển là hàm lồi nghiêm ngặt. Tuy nhiên, một số hàm lồi (ví dụ: đường thẳng) không có hình chữ U.

Hãy xem phần Hàm hội tụ và hàm lồi trong khoá học cấp tốc về học máy để biết thêm thông tin.

tối ưu hoá lồi

Quá trình sử dụng các kỹ thuật toán học như đường dẫn xuống theo độ dốc để tìm giá trị tối thiểu của hàm lồi. Rất nhiều nghiên cứu trong lĩnh vực học máy đã tập trung vào việc xây dựng nhiều vấn đề dưới dạng vấn đề tối ưu hoá lồi và giải quyết các vấn đề đó hiệu quả hơn.

Để biết toàn bộ thông tin chi tiết, hãy xem Boyd và Vandenberghe, Tối ưu hoá cong.

tập hợp lồi

Một tập hợp con của không gian Euclide sao cho một đường kẻ giữa hai điểm bất kỳ trong tập hợp con đó vẫn nằm hoàn toàn trong tập hợp con đó. Ví dụ: hai hình dạng sau đây là tập hợp lồi:

Một hình minh hoạ hình chữ nhật. Hình minh hoạ khác về hình bầu dục.

Ngược lại, hai hình dạng sau đây không phải là tập hợp lồi:

Hình minh hoạ một biểu đồ hình tròn bị thiếu một lát cắt.
          Hình minh hoạ khác về một đa giác rất bất thường.

tích chập

#image

Trong toán học, nói một cách đơn giản, đây là sự kết hợp của hai hàm. Trong học máy, phép tích chập kết hợp bộ lọc tích chập và ma trận đầu vào để huấn luyện hệ số trọng số.

Thuật ngữ "convolution" (phương pháp tích chập) trong học máy thường là cách viết tắt để tham chiếu đến toán tử tích chập hoặc lớp tích chập.

Nếu không có phép tích chập, thuật toán học máy sẽ phải học một trọng số riêng biệt cho mỗi ô trong một tensor lớn. Ví dụ: một thuật toán học máy được huấn luyện trên hình ảnh 2K x 2K sẽ buộc phải tìm 4 triệu trọng số riêng biệt. Nhờ phép tích chập, thuật toán học máy chỉ cần tìm trọng số cho mọi ô trong bộ lọc tích chập, giúp giảm đáng kể bộ nhớ cần thiết để huấn luyện mô hình. Khi áp dụng bộ lọc tích chập, bộ lọc này chỉ được sao chép trên các ô sao cho mỗi ô được nhân với bộ lọc.

Hãy xem phần Giới thiệu về mạng nơron xoáy trong khoá học Phân loại hình ảnh để biết thêm thông tin.

bộ lọc tích chập

#image

Một trong hai thành phần trong một toán tử tích chập. (Thành phần khác là một lát cắt của ma trận đầu vào.) Bộ lọc tích chập là một ma trận có cùng hạng với ma trận đầu vào, nhưng có hình dạng nhỏ hơn. Ví dụ: với ma trận đầu vào 28x28, bộ lọc có thể là bất kỳ ma trận 2D nào nhỏ hơn 28x28.

Trong quá trình xử lý ảnh, tất cả các ô trong bộ lọc tích chập thường được đặt thành một mẫu không đổi gồm các số 1 và 0. Trong học máy, các bộ lọc tích chập thường được tạo bằng số ngẫu nhiên, sau đó mạng huấn luyện các giá trị lý tưởng.

Hãy xem phần Convolution (Trường hợp tích chập) trong khoá học Phân loại hình ảnh để biết thêm thông tin.

lớp tích chập

#image

Một lớp của mạng nơron sâu, trong đó bộ lọc tích chập truyền dọc theo một ma trận đầu vào. Ví dụ: hãy xem xét bộ lọc tích chập 3x3 sau đây:

Một ma trận 3x3 có các giá trị sau: [[0,1,0], [1,0,1], [0,1,0]]

Ảnh động sau đây cho thấy một lớp convolutional bao gồm 9 phép toán convolutional liên quan đến ma trận đầu vào 5x5. Lưu ý rằng mỗi phép tính tích chập hoạt động trên một lát cắt 3x3 khác nhau của ma trận đầu vào. Ma trận 3x3 thu được (ở bên phải) bao gồm kết quả của 9 phép tích chập:

Ảnh động hiển thị hai ma trận. Ma trận đầu tiên là ma trận 5x5: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].
          Ma trận thứ hai là ma trận 3x3:
          [[181,303,618], [115,338,605], [169,351,560]].
          Ma trận thứ hai được tính bằng cách áp dụng bộ lọc tích luỹ [[0, 1, 0], [1, 0, 1], [0, 1, 0]] trên các tập hợp con 3x3 khác nhau của ma trận 5x5.

Hãy xem phần Lớp kết nối đầy đủ trong khoá học Phân loại hình ảnh để biết thêm thông tin.

mạng nơron tích chập

#image

Mạng nơron trong đó ít nhất một lớp là lớp tích chập. Một mạng nơron tích luỹ điển hình bao gồm một số tổ hợp của các lớp sau:

Mạng nơron tích chập đã đạt được thành công lớn trong một số loại vấn đề, chẳng hạn như nhận dạng hình ảnh.

phép tích chập

#image

Phép toán hai bước sau đây:

  1. Nhân theo phần tử của bộ lọc tích chập và một lát cắt của ma trận đầu vào. (Lát cắt của ma trận đầu vào có cùng thứ hạng và kích thước với bộ lọc tích chập.)
  2. Tổng của tất cả các giá trị trong ma trận tích thu được.

Ví dụ: hãy xem xét ma trận đầu vào 5x5 sau:

Ma trận 5x5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

Bây giờ, hãy tưởng tượng bộ lọc tích chập 2x2 sau:

Ma trận 2x2: [[1, 0], [0, 1]]

Mỗi phép toán tích chập bao gồm một lát cắt 2x2 của ma trận đầu vào. Ví dụ: giả sử chúng ta sử dụng lát cắt 2x2 ở góc trên bên trái của ma trận đầu vào. Do đó, phép tích chập trên lát cắt này sẽ có dạng như sau:

Áp dụng bộ lọc tích chập [[1, 0], [0, 1]] cho phần 2x2 ở trên cùng bên trái của ma trận đầu vào, tức là [[128,97], [35,22]].
          Bộ lọc tích chập giữ nguyên 128 và 22, nhưng đặt giá trị 0 cho 97 và 35. Do đó, phép tích chập sẽ trả về giá trị 150 (128+22).

Lớp tích chập bao gồm một loạt các phép toán tích chập, mỗi phép toán tác động lên một lát cắt khác nhau của ma trận đầu vào.

chi phí

Từ đồng nghĩa với mất.

đào tạo cùng nhau

Phương pháp học bán giám sát đặc biệt hữu ích khi tất cả các điều kiện sau đây đều đúng:

Về cơ bản, tính năng huấn luyện đồng thời sẽ khuếch đại các tín hiệu độc lập thành một tín hiệu mạnh hơn. Ví dụ: hãy xem xét một mô hình phân loại phân loại từng chiếc xe đã qua sử dụng là Tốt hoặc Kém. Một nhóm tính năng dự đoán có thể tập trung vào các đặc điểm tổng hợp như năm, hãng và mẫu xe; một nhóm tính năng dự đoán khác có thể tập trung vào hồ sơ lái xe của chủ sở hữu trước đó và nhật ký bảo dưỡng của xe.

Bài báo quan trọng về việc huấn luyện đồng thời là Kết hợp dữ liệu được gắn nhãn và không được gắn nhãn bằng tính năng Huấn luyện đồng thời của Blum và Mitchell.

tính công bằng giả định

#fairness

Chỉ số công bằng kiểm tra xem một thuật toán phân loại có đưa ra kết quả giống nhau cho một cá nhân như đối với một cá nhân khác giống hệt với cá nhân đầu tiên hay không, ngoại trừ một hoặc nhiều thuộc tính nhạy cảm. Đánh giá một bộ phân loại về tính công bằng giả định là một phương pháp để đưa ra các nguồn tiềm ẩn của sự thiên vị trong mô hình.

Hãy xem một trong những nội dung sau để biết thêm thông tin:

thiên vị do thiếu bao quát

#fairness

Xem phần thiên vị do cách chọn mẫu.

sự cố hoa

#language

Một câu hoặc cụm từ có ý nghĩa mơ hồ. Lỗi hoa hồng là một vấn đề đáng kể trong việc hiểu ngôn ngữ tự nhiên. Ví dụ: dòng tiêu đề Red Tape Holds Up Skyscraper (Công việc hành chính làm chậm tiến độ xây dựng toà nhà chọc trời) là một cụm từ hoa mỹ vì mô hình NLU có thể diễn giải dòng tiêu đề theo nghĩa đen hoặc nghĩa bóng.

nhà phê bình

#rl

Đồng nghĩa với Mạng Q sâu.

entropy chéo

Tổng quát hoá Mất mát theo nhật ký cho các vấn đề phân loại đa lớp. Độ chênh lệch entropy định lượng sự khác biệt giữa hai hàm phân phối xác suất. Xem thêm perplexity.

xác thực chéo

Cơ chế ước tính mức độ tổng quát hoá của một mô hình đối với dữ liệu mới bằng cách kiểm thử mô hình đó trên một hoặc nhiều tập hợp con dữ liệu không trùng lặp được giữ lại từ tập dữ liệu huấn luyện.

hàm phân phối tích luỹ (CDF)

Hàm xác định tần suất của các mẫu nhỏ hơn hoặc bằng giá trị mục tiêu. Ví dụ: hãy xem xét một phân phối chuẩn của các giá trị liên tục. CDF cho bạn biết rằng khoảng 50% mẫu phải nhỏ hơn hoặc bằng giá trị trung bình và khoảng 84% mẫu phải nhỏ hơn hoặc bằng một độ lệch chuẩn cao hơn giá trị trung bình.

D

phân tích dữ liệu

Tìm hiểu dữ liệu bằng cách xem xét các mẫu, phép đo và hình ảnh. Phân tích dữ liệu có thể đặc biệt hữu ích khi nhận được tập dữ liệu đầu tiên, trước khi tạo mô hình đầu tiên. Điều này cũng rất quan trọng trong việc hiểu các thử nghiệm và gỡ lỗi các vấn đề với hệ thống.

tăng cường dữ liệu

#image

Tăng phạm vi và số lượng ví dụ huấn luyện một cách nhân tạo bằng cách biến đổi các ví dụ hiện có để tạo thêm ví dụ. Ví dụ: giả sử hình ảnh là một trong các tính năng, nhưng tập dữ liệu của bạn không chứa đủ ví dụ về hình ảnh để mô hình học được các mối liên kết hữu ích. Tốt nhất là bạn nên thêm đủ hình ảnh được gắn nhãn vào tập dữ liệu để mô hình của bạn có thể huấn luyện đúng cách. Nếu không thể, tính năng tăng cường dữ liệu có thể xoay, kéo giãn và phản chiếu từng hình ảnh để tạo ra nhiều biến thể của hình ảnh ban đầu, có thể tạo ra đủ dữ liệu được gắn nhãn để cho phép huấn luyện hiệu quả.

DataFrame

#fundamentals

Loại dữ liệu pandas phổ biến để biểu thị tập dữ liệu trong bộ nhớ.

DataFrame tương tự như một bảng hoặc bảng tính. Mỗi cột của DataFrame có một tên (tiêu đề) và mỗi hàng được xác định bằng một số duy nhất.

Mỗi cột trong DataFrame có cấu trúc giống như một mảng 2D, ngoại trừ việc mỗi cột có thể được gán kiểu dữ liệu riêng.

Xem thêm trang tham khảo chính thức về pandas.DataFrame.

tính song song dữ liệu

Một cách mở rộng quy mô huấn luyện hoặc xác suất sao chép toàn bộ mô hình trên nhiều thiết bị, sau đó truyền một tập hợp con dữ liệu đầu vào cho mỗi thiết bị. Tính năng song song dữ liệu có thể hỗ trợ việc huấn luyện và suy luận trên kích thước lô rất lớn; tuy nhiên, tính năng song song dữ liệu yêu cầu mô hình phải đủ nhỏ để phù hợp với tất cả thiết bị.

Tính song song dữ liệu thường giúp tăng tốc độ huấn luyện và suy luận.

Xem thêm phần song song mô hình.

Dataset API (tf.data)

#TensorFlow

API TensorFlow cấp cao để đọc dữ liệu và chuyển đổi dữ liệu đó thành một dạng mà thuật toán học máy yêu cầu. Đối tượng tf.data.Dataset đại diện cho một trình tự các phần tử, trong đó mỗi phần tử chứa một hoặc nhiều Tensor. Đối tượng tf.data.Iterator cung cấp quyền truy cập vào các phần tử của Dataset.

tập dữ liệu

#fundamentals

Một tập hợp dữ liệu thô, thường (nhưng không chỉ) được sắp xếp theo một trong các định dạng sau:

  • bảng tính
  • tệp ở định dạng CSV (giá trị được phân tách bằng dấu phẩy)

ranh giới quyết định

Dấu phân cách giữa các lớp do mô hình học được trong một lớp nhị phân hoặc các vấn đề phân loại nhiều lớp. Ví dụ: trong hình ảnh sau đây thể hiện một vấn đề phân loại nhị phân, ranh giới quyết định là ranh giới giữa lớp màu cam và lớp màu xanh dương:

Ranh giới được xác định rõ giữa một lớp và lớp khác.

rừng quyết định

#df

Mô hình được tạo từ nhiều cây quyết định. Rừng quyết định đưa ra dự đoán bằng cách tổng hợp các dự đoán của cây quyết định. Các loại rừng quyết định phổ biến bao gồm rừng ngẫu nhiênrừng tăng cường theo độ dốc.

Hãy xem phần Rừng quyết định trong khoá học Rừng quyết định để biết thêm thông tin.

ngưỡng quyết định

Đồng nghĩa với ngưỡng phân loại.

cây quyết định

#df

Mô hình học có giám sát bao gồm một tập hợp điều kiện được sắp xếp theo hệ phân cấp. Ví dụ: sau đây là một cây quyết định:

Cây quyết định bao gồm 4 điều kiện được sắp xếp theo thứ bậc, dẫn đến 5 lá.

bộ giải mã

#language

Nhìn chung, mọi hệ thống học máy đều chuyển đổi từ một bản trình bày đã xử lý, dày đặc hoặc nội bộ sang một bản trình bày thô, thưa thớt hoặc bên ngoài hơn.

Bộ giải mã thường là một thành phần của một mô hình lớn hơn, trong đó chúng thường được ghép nối với một bộ mã hoá.

Trong các tác vụ từ trình tự đến trình tự, trình giải mã bắt đầu bằng trạng thái nội bộ do bộ mã hoá tạo ra để dự đoán trình tự tiếp theo.

Hãy tham khảo Transformer để biết định nghĩa về bộ giải mã trong cấu trúc Transformer.

Hãy xem phần Mô hình ngôn ngữ lớn trong Khoá học học máy ứng dụng để biết thêm thông tin.

mô hình sâu

#fundamentals

Mạng nơron chứa nhiều lớp ẩn.

Mô hình sâu còn được gọi là mạng nơron sâu.

Tương phản với mô hình rộng.

mạng nơron sâu

Từ đồng nghĩa với mô hình sâu.

Mạng Q sâu (DQN)

#rl

Trong học Q, một mạng nơron sâu dự đoán hàm Q.

Critic (Thẩm định viên) là từ đồng nghĩa với Deep Q-Network.

Tương đương về nhân khẩu học

#fairness

Chỉ số công bằng được đáp ứng nếu kết quả phân loại của mô hình không phụ thuộc vào một thuộc tính nhạy cảm nhất định.

Ví dụ: nếu cả người Lilliput và người Brobdingnag đều đăng ký vào Đại học Glubbdubdrib, thì sự bình đẳng về nhân khẩu học sẽ đạt được nếu tỷ lệ phần trăm người Lilliput được nhận vào trường giống với tỷ lệ phần trăm người Brobdingnag được nhận vào trường, bất kể một nhóm có trung bình đủ điều kiện hơn nhóm còn lại hay không.

Tương phản với tỷ lệ bằng nhaubình đẳng về cơ hội, cho phép kết quả phân loại tổng hợp phụ thuộc vào các thuộc tính nhạy cảm, nhưng không cho phép kết quả phân loại cho một số nhãn đúng thực tế được chỉ định phụ thuộc vào các thuộc tính nhạy cảm. Hãy xem bài viết "Chống phân biệt bằng công nghệ học máy thông minh hơn" để xem hình ảnh minh hoạ về những đánh đổi khi tối ưu hoá cho sự cân bằng về nhân khẩu học.

Hãy xem phần Tính công bằng: bình đẳng về nhân khẩu học trong khoá học Học máy ứng dụng để biết thêm thông tin.

loại bỏ nhiễu

#language

Một phương pháp phổ biến để tự học có giám sát trong đó:

  1. Độ nhiễu được thêm vào tập dữ liệu một cách nhân tạo.
  2. Mô hình sẽ cố gắng loại bỏ tạp âm.

Tính năng loại bỏ tạp âm cho phép học từ các ví dụ chưa được gắn nhãn. Tập dữ liệu ban đầu đóng vai trò là mục tiêu hoặc nhãn và dữ liệu nhiễu đóng vai trò là dữ liệu đầu vào.

Một số mô hình ngôn ngữ bị che sử dụng tính năng loại bỏ tạp âm như sau:

  1. Độ nhiễu được thêm vào một câu chưa được gắn nhãn một cách nhân tạo bằng cách che một số mã thông báo.
  2. Mô hình này cố gắng dự đoán các mã thông báo ban đầu.

tính năng dày đặc

#fundamentals

Một tính năng trong đó hầu hết hoặc tất cả các giá trị đều khác 0, thường là một Tensor của các giá trị dấu phẩy động. Ví dụ: Tensor 10 phần tử sau đây là dày đặc vì 9 trong số các giá trị của tensor này khác 0:

8 3 7 5 2 4 0 4 9 6

Tương phản với tính năng thưa.

lớp dày đặc

Đồng nghĩa với lớp liên thông đầy đủ.

chiều sâu

#fundamentals

Tổng của các giá trị sau trong một mạng nơron:

Ví dụ: một mạng nơron có 5 lớp ẩn và 1 lớp đầu ra có chiều sâu là 6.

Lưu ý rằng lớp đầu vào không ảnh hưởng đến chiều sâu.

mạng nơron tích chập có thể tách theo chiều sâu (sepCNN)

#image

Cấu trúc mạng nơron tích chập dựa trên Inception, nhưng các mô-đun Inception được thay thế bằng các phép tích chập có thể tách biệt theo chiều sâu. Còn gọi là Xception.

Một phép tích chập có thể tách theo chiều sâu (còn được viết tắt là phép tích chập có thể tách) phân tích một phép tích chập 3D chuẩn thành hai phép tích chập riêng biệt hiệu quả hơn về mặt tính toán: trước tiên là phép tích chập theo chiều sâu, với chiều sâu là 1 (n ✕ n ✕ 1), sau đó là phép tích chập theo điểm, với chiều dài và chiều rộng là 1 (1 ✕ 1 ✕ n).

Để tìm hiểu thêm, hãy xem bài viết Xception: Học sâu bằng phép tích chập có thể tách biệt theo chiều sâu.

nhãn phái sinh

Đồng nghĩa với nhãn đại diện.

thiết bị

#TensorFlow
#GoogleCloud

Một thuật ngữ nạp chồng có thể có hai định nghĩa sau:

  1. Một danh mục phần cứng có thể chạy phiên TensorFlow, bao gồm CPU, GPU và TPU.
  2. Khi huấn luyện mô hình học máy trên chip tăng tốc (GPU hoặc TPU), phần hệ thống thực sự thao tác với tensornội dung nhúng. Thiết bị chạy trên các chip tăng tốc. Ngược lại, máy chủ thường chạy trên CPU.

sự riêng tư biệt lập

Trong học máy, phương pháp ẩn danh để bảo vệ mọi dữ liệu nhạy cảm (ví dụ: thông tin cá nhân của một cá nhân) có trong tập huấn luyện của mô hình khỏi bị tiết lộ. Phương pháp này đảm bảo rằng mô hình không học hoặc ghi nhớ nhiều về một cá nhân cụ thể. Điều này được thực hiện bằng cách lấy mẫu và thêm nhiễu trong quá trình đào tạo mô hình để làm mờ các điểm dữ liệu riêng lẻ, giảm nguy cơ rò rỉ dữ liệu đào tạo nhạy cảm.

Giải pháp Sự riêng tư biệt lập cũng được sử dụng bên ngoài công nghệ học máy. Ví dụ: các nhà khoa học dữ liệu đôi khi sử dụng sự riêng tư biệt lập để bảo vệ quyền riêng tư của cá nhân khi tính toán số liệu thống kê về mức sử dụng sản phẩm cho nhiều nhóm nhân khẩu học.

giảm số lượng phương diện

Giảm số lượng phương diện dùng để biểu thị một đặc điểm cụ thể trong một vectơ đặc điểm, thường là bằng cách chuyển đổi thành vectơ nhúng.

phương diện

Thuật ngữ bị nạp chồng có bất kỳ định nghĩa nào sau đây:

  • Số cấp toạ độ trong một Tensor. Ví dụ:

    • Một đại lượng vô hướng có số chiều bằng 0; ví dụ: ["Hello"].
    • Một vectơ có một phương diện; ví dụ: [3, 5, 7, 11].
    • Ma trận có hai phương diện; ví dụ: [[2, 4, 18], [5, 7, 14]]. Bạn có thể chỉ định một ô cụ thể trong vectơ một chiều bằng một toạ độ; bạn cần hai toạ độ để chỉ định một ô cụ thể trong ma trận hai chiều.
  • Số mục nhập trong một vectơ đặc điểm.

  • Số lượng phần tử trong lớp nhúng.

lời nhắc trực tiếp

#language
#generativeAI

Đồng nghĩa với câu lệnh gợi ý không có ví dụ.

tính năng rời rạc

#fundamentals

Một tính năng có một tập hợp các giá trị có thể có hữu hạn. Ví dụ: một đặc điểm có giá trị chỉ có thể là động vật, rau hoặc khoáng sản là một đặc điểm riêng biệt (hoặc phân loại).

Tương phản với tính năng liên tục.

mô hình phân biệt

Mô hình dự đoán nhãn từ một tập hợp gồm một hoặc nhiều tính năng. Nói một cách chính thức hơn, các mô hình phân biệt xác định xác suất có điều kiện của một đầu ra dựa trên các đặc điểm và trọng số; tức là:

p(output | features, weights)

Ví dụ: mô hình dự đoán xem một email có phải là thư rác hay không dựa trên các tính năng và trọng số là mô hình phân biệt.

Phần lớn các mô hình học có giám sát, bao gồm cả mô hình phân loại và hồi quy, đều là mô hình phân biệt.

Tương phản với mô hình tạo sinh.

giá trị phân biệt

Một hệ thống xác định xem ví dụ là thật hay giả.

Ngoài ra, hệ thống con trong một mạng đối kháng tạo sinh sẽ xác định xem các ví dụ do trình tạo tạo ra là thật hay giả.

Hãy xem phần Bộ phân biệt trong khoá học GAN để biết thêm thông tin.

tác động không đồng đều

#fairness

Quyết định về những người tác động không cân xứng đến các nhóm phụ dân số. Thuật ngữ này thường đề cập đến những tình huống trong đó quy trình ra quyết định theo thuật toán gây hại hoặc mang lại lợi ích cho một số nhóm nhỏ hơn so với các nhóm khác.

Ví dụ: giả sử một thuật toán xác định điều kiện của người dân Lilliputian đối với khoản vay mua nhà nhỏ có nhiều khả năng phân loại họ là "không đủ điều kiện" nếu địa chỉ gửi thư của họ chứa một mã bưu chính nhất định. Nếu người Lilliputian Big-Endian có nhiều khả năng có địa chỉ gửi thư có mã bưu chính này hơn người Lilliputian Little-Endian, thì thuật toán này có thể dẫn đến tác động khác biệt.

Trái ngược với hành vi phân biệt, tập trung vào sự chênh lệch phát sinh khi các đặc điểm của nhóm con là dữ liệu đầu vào rõ ràng cho quy trình ra quyết định bằng thuật toán.

đối xử không công bằng

#fairness

Tính đến các thuộc tính nhạy cảm của đối tượng vào quy trình ra quyết định bằng thuật toán để các nhóm phụ khác nhau của con người được xử lý theo cách khác nhau.

Ví dụ: hãy xem xét một thuật toán xác định điều kiện của người Lilliputian để được vay mua nhà thu nhỏ dựa trên dữ liệu mà họ cung cấp trong đơn đăng ký vay. Nếu thuật toán sử dụng thông tin liên kết của Lilliputian dưới dạng Big-Endian hoặc Little-Endian làm dữ liệu đầu vào, thì thuật toán đó đang thực hiện cách xử lý khác nhau theo phương diện đó.

Trái ngược với tác động khác biệt, tập trung vào sự khác biệt về tác động xã hội của các quyết định thuật toán đối với các nhóm con, bất kể các nhóm con đó có phải là dữ liệu đầu vào cho mô hình hay không.

chưng cất

#generativeAI

Quá trình giảm kích thước của một mô hình (được gọi là giáo viên) thành một mô hình nhỏ hơn (được gọi là học viên) mô phỏng dự đoán của mô hình ban đầu một cách trung thực nhất có thể. Quá trình chắt lọc rất hữu ích vì mô hình nhỏ hơn có hai lợi ích chính so với mô hình lớn hơn (giáo viên):

  • Thời gian suy luận nhanh hơn
  • Giảm mức sử dụng bộ nhớ và năng lượng

Tuy nhiên, dự đoán của học viên thường không chính xác bằng dự đoán của giáo viên.

Quá trình chưng cất sẽ huấn luyện mô hình học viên để giảm thiểu hàm tổn thất dựa trên sự khác biệt giữa kết quả dự đoán của mô hình học viên và mô hình giáo viên.

So sánh và đối chiếu quá trình chưng cất với các thuật ngữ sau:

Hãy xem phần LLM: Điều chỉnh, chắt lọc và kỹ thuật gợi ý trong khoá học cấp tốc về học máy để biết thêm thông tin.

Phân phối

Tần suất và phạm vi của các giá trị khác nhau cho một tính năng hoặc nhãn nhất định. Phân phối cho biết xác suất xuất hiện của một giá trị cụ thể.

Hình ảnh sau đây cho thấy biểu đồ dạng thanh của hai phân phối khác nhau:

  • Ở bên trái, một biểu đồ phân phối của tài sản theo luật lũy thừa so với số người sở hữu tài sản đó.
  • Ở bên phải, một biểu đồ phân phối chuẩn về chiều cao so với số người có chiều cao đó.

Hai biểu đồ tần suất. Một biểu đồ thanh cho thấy một phân phối theo luật lũy thừa với tài sản trên trục x và số người có tài sản đó trên trục y. Hầu hết mọi người có rất ít tài sản và một số ít người có rất nhiều tài sản. Biểu đồ thứ hai cho thấy một phân phối chuẩn với chiều cao trên trục x và số người có chiều cao đó trên trục y. Hầu hết mọi người đều tập trung ở gần giá trị trung bình.

Việc hiểu rõ về phân phối của từng đặc điểm và nhãn có thể giúp bạn xác định cách bình thường hoá các giá trị và phát hiện giá trị ngoại lai.

Cụm từ không thuộc phạm vi phân phối đề cập đến một giá trị không xuất hiện trong tập dữ liệu hoặc rất hiếm. Ví dụ: hình ảnh sao Thổ sẽ được coi là không thuộc phạm vi phân phối của một tập dữ liệu gồm hình ảnh mèo.

phân cụm phân chia

#clustering

Xem phần thu thập dữ liệu theo cụm phân cấp.

lấy mẫu giảm

#image

Thuật ngữ nạp chồng có thể có một trong những ý nghĩa sau:

  • Giảm lượng thông tin trong một tính năng để huấn luyện mô hình hiệu quả hơn. Ví dụ: trước khi huấn luyện mô hình nhận dạng hình ảnh, hãy giảm mẫu hình ảnh có độ phân giải cao xuống định dạng có độ phân giải thấp hơn.
  • Huấn luyện trên tỷ lệ phần trăm thấp không tương xứng của các ví dụ về lớp được trình bày quá mức để cải thiện việc huấn luyện mô hình trên các lớp được trình bày không đầy đủ. Ví dụ: trong một tập dữ liệu không cân bằng về lớp, các mô hình có xu hướng học nhiều về lớp đa số và không đủ về lớp thiểu số. Việc lấy mẫu giảm giúp cân bằng lượng dữ liệu huấn luyện trên các lớp đa số và thiểu số.

Hãy xem phần Tập dữ liệu: Tập dữ liệu bất cân đối trong Khoá học học máy ứng dụng để biết thêm thông tin.

DQN

#rl

Viết tắt của Mạng Q sâu.

dropout regularization

Một hình thức điều chỉnh hữu ích trong việc huấn luyện mạng nơron. Phương pháp chuẩn hoá bỏ qua sẽ xoá một số lượng đơn vị cố định trong một lớp mạng được chọn ngẫu nhiên cho một bước độ dốc. Số lượng đơn vị bị loại bỏ càng nhiều thì quá trình chuẩn hoá càng mạnh. Điều này tương tự như việc huấn luyện mạng để mô phỏng một ensemble lớn theo cấp số nhân của các mạng nhỏ hơn. Để biết toàn bộ thông tin chi tiết, hãy xem bài viết Tỷ lệ bỏ qua: Một cách đơn giản để ngăn mạng nơron bị nạp dữ liệu quá mức.

linh động

#fundamentals

Một việc gì đó được thực hiện thường xuyên hoặc liên tục. Thuật ngữ độngtrực tuyến là đồng nghĩa trong học máy. Sau đây là các cách sử dụng phổ biến của dữ liệu độngtrực tuyến trong học máy:

  • Mô hình động (hoặc mô hình trực tuyến) là mô hình được huấn luyện lại thường xuyên hoặc liên tục.
  • Đào tạo động (hoặc đào tạo trực tuyến) là quá trình đào tạo thường xuyên hoặc liên tục.
  • Suy luận động (hoặc suy luận trực tuyến) là quá trình tạo dự đoán theo yêu cầu.

mô hình động

#fundamentals

Một mô hình thường xuyên (thậm chí có thể liên tục) được huấn luyện lại. Mô hình động là một "người học suốt đời" liên tục thích ứng với dữ liệu đang phát triển. Mô hình động còn được gọi là mô hình trực tuyến.

Tương phản với mô hình tĩnh.

E

thực thi sớm

#TensorFlow

Môi trường lập trình TensorFlow trong đó các thao tác chạy ngay lập tức. Ngược lại, các thao tác được gọi trong quá trình thực thi biểu đồ sẽ không chạy cho đến khi được đánh giá rõ ràng. Thực thi sớm là một giao diện bắt buộc, giống như mã trong hầu hết các ngôn ngữ lập trình. Các chương trình thực thi sớm thường dễ gỡ lỗi hơn nhiều so với các chương trình thực thi biểu đồ.

dừng sớm

#fundamentals

Một phương thức điều chỉnh liên quan đến việc kết thúc quá trình huấn luyện trước khi tổn thất huấn luyện kết thúc giảm. Trong phương pháp dừng sớm, bạn chủ ý ngừng huấn luyện mô hình khi tổn thất trên dữ liệu tập hợp xác thực bắt đầu tăng lên; tức là khi hiệu suất tổng quát hoá giảm sút.

khoảng cách của máy xúc đất (EMD)

Một chỉ số đo lường mức độ tương đồng tương đối của hai phân phối. Khoảng cách của máy ủi càng thấp thì mức phân phối càng giống nhau.

chỉnh sửa khoảng cách

#language

Một phép đo mức độ tương đồng giữa hai chuỗi văn bản. Trong học máy, khoảng cách chỉnh sửa rất hữu ích vì những lý do sau:

  • Dễ dàng tính toán khoảng cách chỉnh sửa.
  • Khoảng cách chỉnh sửa có thể so sánh hai chuỗi được biết là tương tự nhau.
  • Khoảng cách chỉnh sửa có thể xác định mức độ tương đồng giữa các chuỗi với một chuỗi nhất định.

Có một số định nghĩa về khoảng cách chỉnh sửa, mỗi định nghĩa sử dụng các thao tác chuỗi khác nhau. Hãy xem Khoảng cách Levenshtein để biết ví dụ.

Ký hiệu Einsum

Một ký hiệu hiệu quả để mô tả cách kết hợp hai tensor. Các tensor được kết hợp bằng cách nhân các phần tử của một tensor với các phần tử của tensor khác, sau đó cộng các tích. Ký hiệu Einsum sử dụng các ký hiệu để xác định các trục của mỗi tensor và các ký hiệu đó được sắp xếp lại để chỉ định hình dạng của tensor mới thu được.

NumPy cung cấp một phương thức triển khai Einsum phổ biến.

lớp nhúng

#language
#fundamentals

Một lớp ẩn đặc biệt huấn luyện trên một tính năng phân loại có nhiều chiều để dần dần học một vectơ nhúng có chiều thấp hơn. Lớp nhúng cho phép mạng nơron huấn luyện hiệu quả hơn nhiều so với việc chỉ huấn luyện trên tính năng phân loại có nhiều chiều.

Ví dụ: Earth hiện hỗ trợ khoảng 73.000 loài cây. Giả sử loài cây là một tính năng trong mô hình của bạn, do đó,lớp đầu vào của mô hình bao gồm một vectơ một chiều dài 73.000 phần tử. Ví dụ: có thể baobab sẽ được biểu thị như sau:

Một mảng gồm 73.000 phần tử. 6.232 phần tử đầu tiên chứa giá trị 0. Phần tử tiếp theo chứa giá trị 1. 66.767 phần tử cuối cùng chứa giá trị 0.

Mảng 73.000 phần tử rất dài. Nếu bạn không thêm lớp nhúng vào mô hình, quá trình huấn luyện sẽ mất rất nhiều thời gian do phải nhân 72.999 số 0. Có thể bạn chọn lớp nhúng bao gồm 12 phương diện. Do đó, lớp nhúng sẽ dần học được một vectơ nhúng mới cho từng loài cây.

Trong một số trường hợp, hàm băm là một giải pháp thay thế hợp lý cho lớp nhúng.

Hãy xem phần Nội dung nhúng trong khoá học Học máy ứng dụng để biết thêm thông tin.

không gian nhúng

#language

Không gian vectơ d-chiều có các tính năng từ không gian vectơ có chiều cao hơn được liên kết. Không gian nhúng được huấn luyện để ghi lại cấu trúc có ý nghĩa đối với ứng dụng dự định.

Tích vô hướng của hai nội dung nhúng là một chỉ số về mức độ tương đồng của chúng.

vectơ nhúng

#language

Nói chung, một mảng gồm các số dấu phẩy động được lấy từ bất kỳ lớp ẩn nào mô tả dữ liệu đầu vào cho lớp ẩn đó. Thường thì vectơ nhúng là mảng các số dấu phẩy động được huấn luyện trong lớp nhúng. Ví dụ: giả sử một lớp nhúng phải học một vectơ nhúng cho mỗi trong số 73.000 loài cây trên Trái đất. Có thể mảng sau đây là vectơ nhúng cho cây bao báp:

Một mảng gồm 12 phần tử, mỗi phần tử chứa một số dấu phẩy động trong khoảng từ 0 đến 1.

Vectơ nhúng không phải là một tập hợp các số ngẫu nhiên. Lớp nhúng xác định các giá trị này thông qua quá trình huấn luyện, tương tự như cách mạng nơron học các trọng số khác trong quá trình huấn luyện. Mỗi phần tử của آرایه là một điểm xếp hạng cùng với một số đặc điểm của một loài cây. Phần tử nào đại diện cho đặc điểm của loài cây nào? Con người rất khó xác định điều đó.

Phần đáng chú ý về mặt toán học của một vectơ nhúng là các mục tương tự nhau có các tập hợp số dấu phẩy động tương tự nhau. Ví dụ: các loài cây tương tự nhau có tập hợp số dấu phẩy động tương tự nhau hơn so với các loài cây không tương tự nhau. Cây tuyết tùng và cây sequoia là các loài cây có liên quan, vì vậy, chúng sẽ có tập hợp số dấu phẩy động tương tự nhau hơn so với cây tuyết tùng và cây dừa. Các số trong vectơ nhúng sẽ thay đổi mỗi khi bạn huấn luyện lại mô hình, ngay cả khi bạn huấn luyện lại mô hình bằng dữ liệu đầu vào giống hệt.

hàm phân phối tích luỹ kinh nghiệm (eCDF hoặc EDF)

Hàm phân phối tích luỹ dựa trên các phép đo thực nghiệm từ một tập dữ liệu thực. Giá trị của hàm tại bất kỳ điểm nào dọc theo trục x là tỷ lệ phần trăm số quan sát trong tập dữ liệu nhỏ hơn hoặc bằng giá trị đã chỉ định.

giảm thiểu rủi ro theo thực nghiệm (ERM)

Chọn hàm giúp giảm thiểu tổn thất trên tập huấn luyện. Tương phản với cách giảm thiểu rủi ro theo cấu trúc.

bộ mã hóa

#language

Nhìn chung, mọi hệ thống học máy đều chuyển đổi từ một bản trình bày thô, thưa thớt hoặc bên ngoài thành một bản trình bày được xử lý nhiều hơn, dày đặc hơn hoặc nội bộ hơn.

Bộ mã hoá thường là một thành phần của mô hình lớn hơn, trong đó chúng thường được ghép nối với bộ giải mã. Một số Transformer ghép nối bộ mã hoá với bộ giải mã, mặc dù các Transformer khác chỉ sử dụng bộ mã hoá hoặc chỉ sử dụng bộ giải mã.

Một số hệ thống sử dụng đầu ra của bộ mã hoá làm đầu vào cho mạng phân loại hoặc hồi quy.

Trong các tác vụ từ trình tự đến trình tự, bộ mã hoá lấy một trình tự đầu vào và trả về một trạng thái nội bộ (một vectơ). Sau đó, bộ giải mã sẽ sử dụng trạng thái nội bộ đó để dự đoán trình tự tiếp theo.

Hãy tham khảo Transformer để biết định nghĩa về bộ mã hoá trong cấu trúc Transformer.

Hãy xem phần LLM: Mô hình ngôn ngữ lớn là gì trong khoá học Học máy ứng dụng để biết thêm thông tin.

ensemble

Một tập hợp mô hình được huấn luyện độc lập, trong đó các kết quả dự đoán được tính trung bình hoặc tổng hợp. Trong nhiều trường hợp, một tập hợp các mô hình sẽ đưa ra kết quả dự đoán tốt hơn so với một mô hình duy nhất. Ví dụ: Rừng ngẫu nhiên là một tập hợp được tạo từ nhiều cây quyết định. Xin lưu ý rằng không phải tất cả rừng quyết định đều là tập hợp.

Hãy xem phần Rừng ngẫu nhiên trong khoá học Học máy ứng dụng để biết thêm thông tin.

entropy

#df

Trong thuyết thông tin, entropy là một mô tả về mức độ khó dự đoán của một quá trình phân phối xác suất. Ngoài ra, entropy cũng được xác định là lượng thông tin mà mỗi ví dụ chứa. Một phân phối có entropi cao nhất có thể khi tất cả các giá trị của một biến ngẫu nhiên đều có khả năng như nhau.

Entanpi của một tập hợp có hai giá trị có thể là "0" và "1" (ví dụ: các nhãn trong bài toán phân loại nhị phân) có công thức sau:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

trong đó:

  • H là entropy.
  • p là phân số của các ví dụ "1".
  • q là phân số của các ví dụ "0". Lưu ý rằng q = (1 - p)
  • log thường là log2. Trong trường hợp này, đơn vị entropi là một bit.

Ví dụ: giả sử những điều sau:

  • 100 ví dụ chứa giá trị "1"
  • 300 ví dụ chứa giá trị "0"

Do đó, giá trị entropy là:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit/ví dụ

Một tập hợp được cân bằng hoàn hảo (ví dụ: 200 "0" và 200 "1") sẽ có entropi là 1, 0 bit cho mỗi ví dụ. Khi một tập hợp trở nên không cân bằng hơn, entropy của tập hợp đó sẽ chuyển về 0.0.

Trong cây quyết định, entropy giúp xây dựng mức tăng thông tin để giúp trình phân tách chọn các điều kiện trong quá trình phát triển của cây quyết định phân loại.

So sánh entropy với:

Entanpi thường được gọi là entanpi của Shannon.

Hãy xem phần Bộ phân tách chính xác để phân loại nhị phân bằng các tính năng số trong khoá học Rừng quyết định để biết thêm thông tin.

môi trường

#rl

Trong học tăng cường, thế giới chứa tác nhân và cho phép tác nhân quan sát trạng thái của thế giới đó. Ví dụ: thế giới được biểu thị có thể là một trò chơi như cờ vua hoặc một thế giới thực như mê cung. Khi tác nhân áp dụng một hành động cho môi trường, môi trường sẽ chuyển đổi giữa các trạng thái.

tập

#rl

Trong phương pháp học tăng cường, mỗi lần lặp lại của tác nhân là một lần học môi trường.

thời gian bắt đầu của hệ thống

#fundamentals

Một lượt huấn luyện đầy đủ sẽ trải qua toàn bộ tập dữ liệu huấn luyện sao cho mỗi ví dụ được xử lý một lần.

Một epoch đại diện cho N/kích thước lô huấn luyện số lần lặp lại, trong đó N là tổng số ví dụ.

Ví dụ: giả sử như sau:

  • Tập dữ liệu này bao gồm 1.000 ví dụ.
  • Kích thước lô là 50 ví dụ.

Do đó, một epoch cần 20 lần lặp lại:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Hãy xem phần Phương pháp hồi quy tuyến tính: Thông số siêu dữ liệu trong khoá học cấp tốc về học máy để biết thêm thông tin.

chính sách tham lam epsilon

#rl

Trong học tăng cường, chính sách tuân theo chính sách ngẫu nhiên với xác suất epsilon hoặc chính sách tham lam nếu không. Ví dụ: nếu epsilon là 0, 9, thì chính sách sẽ tuân theo chính sách ngẫu nhiên 90% thời gian và chính sách tham lam 10% thời gian.

Trong các tập liên tiếp, thuật toán sẽ giảm giá trị của epsilon để chuyển từ việc tuân theo chính sách ngẫu nhiên sang tuân theo chính sách tham lam. Bằng cách thay đổi chính sách, trước tiên, tác nhân sẽ khám phá môi trường một cách ngẫu nhiên, sau đó khai thác kết quả của hoạt động khám phá ngẫu nhiên một cách tham lam.

bình đẳng về cơ hội

#fairness

Chỉ số công bằng để đánh giá xem một mô hình có dự đoán kết quả mong muốn một cách đồng đều cho tất cả các giá trị của một thuộc tính nhạy cảm hay không. Nói cách khác, nếu kết quả mong muốn cho một mô hình là lớp dương tính, thì mục tiêu sẽ là để tỷ lệ dương tính thực sự giống nhau cho tất cả các nhóm.

Bình đẳng về cơ hội liên quan đến tỷ lệ cân bằng, trong đó yêu cầu cả tỷ lệ dương tính thực và tỷ lệ dương tính giả đều giống nhau đối với tất cả các nhóm.

Giả sử Đại học Glubbdubdrib nhận cả người Lilliput và người Brobdingnag vào một chương trình toán học nghiêm ngặt. Trường trung học của người Lilliput cung cấp một chương trình học vững chắc về các lớp học toán và phần lớn học sinh đều đủ điều kiện tham gia chương trình đại học. Các trường trung học của người Brobdingnag không hề cung cấp lớp học toán, do đó, số học sinh đủ điều kiện sẽ ít hơn rất nhiều. Cơ hội bình đẳng được đáp ứng đối với nhãn ưu tiên "được nhận" liên quan đến quốc tịch (Lilliputian hoặc Brobdingnagian) nếu học viên đủ tiêu chuẩn có khả năng được nhận như nhau, bất kể họ là Lilliputian hay Brobdingnagian.

Ví dụ: giả sử 100 người Lilliput và 100 người Brobdingnag đăng ký vào Đại học Glubbdubdrib và quyết định nhận sinh viên được đưa ra như sau:

Bảng 1. Người đăng ký Lilliputian (90% đủ điều kiện)

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Đã được chấp nhận 45 3
Bị từ chối 45 7
Tổng 90 10
Tỷ lệ phần trăm học viên đủ điều kiện được nhận: 45/90 = 50%
Tỷ lệ phần trăm học viên không đủ điều kiện bị từ chối: 7/10 = 70%
Tổng tỷ lệ phần trăm học viên Lilliputian được nhận: (45+3)/100 = 48%

 

Bảng 2. Người đăng ký Brobdingnagian (10% đủ điều kiện):

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Đã được chấp nhận 5 9
Bị từ chối 5 81
Tổng 10 90
Tỷ lệ phần trăm học viên đủ điều kiện được nhận: 5/10 = 50%
Tỷ lệ phần trăm học viên không đủ điều kiện bị từ chối: 81/90 = 90%
Tổng tỷ lệ phần trăm học viên Brobdingnagian được nhận: (5+9)/100 = 14%

Các ví dụ trước đáp ứng cơ hội bình đẳng để chấp nhận sinh viên đủ điều kiện vì cả người Lilliputian và Brobdingnagian đủ điều kiện đều có 50% cơ hội được nhận vào trường.

Mặc dù đáp ứng được tiêu chí bình đẳng về cơ hội, nhưng hai chỉ số công bằng sau đây lại không đáp ứng được:

  • bình đẳng về nhân khẩu học: Người Lilliput và người Brobdingnag được nhận vào trường đại học theo tỷ lệ khác nhau; 48% sinh viên Lilliput được nhận, nhưng chỉ 14% sinh viên Brobdingnag được nhận.
  • cơ hội bằng nhau: Mặc dù học viên Lilliputian và Brobdingnagian đủ điều kiện đều có cơ hội được nhận vào trường như nhau, nhưng điều kiện ràng buộc bổ sung là học viên Lilliputian và Brobdingnagian không đủ điều kiện đều có cơ hội bị từ chối như nhau thì không được thoả mãn. Những người Lilliputian không đủ điều kiện có tỷ lệ bị từ chối là 70%, trong khi những người Brobdingnag không đủ điều kiện có tỷ lệ bị từ chối là 90%.

Hãy xem phần Tính công bằng: Bình đẳng về cơ hội trong khoá học cấp tốc về học máy để biết thêm thông tin.

tỷ lệ cược bằng nhau

#fairness

Một chỉ số công bằng để đánh giá xem một mô hình có dự đoán kết quả tốt như nhau cho tất cả các giá trị của một thuộc tính nhạy cảm đối với cả lớp tích cựclớp tiêu cực hay không, chứ không chỉ một lớp hay lớp kia. Nói cách khác, cả tỷ lệ dương tính thực sựtỷ lệ âm tính giả phải giống nhau đối với tất cả các nhóm.

Tỷ lệ cân bằng có liên quan đến bình đẳng về cơ hội, chỉ tập trung vào tỷ lệ lỗi của một lớp (dương hoặc âm).

Ví dụ: giả sử Đại học Glubbdubdrib nhận cả người Lilliput và người Brobdingnag vào một chương trình toán học nghiêm ngặt. Trường trung học của người Lilliput cung cấp một chương trình học mạnh mẽ về các lớp học toán và phần lớn học viên đều đủ điều kiện tham gia chương trình đại học. Trường trung học của người Brobdingnag không hề có lớp học toán, do đó, rất ít học sinh đủ điều kiện. Điều kiện về tỷ lệ chênh lệch được đáp ứng miễn là không phân biệt ứng viên là người Lilliputian hay Brobdingnagian, nếu họ đủ điều kiện, họ có khả năng được nhận vào chương trình như nhau và nếu họ không đủ điều kiện, họ có khả năng bị từ chối như nhau.

Giả sử 100 người Lilliput và 100 người Brobdingnag đăng ký vào Đại học Glubbdubdrib và quyết định về việc nhập học được đưa ra như sau:

Bảng 3. Người đăng ký Lilliputian (90% đủ điều kiện)

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Đã được chấp nhận 45 2
Bị từ chối 45 8
Tổng 90 10
Tỷ lệ phần trăm học sinh đủ điều kiện được nhận: 45/90 = 50%
Tỷ lệ phần trăm học sinh không đủ điều kiện bị từ chối: 8/10 = 80%
Tổng tỷ lệ phần trăm học sinh Lilliputian được nhận: (45+2)/100 = 47%

 

Bảng 4. Người đăng ký Brobdingnagian (10% đủ điều kiện):

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Đã được chấp nhận 5 18
Bị từ chối 5 72
Tổng 10 90
Tỷ lệ phần trăm số sinh viên đủ điều kiện được nhận: 5/10 = 50%
Tỷ lệ phần trăm số sinh viên không đủ điều kiện bị từ chối: 72/90 = 80%
Tổng tỷ lệ phần trăm số sinh viên Brobdingnagian được nhận: (5+18)/100 = 23%

Điều kiện về tỷ lệ bằng nhau được đáp ứng vì cả học viên Lilliputian và Brobdingnagian đủ điều kiện đều có 50% cơ hội được nhận vào trường, còn học viên Lilliputian và Brobdingnagian không đủ điều kiện đều có 80% cơ hội bị từ chối.

Tỷ lệ cân bằng được xác định chính thức trong bài viết "Bình đẳng về cơ hội trong học có giám sát" như sau: "biến dự đoán Ŷ đáp ứng tỷ lệ cân bằng liên quan đến thuộc tính được bảo vệ A và kết quả Y nếu Ŷ và A độc lập, có điều kiện trên Y".

Estimator

#TensorFlow

Một API TensorFlow không dùng nữa. Sử dụng tf.keras thay vì Bộ ước tính.

evals

#language
#generativeAI

Chủ yếu dùng làm từ viết tắt của các hoạt động đánh giá LLM. Nói rộng ra, evals là viết tắt của mọi hình thức đánh giá.

đánh giá

#language
#generativeAI

Quy trình đo lường chất lượng của một mô hình hoặc so sánh các mô hình với nhau.

Để đánh giá mô hình học máy có giám sát, bạn thường đánh giá mô hình đó dựa trên tập hợp dữ liệu xác thựctập hợp dữ liệu kiểm thử. Việc đánh giá LLM thường liên quan đến các hoạt động đánh giá chất lượng và độ an toàn ở phạm vi rộng hơn.

ví dụ

#fundamentals

Giá trị của một hàng tính năng và có thể là một nhãn. Các ví dụ về học có giám sát thuộc hai danh mục chung:

  • Ví dụ được gắn nhãn bao gồm một hoặc nhiều đặc điểm và một nhãn. Các ví dụ được gắn nhãn được dùng trong quá trình huấn luyện.
  • Ví dụ chưa gắn nhãn bao gồm một hoặc nhiều tính năng nhưng không có nhãn. Các ví dụ chưa được gắn nhãn được dùng trong quá trình suy luận.

Ví dụ: giả sử bạn đang huấn luyện một mô hình để xác định ảnh hưởng của điều kiện thời tiết đến điểm kiểm tra của học sinh. Dưới đây là 3 ví dụ được gắn nhãn:

Tính năng Hãng nhạc
Nhiệt độ Độ ẩm Áp lực Điểm kiểm tra
15 47 998 Tốt
19 34 1020 Rất tốt
18 92 1012 Kém

Sau đây là 3 ví dụ chưa được gắn nhãn:

Nhiệt độ Độ ẩm Áp lực  
12 62 1014  
21 47 1017  
19 41 1021  

Hàng của một tập dữ liệu thường là nguồn thô cho một ví dụ. Tức là một ví dụ thường bao gồm một tập hợp con các cột trong tập dữ liệu. Hơn nữa, các tính năng trong ví dụ cũng có thể bao gồm các tính năng tổng hợp, chẳng hạn như các điểm giao nhau của tính năng.

Hãy xem phần Học có giám sát trong khoá học Giới thiệu về công nghệ học máy để biết thêm thông tin.

phát lại trải nghiệm

#rl

Trong học tăng cường, kỹ thuật DQN được dùng để giảm mối tương quan theo thời gian trong dữ liệu huấn luyện. Tác nhân lưu trữ các quá trình chuyển đổi trạng thái trong vùng đệm phát lại, sau đó lấy mẫu các quá trình chuyển đổi từ vùng đệm phát lại để tạo dữ liệu huấn luyện.

thiên kiến của người nghiên cứu

#fairness

Xem thiên kiến xác nhận.

vấn đề về hiệu ứng chuyển màu bùng nổ

#seq

Xu hướng độ dốc trong mạng nơron sâu (đặc biệt là mạng nơron tái sinh) trở nên dốc (cao) một cách đáng ngạc nhiên. Độ dốc dốc thường gây ra các bản cập nhật rất lớn đối với trọng số của mỗi nút trong một mạng nơron sâu.

Các mô hình gặp phải vấn đề về độ dốc tăng vọt sẽ khó hoặc không thể huấn luyện. Tính năng Cắt màu chuyển tiếp có thể giảm thiểu vấn đề này.

So sánh với vấn đề về độ dốc biến mất.

F

F1

Chỉ số phân loại nhị phân "cuộn lên" dựa vào cả độ chính xáctỷ lệ thu hồi. Sau đây là công thức:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

tính xác thực

#generativeAI

Trong thế giới học máy, một thuộc tính mô tả một mô hình có đầu ra dựa trên thực tế. Tính xác thực là một khái niệm chứ không phải chỉ số. Ví dụ: giả sử bạn gửi lời nhắc sau đây đến một mô hình ngôn ngữ lớn:

Công thức hoá học của muối ăn là gì?

Mô hình tối ưu hoá tính xác thực sẽ trả lời:

NaCl

Rất dễ nhầm tưởng rằng tất cả mô hình đều phải dựa trên thực tế. Tuy nhiên, một số câu lệnh, chẳng hạn như câu lệnh sau, sẽ khiến mô hình AI tạo sinh tối ưu hoá sáng tạo thay vì tính xác thực.

Kể cho tôi nghe một bài thơ lục bát về một phi hành gia và một con sâu bướm.

Rất có thể bài thơ limerick thu được sẽ không dựa trên thực tế.

Tương phản với chân thực.

quy tắc ràng buộc về tính công bằng

#fairness
Áp dụng một quy tắc ràng buộc cho thuật toán để đảm bảo đáp ứng một hoặc nhiều định nghĩa về tính công bằng. Sau đây là một số ví dụ về các quy tắc ràng buộc về tính công bằng:

chỉ số về tính công bằng

#fairness

Định nghĩa toán học về "công bằng" có thể đo lường được. Sau đây là một số chỉ số công bằng thường dùng:

Nhiều chỉ số về tính công bằng là loại trừ lẫn nhau; hãy xem phần không tương thích của các chỉ số về tính công bằng.

âm tính giả (FN)

#fundamentals

Ví dụ về trường hợp mô hình dự đoán nhầm lớp âm tính. Ví dụ: mô hình dự đoán rằng một email cụ thể không phải là thư rác (lớp âm) nhưng email đó thực sự là thư rác.

tỷ lệ âm tính giả

Tỷ lệ phần trăm các ví dụ dương tính thực tế mà mô hình dự đoán nhầm là lớp âm tính. Công thức sau đây tính tỷ lệ âm tính giả:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Hãy xem phần Ngưỡng và ma trận nhiễu trong khoá học Học máy ứng dụng để biết thêm thông tin.

dương tính giả (FP)

#fundamentals

Ví dụ về trường hợp mô hình dự đoán nhầm lớp dương tính. Ví dụ: mô hình dự đoán một email cụ thể là thư rác (lớp dương tính), nhưng email đó thực sự không phải là thư rác.

Hãy xem phần Ngưỡng và ma trận nhiễu trong khoá học Học máy ứng dụng để biết thêm thông tin.

tỷ lệ dương tính giả (FPR)

#fundamentals

Tỷ lệ phần trăm các ví dụ âm tính thực tế mà mô hình dự đoán nhầm là lớp dương tính. Công thức sau đây tính tỷ lệ dương tính giả:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Tỷ lệ dương tính giả là trục x trong đường cong ROC.

Hãy xem phần Phân loại: ROC và AUC trong Khoá học học máy ứng dụng để biết thêm thông tin.

đối tượng

#fundamentals

Biến đầu vào cho mô hình học máy. Một ví dụ bao gồm một hoặc nhiều tính năng. Ví dụ: giả sử bạn đang huấn luyện một mô hình để xác định ảnh hưởng của điều kiện thời tiết đến điểm số của học viên. Bảng sau đây cho thấy 3 ví dụ, mỗi ví dụ chứa 3 tính năng và 1 nhãn:

Tính năng Hãng nhạc
Nhiệt độ Độ ẩm Áp lực Điểm kiểm tra
15 47 998 92
19 34 1020 84
18 92 1012 87

Tương phản với nhãn.

Hãy xem phần Học có giám sát trong khoá học Giới thiệu về học máy để biết thêm thông tin.

nhân chéo tính chất

#fundamentals

Tính năng tổng hợp được tạo bằng cách "giao nhau" các tính năng dạng danh mục hoặc được nhóm lại.

Ví dụ: hãy xem xét mô hình "dự đoán tâm trạng" đại diện cho nhiệt độ trong một trong 4 nhóm sau:

  • freezing
  • chilly
  • temperate
  • warm

Và thể hiện tốc độ gió trong một trong ba nhóm sau:

  • still
  • light
  • windy

Nếu không có giao nhau của các tính năng, mô hình tuyến tính sẽ huấn luyện độc lập trên từng nhóm trong số 7 nhóm trước đó. Vì vậy, mô hình sẽ huấn luyện trên, ví dụ: freezing độc lập với việc huấn luyện trên, ví dụ: windy.

Ngoài ra, bạn có thể tạo một giao điểm đặc điểm của nhiệt độ và tốc độ gió. Tính năng tổng hợp này sẽ có 12 giá trị có thể có sau:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Nhờ các giao điểm tính năng, mô hình có thể tìm hiểu sự khác biệt về tâm trạng giữa ngày freezing-windy và ngày freezing-still.

Nếu bạn tạo một tính năng tổng hợp từ hai tính năng, mỗi tính năng có nhiều nhóm khác nhau, thì tính năng chéo thu được sẽ có rất nhiều tổ hợp có thể xảy ra. Ví dụ: nếu một đặc điểm có 1.000 bộ chứa và đặc điểm còn lại có 2.000 bộ chứa, thì phép lai đặc điểm thu được sẽ có 2.000.000 bộ chứa.

Theo cách chính thức, phép nhân là một sản phẩm Descartes.

Tính năng chéo chủ yếu được dùng với các mô hình tuyến tính và hiếm khi được dùng với mạng nơron.

Hãy xem phần Dữ liệu dạng danh mục: Giá trị chéo của tính năng trong Khoá học học máy ứng dụng để biết thêm thông tin.

kỹ thuật trích xuất tính năng

#fundamentals
#TensorFlow

Một quy trình bao gồm các bước sau:

  1. Xác định các tính năng có thể hữu ích trong việc huấn luyện mô hình.
  2. Chuyển đổi dữ liệu thô từ tập dữ liệu thành các phiên bản hiệu quả của các tính năng đó.

Ví dụ: bạn có thể xác định rằng temperature có thể là một tính năng hữu ích. Sau đó, bạn có thể thử nghiệm với tính năng nhóm để tối ưu hoá nội dung mà mô hình có thể học được từ các dải temperature khác nhau.

Đôi khi, kỹ thuật xử lý đặc điểm được gọi là trích xuất đặc điểm hoặc tạo đặc điểm.

Hãy xem phần Dữ liệu số: Cách mô hình nhập dữ liệu bằng vectơ tính năng trong khoá học Học nhanh về học máy để biết thêm thông tin.

trích xuất đặc điểm

Thuật ngữ nạp chồng có một trong các định nghĩa sau:

mức độ quan trọng của tính năng

#df

Đồng nghĩa với tầm quan trọng của biến.

tập hợp tính năng

#fundamentals

Nhóm tính năngmô hình học máy của bạn huấn luyện. Ví dụ: mã bưu chính, diện tích nhà và tình trạng nhà có thể tạo thành một tập hợp tính năng đơn giản cho mô hình dự đoán giá nhà.

thông số kỹ thuật của tính năng

#TensorFlow

Mô tả thông tin cần thiết để trích xuất dữ liệu tính năng từ vùng đệm giao thức tf.Example. Vì vùng đệm giao thức tf.Example chỉ là một vùng chứa dữ liệu, nên bạn phải chỉ định những thông tin sau:

  • Dữ liệu cần trích xuất (tức là khoá cho các tính năng)
  • Loại dữ liệu (ví dụ: float hoặc int)
  • Độ dài (cố định hoặc biến)

vectơ đặc trưng

#fundamentals

Mảng các giá trị tính năng bao gồm một ví dụ. Vectơ đặc điểm được nhập trong quá trình huấn luyện và trong quá trình suy luận. Ví dụ: vectơ đặc điểm cho một mô hình có hai đặc điểm riêng biệt có thể là:

[0.92, 0.56]

Bốn lớp: một lớp đầu vào, hai lớp ẩn và một lớp đầu ra.
          Lớp đầu vào chứa hai nút, một nút chứa giá trị 0,92 và nút còn lại chứa giá trị 0,56.

Mỗi ví dụ cung cấp các giá trị khác nhau cho vectơ đặc điểm, vì vậy, vectơ đặc điểm cho ví dụ tiếp theo có thể là:

[0.73, 0.49]

Kỹ thuật xử lý đặc điểm xác định cách biểu thị các đặc điểm trong vectơ đặc điểm. Ví dụ: một đặc điểm phân loại nhị phân có năm giá trị có thể được biểu thị bằng mã hoá một nóng. Trong trường hợp này, phần vectơ đặc trưng cho một ví dụ cụ thể sẽ bao gồm 4 số 0 và 1.0 ở vị trí thứ ba, như sau:

[0.0, 0.0, 1.0, 0.0, 0.0]

Ví dụ khác: giả sử mô hình của bạn bao gồm 3 đặc điểm:

  • một đặc điểm phân loại nhị phân có năm giá trị có thể được biểu thị bằng mã hoá một nóng; ví dụ: [0.0, 1.0, 0.0, 0.0, 0.0]
  • một đặc điểm phân loại nhị phân khác có ba giá trị có thể được biểu thị bằng mã hoá một nóng; ví dụ: [0.0, 0.0, 1.0]
  • một tính năng dấu phẩy động; ví dụ: 8.3.

Trong trường hợp này, vectơ đặc trưng cho mỗi ví dụ sẽ được biểu thị bằng chín giá trị. Với các giá trị mẫu trong danh sách trước, vectơ đặc điểm sẽ là:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Hãy xem phần Dữ liệu số: Cách mô hình nhập dữ liệu bằng vectơ tính năng trong khoá học Học nhanh về học máy để biết thêm thông tin.

tính năng hoá

Quá trình trích xuất các đặc điểm từ một nguồn đầu vào, chẳng hạn như tài liệu hoặc video, và ánh xạ các đặc điểm đó vào một vectơ đặc điểm.

Một số chuyên gia về máy học sử dụng tính năng tạo đặc điểm như một từ đồng nghĩa với kỹ thuật tạo đặc điểm hoặc trích xuất đặc điểm.

học liên kết

Một phương pháp học máy phân tán huấn luyện các mô hình học máy bằng cách sử dụng các ví dụ phân tán trên các thiết bị như điện thoại thông minh. Trong công nghệ học liên kết, một nhóm nhỏ thiết bị sẽ tải mô hình hiện tại xuống từ một máy chủ điều phối trung tâm. Các thiết bị sử dụng các ví dụ được lưu trữ trên thiết bị để cải thiện mô hình. Sau đó, các thiết bị sẽ tải các điểm cải tiến mô hình (nhưng không phải ví dụ về hoạt động huấn luyện) lên máy chủ điều phối, nơi các điểm cải tiến này được tổng hợp với các bản cập nhật khác để tạo ra một mô hình toàn cầu được cải thiện. Sau khi tổng hợp, các bản cập nhật mô hình do thiết bị tính toán sẽ không còn cần thiết và có thể bị loại bỏ.

Vì các ví dụ về việc huấn luyện không bao giờ được tải lên, nên công nghệ học liên kết tuân theo các nguyên tắc về quyền riêng tư như thu thập dữ liệu có trọng tâm và giảm thiểu dữ liệu.

Để biết thêm thông tin về công nghệ học liên kết, hãy xem hướng dẫn này.

vòng hồi tiếp

#fundamentals

Trong học máy, một tình huống mà dự đoán của mô hình ảnh hưởng đến dữ liệu huấn luyện cho cùng một mô hình hoặc một mô hình khác. Ví dụ: một mô hình đề xuất phim sẽ ảnh hưởng đến những bộ phim mà mọi người xem, từ đó ảnh hưởng đến các mô hình đề xuất phim tiếp theo.

Hãy xem phần Hệ thống ML thương mại: Câu hỏi cần đặt trong khoá học cấp tốc về học máy để biết thêm thông tin.

mạng nơron truyền dẫn về trước (FFN)

Mạng nơron không có kết nối tuần hoàn hoặc đệ quy. Ví dụ: mạng nơron sâu truyền thống là mạng nơron hồi tiếp. Tương phản với mạng nơron hồi quy, là mạng tuần hoàn.

học từ một vài dữ liệu

Một phương pháp học máy, thường được dùng để phân loại đối tượng, được thiết kế để huấn luyện các thuật toán phân loại hiệu quả chỉ từ một số ít ví dụ huấn luyện.

Xem thêm về học một lầnhọc không có ví dụ.

đặt câu lệnh dựa trên một vài ví dụ

#language
#generativeAI

Một lệnh gọi chứa nhiều ví dụ ("một vài") minh hoạ cách mô hình ngôn ngữ lớn phản hồi. Ví dụ: câu lệnh dài sau đây chứa hai ví dụ cho thấy một mô hình ngôn ngữ lớn cách trả lời truy vấn.

Các phần của một câu lệnh Ghi chú
Đơn vị tiền tệ chính thức của quốc gia đã chỉ định là gì? Câu hỏi mà bạn muốn LLM trả lời.
Pháp: EUR Một ví dụ.
Vương quốc Anh: Bảng Anh (GBP) Một ví dụ khác.
Ấn Độ: Cụm từ tìm kiếm thực tế.

Lệnh nhắc ít lần thường mang lại kết quả mong muốn hơn so với lệnh nhắc không có lần nàolệnh nhắc một lần. Tuy nhiên, tính năng đặt câu lệnh dựa trên một vài ví dụ yêu cầu câu lệnh dài hơn.

Đặt câu lệnh dựa trên một vài ví dụ là một hình thức học từ một vài dữ liệu áp dụng cho học dựa trên câu lệnh.

Hãy xem phần Kỹ thuật câu lệnh trong khoá học Học máy ứng dụng để biết thêm thông tin.

Đàn vĩ cầm

#language

Thư viện cấu hình ưu tiên Python giúp đặt giá trị của các hàm và lớp mà không cần mã hoặc cơ sở hạ tầng xâm nhập. Trong trường hợp của Pax và các cơ sở mã học máy khác, các hàm và lớp này đại diện cho mô hìnhthông số siêu tham số đào tạo.

Fiddle giả định rằng cơ sở mã học máy thường được chia thành:

  • Mã thư viện xác định các lớp và trình tối ưu hoá.
  • Mã "keo" của tập dữ liệu, gọi các thư viện và kết nối mọi thứ với nhau.

Fiddle ghi lại cấu trúc lệnh gọi của mã keo ở dạng chưa được đánh giá và có thể thay đổi.

tinh chỉnh

#language
#image
#generativeAI

Lần truyền huấn luyện thứ hai, dành riêng cho tác vụ, được thực hiện trên một mô hình được huấn luyện trước để tinh chỉnh các tham số của mô hình cho một trường hợp sử dụng cụ thể. Ví dụ: trình tự huấn luyện đầy đủ cho một số mô hình ngôn ngữ lớn như sau:

  1. Huấn luyện trước: Huấn luyện một mô hình ngôn ngữ lớn trên một tập dữ liệu chung khổng lồ, chẳng hạn như tất cả các trang Wikipedia bằng tiếng Anh.
  2. Điều chỉnh chi tiết: Huấn luyện mô hình đã huấn luyện trước để thực hiện một nhiệm vụ cụ thể, chẳng hạn như phản hồi các truy vấn y tế. Việc tinh chỉnh thường liên quan đến hàng trăm hoặc hàng nghìn ví dụ tập trung vào một nhiệm vụ cụ thể.

Ví dụ khác: trình tự huấn luyện đầy đủ cho mô hình hình ảnh lớn như sau:

  1. Huấn luyện trước: Huấn luyện một mô hình hình ảnh lớn trên một tập dữ liệu hình ảnh chung rộng lớn, chẳng hạn như tất cả hình ảnh trong Wikimedia Commons.
  2. Điều chỉnh chi tiết: Huấn luyện mô hình đã huấn luyện trước để thực hiện một nhiệm vụ cụ thể, chẳng hạn như tạo hình ảnh cá voi sát thủ.

Việc tinh chỉnh có thể bao gồm bất kỳ tổ hợp nào của các chiến lược sau:

  • Sửa đổi tất cả tham số hiện có của mô hình được huấn luyện trước. Đôi khi, quá trình này được gọi là điều chỉnh chi tiết đầy đủ.
  • Chỉ sửa đổi một số tham số hiện có của mô hình được huấn luyện trước (thường là các lớp gần nhất với lớp đầu ra), trong khi giữ nguyên các tham số hiện có khác (thường là các lớp gần nhất với lớp đầu vào). Xem phần chỉnh sửa hiệu quả thông số.
  • Thêm các lớp khác, thường là trên các lớp hiện có gần nhất với lớp đầu ra.

Điều chỉnh chi tiết là một hình thức học chuyển đổi. Do đó, việc tinh chỉnh có thể sử dụng một hàm tổn thất hoặc loại mô hình khác với những hàm và loại mô hình dùng để huấn luyện mô hình được huấn luyện trước. Ví dụ: bạn có thể điều chỉnh mô hình hình ảnh lớn được huấn luyện trước để tạo mô hình hồi quy trả về số lượng chim trong hình ảnh đầu vào.

So sánh và đối chiếu việc tinh chỉnh với các thuật ngữ sau:

Hãy xem phần Chỉnh sửa chi tiết trong Khoá học học máy ứng dụng để biết thêm thông tin.

Lanh

#language

Một thư viện nguồn mở hiệu suất cao dành cho việc học sâu, được xây dựng dựa trên JAX. Flax cung cấp các hàm để huấn luyện mạng nơron, cũng như các phương thức để đánh giá hiệu suất của mạng nơron.

Flaxformer

#language

Thư viện Transformer nguồn mở, được xây dựng trên Flax, chủ yếu được thiết kế để xử lý ngôn ngữ tự nhiên và nghiên cứu đa phương thức.

cổng quên

#seq

Phần của tế bào Long Short-Term Memory (Bộ nhớ ngắn hạn dài hạn) điều chỉnh luồng thông tin qua tế bào. Cổng quên duy trì ngữ cảnh bằng cách quyết định loại bỏ thông tin nào khỏi trạng thái ô.

phân số thành công

#generativeAI

Chỉ số để đánh giá văn bản do mô hình học máy tạo. Phần trăm thành công là số lượng đầu ra văn bản "thành công" được tạo chia cho tổng số đầu ra văn bản được tạo. Ví dụ: nếu một mô hình ngôn ngữ lớn tạo ra 10 khối mã, trong đó 5 khối mã thành công, thì tỷ lệ thành công sẽ là 50%.

Mặc dù tỷ lệ thành công hữu ích rộng rãi trong số liệu thống kê, nhưng trong ML, chỉ số này chủ yếu hữu ích để đo lường các nhiệm vụ có thể xác minh như tạo mã hoặc bài toán toán học.

softmax đầy đủ

Từ đồng nghĩa với softmax.

Tương phản với lấy mẫu ứng viên.

Hãy xem phần Mạng nơron: Phân loại nhiều lớp trong khoá học cấp tốc về học máy để biết thêm thông tin.

lớp liên thông đầy đủ

Lớp ẩn, trong đó mỗi nút được kết nối với mọi nút trong lớp ẩn tiếp theo.

Lớp liên thông đầy đủ còn được gọi là lớp dày đặc.

biến đổi hàm

Một hàm lấy một hàm làm dữ liệu đầu vào và trả về một hàm đã chuyển đổi làm dữ liệu đầu ra. JAX sử dụng các phép biến đổi hàm.

G

GAN

Từ viết tắt của mạng đối kháng tạo sinh.

Gemini

#language
#image
#generativeAI

Hệ sinh thái bao gồm AI tiên tiến nhất của Google. Các thành phần của hệ sinh thái này bao gồm:

  • Nhiều mô hình Gemini.
  • Giao diện trò chuyện tương tác với mô hình Gemini. Người dùng nhập câu lệnh và Gemini sẽ phản hồi các câu lệnh đó.
  • Nhiều API Gemini.
  • Nhiều sản phẩm dành cho doanh nghiệp dựa trên các mô hình Gemini; ví dụ: Gemini cho Google Cloud.

Mô hình Gemini

#language
#image
#generativeAI

Các mô hình đa phương thức dựa trên Transformer tiên tiến của Google. Các mô hình Gemini được thiết kế riêng để tích hợp với các tác nhân.

Người dùng có thể tương tác với các mô hình Gemini theo nhiều cách, bao gồm cả thông qua giao diện hộp thoại tương tác và thông qua SDK.

tổng quát hoá

#fundamentals

Khả năng của mô hình trong việc đưa ra dự đoán chính xác về dữ liệu mới, chưa từng thấy trước đây. Mô hình có thể khái quát là đối lập với mô hình quá thích ứng.

Hãy xem phần Tổng quát hoá trong Khoá học học máy ứng dụng để biết thêm thông tin.

đường cong tổng quát hoá

#fundamentals

Biểu đồ của cả mất mát trong quá trình huấn luyệnmất mát trong quá trình xác thực dưới dạng hàm của số lặp lại.

Đường cong tổng quát hoá có thể giúp bạn phát hiện trường hợp thừa khớp. Ví dụ: đường cong tổng quát sau đây cho thấy tình trạng phù hợp quá mức vì tổn thất xác thực cuối cùng sẽ cao hơn đáng kể so với tổn thất huấn luyện.

Biểu đồ Descartes trong đó trục y được gắn nhãn là tổn thất và trục x được gắn nhãn là số lần lặp lại. Hai biểu đồ sẽ xuất hiện. Một biểu đồ cho thấy tổn thất huấn luyện và biểu đồ còn lại cho thấy tổn thất xác thực.
          Hai biểu đồ bắt đầu tương tự nhau, nhưng cuối cùng, tổn thất trong quá trình huấn luyện sẽ giảm xuống thấp hơn nhiều so với tổn thất trong quá trình xác thực.

Hãy xem phần Tổng quát hoá trong Khoá học học máy ứng dụng để biết thêm thông tin.

mô hình tuyến tính tổng quát

Tổng quát hoá các mô hình biện pháp hồi quy bình phương nhỏ nhất dựa trên nhiễu Gaussian cho các loại mô hình khác dựa trên các loại nhiễu khác, chẳng hạn như nhiễu Poisson hoặc nhiễu phân loại. Sau đây là một số ví dụ về mô hình tuyến tính tổng quát:

Bạn có thể tìm thấy các tham số của mô hình tuyến tính tổng quát thông qua tối ưu hoá lồi.

Mô hình tuyến tính tổng quát thể hiện các thuộc tính sau:

  • Giá trị dự đoán trung bình của mô hình hồi quy bình phương tối ưu bằng với nhãn trung bình trên dữ liệu huấn luyện.
  • Xác suất trung bình do mô hình hồi quy logistic tối ưu dự đoán bằng với nhãn trung bình trên dữ liệu huấn luyện.

Sức mạnh của mô hình tuyến tính tổng quát bị giới hạn bởi các tính năng của mô hình. Không giống như mô hình sâu, mô hình tuyến tính tổng quát không thể "tìm hiểu các tính năng mới".

văn bản được tạo

#language
#generativeAI

Nhìn chung, văn bản mà mô hình học máy xuất ra. Khi đánh giá mô hình ngôn ngữ lớn, một số chỉ số sẽ so sánh văn bản được tạo với văn bản tham chiếu. Ví dụ: giả sử bạn đang cố gắng xác định mức độ hiệu quả của một mô hình học máy trong việc dịch từ tiếng Pháp sang tiếng Hà Lan. Trong trường hợp này:

  • Văn bản được tạo là bản dịch tiếng Hà Lan mà mô hình học máy trả về.
  • Văn bản đối chiếu là bản dịch tiếng Hà Lan do một người dịch (hoặc phần mềm) tạo.

Xin lưu ý rằng một số chiến lược đánh giá không liên quan đến văn bản tham chiếu.

mạng đối nghịch tạo sinh (GAN)

Một hệ thống tạo dữ liệu mới, trong đó trình tạo tạo dữ liệu và giá trị phân biệt xác định xem dữ liệu được tạo đó có hợp lệ hay không.

Hãy xem khoá học về Mạng đối kháng tạo sinh để biết thêm thông tin.

AI tạo sinh

#language
#image
#generativeAI

Một lĩnh vực chuyển đổi mới nổi không có định nghĩa chính thức. Tuy nhiên, hầu hết các chuyên gia đều đồng ý rằng các mô hình AI tạo sinh có thể tạo ("tạo") nội dung đáp ứng tất cả các yêu cầu sau:

  • phức tạp
  • nhất quán
  • gốc

Ví dụ: mô hình AI tạo sinh có thể tạo các bài tiểu luận hoặc hình ảnh phức tạp.

Một số công nghệ trước đây, bao gồm cả LSTMRNN, cũng có thể tạo nội dung nguyên gốc và nhất quán. Một số chuyên gia xem những công nghệ trước đây này là AI tạo sinh, trong khi những người khác lại cho rằng AI tạo sinh thực sự đòi hỏi đầu ra phức tạp hơn so với những công nghệ trước đó có thể tạo ra.

Trái ngược với máy học dự đoán.

mô hình tạo sinh

Trên thực tế, một mô hình thực hiện một trong hai việc sau:

  • Tạo (tạo) các ví dụ mới từ tập dữ liệu huấn luyện. Ví dụ: một mô hình tạo sinh có thể tạo thơ sau khi được huấn luyện trên một tập dữ liệu về thơ. Máy phát điện trong một mạng đối kháng tạo sinh thuộc danh mục này.
  • Xác định xác suất một ví dụ mới đến từ tập huấn luyện hoặc được tạo từ cùng một cơ chế đã tạo tập huấn luyện. Ví dụ: sau khi huấn luyện trên một tập dữ liệu bao gồm các câu tiếng Anh, mô hình tạo sinh có thể xác định xác suất đầu vào mới là một câu tiếng Anh hợp lệ.

Về lý thuyết, mô hình tạo sinh có thể phân biệt được việc phân phối các ví dụ hoặc các đặc điểm cụ thể trong một tập dữ liệu. Đó là:

p(examples)

Mô hình học không giám sát là mô hình tạo sinh.

Tương phản với mô hình phân biệt.

trình tạo

Hệ thống con trong một mạng đối kháng tạo sinh tạo ra các ví dụ mới.

Tương phản với mô hình phân biệt.

tạp chất gini

#df

Một chỉ số tương tự như entropy. Trình phân tách sử dụng các giá trị bắt nguồn từ độ không tinh khiết gini hoặc entropy để tạo điều kiện cho việc phân loại cây quyết định. Mức tăng thông tin bắt nguồn từ entropy. Không có thuật ngữ tương đương nào được chấp nhận rộng rãi cho chỉ số bắt nguồn từ độ không tinh khiết gini; tuy nhiên, chỉ số chưa được đặt tên này cũng quan trọng như lợi tức thông tin.

Độ không tinh khiết của Gini còn được gọi là chỉ số Gini hoặc đơn giản là Gini.

tập dữ liệu vàng

Một tập hợp dữ liệu được tuyển chọn thủ công, ghi lại sự thật cơ bản. Các nhóm có thể sử dụng một hoặc nhiều tập dữ liệu chuẩn để đánh giá chất lượng của mô hình.

Một số tập dữ liệu vàng ghi lại nhiều miền con của giá trị thực tế. Ví dụ: một tập dữ liệu chuẩn để phân loại hình ảnh có thể ghi lại điều kiện ánh sáng và độ phân giải hình ảnh.

câu trả lời vàng

#language
#generativeAI

Một câu trả lời được biết là chính xác. Ví dụ: với lời nhắc sau:

2 + 2

Phản hồi vàng hy vọng sẽ là:

4

GPT (Biến đổi tạo sinh được huấn luyện trước)

#language

Một nhóm mô hình ngôn ngữ lớn dựa trên Transformer do OpenAI phát triển.

Các biến thể GPT có thể áp dụng cho nhiều phương thức, bao gồm:

  • tạo hình ảnh (ví dụ: ImageGPT)
  • tạo văn bản thành hình ảnh (ví dụ: DALL-E).

chuyển màu

Vectơ của đạo hàm riêng theo tất cả các biến độc lập. Trong học máy, độ dốc là vectơ của các đạo hàm riêng của hàm mô hình. Độ dốc trỏ theo hướng dốc nhất.

tích luỹ độ dốc

Kỹ thuật truyền ngược chỉ cập nhật các tham số một lần cho mỗi epoch thay vì một lần cho mỗi lần lặp. Sau khi xử lý từng lô nhỏ, quá trình tích luỹ độ dốc chỉ cập nhật tổng số độ dốc đang chạy. Sau đó, sau khi xử lý lô nhỏ cuối cùng trong epoch, hệ thống cuối cùng sẽ cập nhật các tham số dựa trên tổng tất cả các thay đổi về độ dốc.

Việc tích luỹ độ dốc rất hữu ích khi kích thước lô rất lớn so với dung lượng bộ nhớ có sẵn để huấn luyện. Khi bộ nhớ là vấn đề, xu hướng tự nhiên là giảm kích thước lô. Tuy nhiên, việc giảm kích thước lô trong quá trình truyền ngược thông thường sẽ làm tăng số lần cập nhật thông số. Tính năng tích luỹ độ dốc cho phép mô hình tránh các vấn đề về bộ nhớ nhưng vẫn huấn luyện hiệu quả.

cây tăng cường độ dốc (quyết định) (GBT)

#df

Một loại rừng quyết định trong đó:

Hãy xem phần Cây quyết định tăng cường theo độ dốc trong khoá học về Cây quyết định để biết thêm thông tin.

tăng cường độ dốc

#df

Một thuật toán huấn luyện trong đó các mô hình yếu được huấn luyện để cải thiện chất lượng (giảm tổn thất) của một mô hình mạnh theo cách lặp lại. Ví dụ: mô hình yếu có thể là mô hình cây quyết định tuyến tính hoặc nhỏ. Mô hình mạnh trở thành tổng của tất cả các mô hình yếu đã được huấn luyện trước đó.

Trong hình thức đơn giản nhất của phương pháp tăng cường độ dốc, tại mỗi lần lặp lại, một mô hình yếu sẽ được huấn luyện để dự đoán độ dốc tổn thất của mô hình mạnh. Sau đó, kết quả của mô hình mạnh được cập nhật bằng cách trừ độ dốc dự đoán, tương tự như độ dốc giảm.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

trong đó:

  • $F_{0}$ là mô hình mạnh ban đầu.
  • $F_{i+1}$ là mô hình mạnh tiếp theo.
  • $F_{i}$ là mô hình mạnh hiện tại.
  • $\xi$ là một giá trị nằm trong khoảng từ 0 đến 1 được gọi là hệ số thu hẹp, tương tự như tốc độ học trong phương pháp hạ gradient.
  • $f_{i}$ là mô hình yếu được huấn luyện để dự đoán độ dốc tổn thất của $F_{i}$.

Các biến thể hiện đại của phương pháp tăng cường độ dốc cũng bao gồm đạo hàm thứ hai (Hessian) của tổn thất trong quá trình tính toán.

Cây quyết định thường được dùng làm mô hình yếu trong kỹ thuật tăng cường độ dốc. Xem cây tăng cường độ dốc (quyết định).

cắt hiệu ứng chuyển màu

#seq

Một cơ chế thường dùng để giảm thiểu vấn đề tăng dần bằng cách giới hạn (cắt) giá trị tối đa của độ dốc một cách nhân tạo khi sử dụng lệch độ dốc để huấn luyện một mô hình.

phương pháp giảm độ dốc

#fundamentals

Một kỹ thuật toán học để giảm thiểu mất mát. Phương pháp hạ dần theo độ dốc sẽ điều chỉnh lặp lại trọng sốđộ lệch, dần dần tìm ra tổ hợp tốt nhất để giảm thiểu tổn thất.

Phương pháp giảm dần theo độ dốc đã xuất hiện từ lâu, lâu hơn rất nhiều so với công nghệ học máy.

Xem phần Phương pháp hồi quy tuyến tính: Phương pháp hạ gradient trong khoá học cấp tốc về học máy để biết thêm thông tin.

đồ thị

#TensorFlow

Trong TensorFlow, một thông số kỹ thuật tính toán. Các nút trong biểu đồ đại diện cho các toán tử. Các cạnh được định hướng và biểu thị việc truyền kết quả của một phép toán (Tensor) dưới dạng một toán hạng cho một phép toán khác. Sử dụng TensorBoard để trực quan hoá biểu đồ.

thực thi biểu đồ

#TensorFlow

Môi trường lập trình TensorFlow, trong đó trước tiên, chương trình sẽ tạo một biểu đồ rồi thực thi toàn bộ hoặc một phần biểu đồ đó. Thực thi biểu đồ là chế độ thực thi mặc định trong TensorFlow 1.x.

Ngược lại với thực thi sớm.

chính sách tham lam

#rl

Trong học tăng cường, chính sách luôn chọn hành động có lợi tức dự kiến cao nhất.

sự thực tế

Một thuộc tính của mô hình có đầu ra dựa trên (được "đặt nền tảng trên") tài liệu nguồn cụ thể. Ví dụ: giả sử bạn cung cấp toàn bộ sách giáo khoa vật lý làm dữ liệu đầu vào ("ngữ cảnh") cho một mô hình ngôn ngữ lớn. Sau đó, bạn sẽ đưa ra một câu hỏi vật lý cho mô hình ngôn ngữ lớn đó. Nếu phản hồi của mô hình phản ánh thông tin trong sách giáo khoa đó, thì mô hình đó được đặt nền tảng trên sách giáo khoa đó.

Xin lưu ý rằng mô hình dựa trên thực tế không phải lúc nào cũng là mô hình thực tế. Ví dụ: sách giáo khoa vật lý đầu vào có thể chứa lỗi.

thông tin thực tế

#fundamentals

Thực tế.

Điều thực sự đã xảy ra.

Ví dụ: hãy xem xét một mô hình phân loại nhị phân dự đoán liệu một sinh viên năm nhất đại học có tốt nghiệp trong vòng 6 năm hay không. Giá trị thực tế cho mô hình này là liệu học viên đó có thực sự tốt nghiệp trong vòng 6 năm hay không.

thiên vị quy cho nhóm

#fairness

Giả sử rằng điều đúng với một cá nhân cũng đúng với mọi người trong nhóm đó. Tác động của thiên vị phân bổ theo nhóm có thể trở nên trầm trọng hơn nếu bạn sử dụng phương pháp lấy mẫu thuận tiện để thu thập dữ liệu. Trong một mẫu không đại diện, các thuộc tính có thể được tạo không phản ánh thực tế.

Xem thêm thiên vị đồng nhất khác nhómthiên vị đồng nhất trong nhóm. Ngoài ra, hãy xem phần Tính công bằng: Các loại thiên kiến trong Khoá học học máy ứng dụng để biết thêm thông tin.

Cao

ảo giác

#language

Việc tạo ra kết quả có vẻ hợp lý nhưng không chính xác về mặt thực tế bằng mô hình AI tạo sinh, mô hình này có ý định đưa ra một câu nhận định về thế giới thực. Ví dụ: một mô hình AI tạo sinh tuyên bố rằng Barack Obama đã chết vào năm 1865 là ảo giác.

băm

Trong học máy, một cơ chế để nhóm dữ liệu dạng danh mục, đặc biệt là khi số lượng danh mục lớn nhưng số lượng danh mục thực sự xuất hiện trong tập dữ liệu lại tương đối nhỏ.

Ví dụ: Trái Đất là nơi sinh sống của khoảng 73.000 loài cây. Bạn có thể biểu thị từng loài cây trong số 73.000 loài cây trong 73.000 bộ chứa theo danh mục riêng biệt. Ngoài ra, nếu chỉ có 200 trong số các loài cây đó thực sự xuất hiện trong một tập dữ liệu, thì bạn có thể sử dụng hàm băm để chia các loài cây thành khoảng 500 nhóm.

Một nhóm có thể chứa nhiều loài cây. Ví dụ: hàm băm có thể đặt cây bao bápcây phong đỏ – hai loài khác nhau về mặt di truyền – vào cùng một bộ chứa. Dù sao, việc băm vẫn là một cách hay để ánh xạ các tập hợp danh mục lớn vào số lượng bộ chứa đã chọn. Hàm băm biến một tính năng phân loại có nhiều giá trị có thể thành một số lượng giá trị nhỏ hơn nhiều bằng cách nhóm các giá trị theo cách xác định.

Hãy xem phần Dữ liệu dạng danh mục: Từ vựng và mã hoá một nóng trong khoá học cấp tốc về máy học để biết thêm thông tin.

phương pháp phỏng đoán

Một giải pháp đơn giản và nhanh chóng được triển khai cho một vấn đề. Ví dụ: "Với phương pháp phỏng đoán, chúng tôi đã đạt được độ chính xác 86%. Khi chúng tôi chuyển sang mạng nơron sâu, độ chính xác đã tăng lên 98%".

lớp ẩn

#fundamentals

Một lớp trong mạng nơron giữa lớp đầu vào (các đặc điểm) và lớp đầu ra (dự đoán). Mỗi lớp ẩn bao gồm một hoặc nhiều neuron. Ví dụ: mạng nơron sau đây chứa hai lớp ẩn, lớp đầu tiên có 3 tế bào thần kinh và lớp thứ hai có 2 tế bào thần kinh:

Bốn lớp. Lớp đầu tiên là lớp đầu vào chứa hai tính năng. Lớp thứ hai là lớp ẩn chứa ba tế bào thần kinh. Lớp thứ ba là lớp ẩn chứa hai tế bào thần kinh. Lớp thứ tư là lớp đầu ra. Mỗi đặc điểm chứa ba cạnh, mỗi cạnh trỏ đến một tế bào thần kinh khác nhau trong lớp thứ hai. Mỗi tế bào thần kinh trong lớp thứ hai chứa hai cạnh, mỗi cạnh trỏ đến một tế bào thần kinh khác trong lớp thứ ba. Mỗi tế bào thần kinh trong lớp thứ ba chứa một cạnh, mỗi cạnh trỏ đến lớp đầu ra.

Mạng nơron sâu chứa nhiều lớp ẩn. Ví dụ: hình minh hoạ trước là một mạng nơron sâu vì mô hình chứa hai lớp ẩn.

Hãy xem phần Mạng nơron: Nút và lớp ẩn trong khoá học cấp tốc về máy học để biết thêm thông tin.

phân cụm phân cấp

#clustering

Một danh mục thuật toán phân cụm tạo ra một cây của các cụm. Tính năng phân cụm phân cấp rất phù hợp với dữ liệu phân cấp, chẳng hạn như các hệ thống phân loại thực vật. Có hai loại thuật toán phân cụm phân cấp:

  • Trước tiên, kỹ thuật phân cụm kết hợp gán mỗi ví dụ cho một cụm riêng, rồi lặp lại việc hợp nhất các cụm gần nhất để tạo một cây phân cấp.
  • Trước tiên, kỹ thuật phân cụm phân chia sẽ nhóm tất cả các ví dụ vào một cụm, sau đó lặp lại việc chia cụm đó thành một cây phân cấp.

Tương phản với thuật toán phân cụm dựa trên tâm điểm.

Hãy xem phần Thuật toán phân cụm trong khoá học Phân cụm để biết thêm thông tin.

leo đồi

Thuật toán cải thiện lặp lại ("đi lên dốc") một mô hình học máy cho đến khi mô hình ngừng cải thiện ("đạt đến đỉnh dốc"). Dạng chung của thuật toán như sau:

  1. Xây dựng mô hình bắt đầu.
  2. Tạo mô hình đề xuất mới bằng cách điều chỉnh nhỏ cách bạn huấn luyện hoặc điều chỉnh chi tiết. Điều này có thể đòi hỏi việc sử dụng một tập dữ liệu huấn luyện hoặc các tham số siêu dữ liệu khác nhau.
  3. Đánh giá các mô hình đề xuất mới và thực hiện một trong các hành động sau:
    • Nếu một mô hình đề xuất hoạt động hiệu quả hơn mô hình ban đầu, thì mô hình đề xuất đó sẽ trở thành mô hình ban đầu mới. Trong trường hợp này, hãy lặp lại các Bước 1, 2 và 3.
    • Nếu không có mô hình nào hoạt động hiệu quả hơn mô hình ban đầu, thì bạn đã đạt đến đỉnh và nên ngừng lặp lại.

Hãy xem Cẩm nang điều chỉnh học sâu để biết hướng dẫn về cách điều chỉnh tham số siêu dữ liệu. Hãy xem các mô-đun Dữ liệu của khoá học Học máy ứng dụng để được hướng dẫn về kỹ thuật tạo tính năng.

tổn thất khớp nối

Một nhóm hàm mất mát để phân loại được thiết kế để tìm ranh giới quyết định càng xa càng tốt từ mỗi ví dụ huấn luyện, do đó tối đa hoá khoảng cách giữa các ví dụ và ranh giới. KSVM sử dụng tổn thất bản lề (hoặc một hàm có liên quan, chẳng hạn như tổn thất bản lề bình phương). Đối với việc phân loại nhị phân, hàm tổn thất bản lề được xác định như sau:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

trong đó y là nhãn thực, -1 hoặc +1 và y' là đầu ra thô của mô hình phân loại:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Do đó, biểu đồ về tổn thất bản lề so với (y * y') sẽ có dạng như sau:

Biểu đồ Descartes bao gồm hai đoạn đường thẳng nối với nhau. Đoạn đường thẳng đầu tiên bắt đầu tại (-3, 4) và kết thúc tại (1, 0). Đoạn đường thứ hai bắt đầu tại (1, 0) và tiếp tục vô thời hạn với độ dốc bằng 0.

thiên kiến trước đây

#fairness

Một loại thiên kiến đã tồn tại trên thế giới và đã xâm nhập vào một tập dữ liệu. Những thành kiến này có xu hướng phản ánh các định kiến văn hoá, sự bất bình đẳng về nhân khẩu học và định kiến đối với một số nhóm xã hội nhất định.

Ví dụ: hãy xem xét một mô hình phân loại dự đoán liệu người đăng ký vay có trả nợ trước hạn hay không. Mô hình này được huấn luyện dựa trên dữ liệu trả nợ trước hạn trước đây từ những năm 1980 của các ngân hàng địa phương ở hai cộng đồng khác nhau. Nếu trước đây, những người đăng ký từ Cộng đồng A có khả năng vỡ nợ gấp 6 lần so với những người đăng ký từ Cộng đồng B, thì mô hình có thể học được một sự thiên vị trong quá khứ, dẫn đến việc mô hình ít có khả năng phê duyệt khoản vay ở Cộng đồng A, ngay cả khi các điều kiện trong quá khứ dẫn đến tỷ lệ vỡ nợ cao hơn của cộng đồng đó không còn phù hợp nữa.

Hãy xem phần Tính công bằng: Các loại thiên kiến trong khoá học cấp tốc về học máy để biết thêm thông tin.

dữ liệu không huấn luyện

Ví dụ được cố ý không sử dụng ("được giữ lại") trong quá trình huấn luyện. Tập dữ liệu xác thựctập dữ liệu kiểm thử là ví dụ về dữ liệu giữ lại. Dữ liệu giữ lại giúp đánh giá khả năng tổng quát hoá của mô hình đối với dữ liệu khác với dữ liệu mà mô hình được huấn luyện. Mất mát trên tập dữ liệu giữ lại cung cấp thông tin ước tính tốt hơn về tổn thất trên tập dữ liệu chưa thấy so với tổn thất trên tập dữ liệu huấn luyện.

người tổ chức

#TensorFlow
#GoogleCloud

Khi huấn luyện mô hình học máy trên chip tăng tốc (GPU hoặc TPU), phần hệ thống sẽ kiểm soát cả hai yếu tố sau:

  • Luồng tổng thể của mã.
  • Quá trình trích xuất và chuyển đổi quy trình đầu vào.

Máy chủ lưu trữ thường chạy trên CPU chứ không phải trên chip tăng tốc; thiết bị thao tác với tensor trên chip tăng tốc.

đánh giá thủ công

#language
#generativeAI

Một quy trình mà con người đánh giá chất lượng của kết quả của một mô hình học máy; ví dụ: nhờ những người nói hai thứ tiếng đánh giá chất lượng của một mô hình dịch bằng học máy. Việc đánh giá thủ công đặc biệt hữu ích khi đánh giá các mô hình không có câu trả lời đúng.

Khác với quy trình đánh giá tự độngquy trình đánh giá bằng trình tự động đánh giá.

con người trong vòng lặp (HITL)

#generativeAI

Một thành ngữ được xác định không rõ ràng có thể có nghĩa là một trong những điều sau:

  • Chính sách xem xét kết quả của AI tạo sinh một cách phê phán hoặc hoài nghi. Ví dụ: những người viết Bảng thuật ngữ về học máy này rất ngạc nhiên về những gì mô hình ngôn ngữ lớn có thể làm được, nhưng cũng lưu ý đến những lỗi mà mô hình ngôn ngữ lớn mắc phải.
  • Một chiến lược hoặc hệ thống giúp đảm bảo rằng mọi người sẽ góp phần định hình, đánh giá và tinh chỉnh hành vi của mô hình. Việc giữ cho con người luôn nắm bắt thông tin giúp AI tận dụng được cả trí tuệ máy và trí tuệ con người. Ví dụ: một hệ thống trong đó AI tạo mã mà sau đó kỹ sư phần mềm xem xét là một hệ thống có con người tham gia.

siêu tham số

#fundamentals

Các biến mà bạn hoặc dịch vụ điều chỉnh tham số siêu dữ liệu điều chỉnh trong các lần chạy liên tiếp để huấn luyện mô hình. Ví dụ: tốc độ học là một tham số siêu dữ liệu. Bạn có thể đặt tốc độ học thành 0,01 trước một phiên huấn luyện. Nếu xác định rằng 0,01 là quá cao, bạn có thể đặt tốc độ học là 0,003 cho phiên huấn luyện tiếp theo.

Ngược lại, tham số là các trọng sốsai số khác nhau mà mô hình học được trong quá trình huấn luyện.

Hãy xem phần Phương pháp hồi quy tuyến tính: Thông số siêu dữ liệu trong khoá học cấp tốc về học máy để biết thêm thông tin.

siêu mặt phẳng

Ranh giới phân tách một không gian thành hai không gian con. Ví dụ: một đường thẳng là một siêu phẳng trong hai chiều và một mặt phẳng là một siêu phẳng trong ba chiều. Thông thường trong học máy, siêu phẳng là ranh giới phân tách một không gian có nhiều chiều. Máy vectơ hỗ trợ hạt nhân sử dụng siêu phẳng để phân tách các lớp dương với các lớp âm, thường là trong không gian có chiều rất cao.

I

phân phối độc lập và đồng nhất

Viết tắt của phân phối độc lập và đồng nhất.

nhận dạng hình ảnh

#image

Một quy trình phân loại(các) đối tượng, (các) mẫu hoặc(các) khái niệm trong một hình ảnh. Nhận dạng hình ảnh còn được gọi là phân loại hình ảnh.

Để biết thêm thông tin, hãy xem bài viết Lớp học thực hành về học máy: Phân loại hình ảnh.

Hãy xem khoá học Thực hành về học máy: Phân loại hình ảnh để biết thêm thông tin.

tập dữ liệu không cân bằng

Đồng nghĩa với tập dữ liệu bất cân đối về loại.

thiên kiến ngầm ẩn

#fairness

Tự động liên kết hoặc giả định dựa trên mô hình tâm trí và ký ức của một người. Tệ nạn phân biệt ngầm ẩn có thể ảnh hưởng đến những điều sau:

  • Cách thu thập và phân loại dữ liệu.
  • Cách thiết kế và phát triển hệ thống học máy.

Ví dụ: khi xây dựng một thuật toán phân loại để xác định ảnh cưới, kỹ sư có thể sử dụng sự hiện diện của một chiếc váy trắng trong ảnh làm một đặc điểm. Tuy nhiên, váy trắng chỉ là trang phục truyền thống trong một số thời đại và ở một số nền văn hóa nhất định.

Xem thêm về thiên kiến xác nhận.

giá trị nội suy

Biểu thức viết tắt của phương pháp nội suy giá trị.

không tương thích của các chỉ số về tính công bằng

#fairness

Ý tưởng cho rằng một số khái niệm về sự công bằng không tương thích với nhau và không thể được đáp ứng cùng một lúc. Do đó, không có một chỉ số chung nào có thể đo lường được tính công bằng và áp dụng cho mọi vấn đề về học máy.

Mặc dù điều này có vẻ gây nản lòng, nhưng việc các chỉ số về tính công bằng không tương thích không có nghĩa là những nỗ lực nhằm đảm bảo tính công bằng là vô ích. Thay vào đó, bạn nên xác định tính công bằng theo ngữ cảnh cho một vấn đề học máy nhất định, với mục tiêu ngăn chặn những tác hại cụ thể đối với các trường hợp sử dụng của vấn đề đó.

Hãy xem phần "Về khả năng (không) công bằng" để thảo luận chi tiết hơn về chủ đề này.

học tập theo bối cảnh

#language
#generativeAI

Từ đồng nghĩa với câu lệnh dựa trên một vài ví dụ.

phân phối độc lập và đồng nhất (i.i.d)

#fundamentals

Dữ liệu được lấy từ một phân phối không thay đổi và mỗi giá trị được vẽ không phụ thuộc vào các giá trị đã được vẽ trước đó. I.i.d. là khí lý tưởng của học máy – một cấu trúc toán học hữu ích nhưng hầu như không bao giờ tìm thấy chính xác trong thế giới thực. Ví dụ: việc phân phối khách truy cập đến một trang web có thể là i.i.d. trong một khoảng thời gian ngắn; tức là việc phân phối không thay đổi trong khoảng thời gian ngắn đó và lượt truy cập của một người thường độc lập với lượt truy cập của người khác. Tuy nhiên, nếu bạn mở rộng khoảng thời gian đó, sự khác biệt theo mùa trong số khách truy cập trang web có thể xuất hiện.

Xem thêm về tính không ổn định.

tính công bằng cho cá nhân

#fairness

Một chỉ số công bằng giúp kiểm tra xem các cá nhân tương tự có được phân loại tương tự hay không. Ví dụ: Học viện Brobdingnagian có thể muốn đáp ứng tính công bằng cá nhân bằng cách đảm bảo rằng hai học viên có điểm giống hệt nhau và điểm kiểm tra chuẩn hoá có khả năng được nhận vào học như nhau.

Xin lưu ý rằng tính công bằng của từng cá nhân hoàn toàn phụ thuộc vào cách bạn xác định "tính tương đồng" (trong trường hợp này là điểm số và điểm kiểm tra). Bạn có thể gặp rủi ro khi tạo ra các vấn đề mới về tính công bằng nếu chỉ số tương đồng của bạn thiếu thông tin quan trọng (chẳng hạn như mức độ nghiêm ngặt của chương trình học của học sinh).

Hãy xem bài viết "Tính công bằng thông qua nhận thức" để thảo luận chi tiết hơn về tính công bằng cá nhân.

suy luận

#fundamentals

Trong học máy, quá trình đưa ra dự đoán bằng cách áp dụng mô hình đã huấn luyện cho các ví dụ chưa được gắn nhãn.

Suy luận có ý nghĩa hơi khác trong thống kê. Hãy xem bài viết trên Wikipedia về suy luận thống kê để biết thông tin chi tiết.

Hãy xem phần Học có giám sát trong khoá học Giới thiệu về học máy để biết vai trò của suy luận trong hệ thống học có giám sát.

đường dẫn suy luận

#df

Trong cây quyết định, trong quá trình xét suy, tuyến đường của một ví dụ cụ thể sẽ đi từ gốc đến các điều kiện khác, kết thúc bằng một . Ví dụ: trong cây quyết định sau đây, các mũi tên dày hơn cho thấy đường dẫn suy luận cho một ví dụ có các giá trị đặc điểm sau:

  • x = 7
  • y = 12
  • z = -3

Đường dẫn suy luận trong hình minh hoạ sau đây đi qua ba điều kiện trước khi đến lá (Zeta).

Cây quyết định bao gồm 4 điều kiện và 5 lá.
          Điều kiện gốc là (x > 0). Vì câu trả lời là Có, nên đường dẫn suy luận sẽ di chuyển từ gốc đến điều kiện tiếp theo (y > 0).
          Vì câu trả lời là Có, nên đường dẫn suy luận sẽ chuyển đến điều kiện tiếp theo (z > 0). Vì câu trả lời là Không, nên đường dẫn suy luận sẽ chuyển đến nút đầu cuối, tức là lá (Zeta).

Ba mũi tên dày cho thấy đường dẫn suy luận.

Xem phần Cây quyết định trong khoá học Rừng quyết định để biết thêm thông tin.

thông tin thu được

#df

Trong rừng quyết định, chênh lệch giữa entropy của một nút và tổng trọng số (theo số lượng ví dụ) của entropy của các nút con. Độ hỗn loạn của một nút là độ hỗn loạn của các ví dụ trong nút đó.

Ví dụ: hãy xem xét các giá trị entropy sau:

  • entropy của nút mẹ = 0,6
  • entropy của một nút con có 16 ví dụ có liên quan = 0,2
  • entropy của một nút con khác có 24 ví dụ có liên quan = 0,1

Vì vậy, 40% ví dụ nằm trong một nút con và 60% nằm trong nút con còn lại. Vì thế:

  • tổng entropy có trọng số của các nút con = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Do đó, thông tin thu được là:

  • thông tin thu được = entropy của nút mẹ – tổng entropy có trọng số của các nút con
  • thông tin thu được = 0,6 – 0,14 = 0,46

Hầu hết trình phân tách đều tìm cách tạo điều kiện giúp tối đa hoá lợi ích thông tin.

thiên vị cùng nhóm

#fairness

Thể hiện sự thiên vị đối với nhóm hoặc đặc điểm của riêng mình. Nếu người kiểm thử hoặc người đánh giá bao gồm bạn bè, gia đình hoặc đồng nghiệp của nhà phát triển học máy, thì sự thiên vị trong nhóm có thể làm mất hiệu lực của quy trình kiểm thử sản phẩm hoặc tập dữ liệu.

Thiên vị cùng nhóm là một dạng thiên vị quy cho nhóm. Xem thêm thiên vị đồng nhất của nhóm bên ngoài.

Hãy xem phần Tính công bằng: Các loại thiên kiến trong Khoá học cấp tốc về học máy để biết thêm thông tin.

trình tạo đầu vào

Cơ chế tải dữ liệu vào mạng nơron.

Bạn có thể coi trình tạo dữ liệu đầu vào là một thành phần chịu trách nhiệm xử lý dữ liệu thô thành các tensor được lặp lại để tạo các lô cho việc huấn luyện, đánh giá và suy luận.

lớp đầu vào

#fundamentals

Lớp của một mạng nơron chứa vectơ đặc điểm. Tức là lớp đầu vào cung cấp ví dụ để huấn luyện hoặc xác định. Ví dụ: lớp đầu vào trong mạng nơron sau đây bao gồm hai đặc điểm:

Bốn lớp: một lớp đầu vào, hai lớp ẩn và một lớp đầu ra.

điều kiện trong tập hợp

#df

Trong cây quyết định, điều kiện kiểm tra sự hiện diện của một mục trong một tập hợp các mục. Ví dụ: sau đây là một điều kiện trong tập hợp:

  house-style in [tudor, colonial, cape]

Trong quá trình suy luận, nếu giá trị của tính năng kiểu nhà là tudor hoặc colonial hoặc cape, thì điều kiện này sẽ đánh giá là Có. Nếu giá trị của tính năng kiểu nhà là một giá trị khác (ví dụ: ranch), thì điều kiện này sẽ đánh giá là Không.

Các điều kiện trong tập hợp thường dẫn đến cây quyết định hiệu quả hơn so với các điều kiện kiểm thử tính năng được mã hoá một nóng.

bản sao

Từ đồng nghĩa với ví dụ.

điều chỉnh hướng dẫn

#generativeAI

Một hình thức điều chỉnh tinh vi giúp cải thiện khả năng làm theo hướng dẫn của mô hình AI tạo sinh. Điều chỉnh hướng dẫn liên quan đến việc huấn luyện mô hình trên một loạt lời nhắc hướng dẫn, thường bao gồm nhiều tác vụ. Sau đó, mô hình được điều chỉnh theo hướng dẫn sẽ có xu hướng tạo ra các câu trả lời hữu ích cho lời nhắc không có ví dụ trên nhiều nhiệm vụ.

So sánh và đối chiếu với:

khả năng diễn giải

#fundamentals

Khả năng giải thích hoặc trình bày lý do của mô hình học máy bằng các thuật ngữ mà con người có thể hiểu được.

Ví dụ: hầu hết các mô hình biến hồi quy tuyến tính đều có thể diễn giải được. (Bạn chỉ cần xem trọng số đã huấn luyện cho từng tính năng.) Rừng quyết định cũng có khả năng diễn giải cao. Tuy nhiên, một số mô hình yêu cầu hình ảnh trực quan phức tạp để có thể diễn giải.

Bạn có thể sử dụng Công cụ diễn giải học tập (LIT) để diễn giải các mô hình học máy.

mức độ đồng thuận giữa các người đánh giá

Chỉ số đo lường tần suất các người đánh giá là con người đồng ý khi thực hiện một nhiệm vụ. Nếu người đánh giá không đồng ý, bạn có thể cần phải cải thiện hướng dẫn cho nhiệm vụ. Đôi khi còn được gọi là tỷ lệ đồng thuận giữa người chú thích hoặc độ tin cậy giữa người đánh giá. Xem thêm về kappa của Cohen, một trong những phép đo độ đồng thuận giữa các người đánh giá phổ biến nhất.

Hãy xem phần Dữ liệu phân loại: Các vấn đề thường gặp trong khoá học cấp tốc về học máy để biết thêm thông tin.

giao điểm trên liên kết (IoU)

#image

Giao của hai tập hợp chia cho hợp của chúng. Trong các nhiệm vụ phát hiện hình ảnh bằng máy học, IoU được dùng để đo lường độ chính xác của hộp giới hạn dự đoán của mô hình so với hộp giới hạn đầu ra thực sự. Trong trường hợp này, IoU cho hai hộp là tỷ lệ giữa diện tích trùng lặp và tổng diện tích, và giá trị của nó nằm trong khoảng từ 0 (không có sự trùng lặp giữa hộp giới hạn dự đoán và hộp giới hạn thực tế) đến 1 (hộp giới hạn dự đoán và hộp giới hạn thực tế có cùng toạ độ).

Ví dụ: trong hình ảnh bên dưới:

  • Hộp giới hạn được dự đoán (tọa độ xác định vị trí mà mô hình dự đoán là chiếc bàn đêm trong bức tranh) được viền màu tím.
  • Hộp giới hạn thực tế (các toạ độ xác định vị trí thực tế của bàn đêm trong bức tranh) được viền màu xanh lục.

Bức tranh của Van Gogh có tên Phòng ngủ của Vincent ở Arles, với hai hộp giới hạn khác nhau xung quanh chiếc bàn cạnh giường. Hộp giới hạn thực tế (màu xanh lục) bao quanh hoàn hảo chiếc bàn ban đêm. Hộp giới hạn dự đoán (màu tím) bị dịch chuyển xuống 50% và sang phải hộp giới hạn thực tế; hộp này bao gồm phần tư dưới cùng bên phải của bàn đêm, nhưng bỏ lỡ phần còn lại của bàn.

Ở đây, giao của các hộp giới hạn cho kết quả dự đoán và giá trị thực tế (dưới bên trái) là 1 và hợp của các hộp giới hạn cho kết quả dự đoán và giá trị thực tế (dưới bên phải) là 7, do đó, IoU là \(\frac{1}{7}\).

Hình ảnh giống như trên, nhưng mỗi hộp giới hạn được chia thành bốn góc phần tư. Tổng cộng có 7 góc phần tư, vì góc phần tư dưới cùng bên phải của hộp giới hạn thực tế và góc phần tư trên cùng bên trái của hộp giới hạn dự đoán chồng chéo lên nhau. Phần chồng chéo này (được đánh dấu màu xanh lục) biểu thị giao điểm và có diện tích là 1. Hình ảnh giống như trên, nhưng mỗi hộp giới hạn được chia thành bốn góc phần tư. Tổng cộng có 7 góc phần tư, vì góc phần tư dưới cùng bên phải của hộp giới hạn thực tế và góc phần tư trên cùng bên trái của hộp giới hạn dự đoán chồng chéo lên nhau.
          Toàn bộ phần bên trong được bao quanh bởi cả hai hộp giới hạn (được làm nổi bật bằng màu xanh lục) đại diện cho tập hợp hợp nhất và có diện tích là 7.

IoU

Viết tắt của giao của hợp nhất.

ma trận mặt hàng

#recsystems

Trong hệ thống đề xuất, một ma trận vectơ nhúng được tạo bằng phân tích nhân ma trận chứa các tín hiệu tiềm ẩn về từng mục. Mỗi hàng của ma trận mục chứa giá trị của một đặc điểm tiềm ẩn duy nhất cho tất cả các mục. Ví dụ: hãy xem xét một hệ thống đề xuất phim. Mỗi cột trong ma trận mục đại diện cho một bộ phim. Các tín hiệu tiềm ẩn có thể đại diện cho các thể loại hoặc có thể là các tín hiệu khó diễn giải hơn liên quan đến các hoạt động tương tác phức tạp giữa thể loại, diễn viên, độ tuổi của phim hoặc các yếu tố khác.

Ma trận mục có cùng số cột với ma trận mục tiêu đang được phân tích. Ví dụ: giả sử hệ thống đề xuất phim đánh giá 10.000 bộ phim, thì ma trận mục sẽ có 10.000 cột.

mục

#recsystems

Trong hệ thống đề xuất, các thực thể mà hệ thống đề xuất. Ví dụ: video là các mặt hàng mà cửa hàng video đề xuất, còn sách là các mặt hàng mà hiệu sách đề xuất.

lặp lại

#fundamentals

Một lần cập nhật tham số của mô hìnhtrọng sốsai số của mô hình – trong quá trình huấn luyện. Kích thước lô xác định số lượng ví dụ mà mô hình xử lý trong một lần lặp. Ví dụ: nếu kích thước lô là 20, thì mô hình sẽ xử lý 20 ví dụ trước khi điều chỉnh các tham số.

Khi huấn luyện một mạng nơron, một vòng lặp duy nhất sẽ bao gồm hai lượt truyền sau:

  1. Một lượt truyền thẳng để đánh giá tổn thất trên một lô.
  2. Truyền ngược (backpropagation) để điều chỉnh các tham số của mô hình dựa trên tổn thất và tốc độ học.

J

JAX

Thư viện điện toán mảng, kết hợp với nhau XLA (Toán tử tuyến tính tăng tốc) và phép vi phân tự động cho phép điện toán số hiệu suất cao. JAX cung cấp một API đơn giản và mạnh mẽ để viết mã số học tăng tốc bằng các phép biến đổi có thể kết hợp. JAX cung cấp các tính năng như:

  • grad (phân biệt tự động)
  • jit (biên dịch đúng thời điểm)
  • vmap (tự động vectơ hoá hoặc tạo lô)
  • pmap (tạo song song)

JAX là một ngôn ngữ để biểu thị và soạn các phép biến đổi của mã số, tương tự như thư viện NumPy của Python nhưng có phạm vi lớn hơn nhiều. (Thực tế, thư viện .numpy trong JAX là một phiên bản tương đương về chức năng nhưng được viết lại hoàn toàn của thư viện NumPy trong Python.)

JAX đặc biệt phù hợp để tăng tốc nhiều tác vụ học máy bằng cách chuyển đổi các mô hình và dữ liệu thành một dạng phù hợp với tính song song trên GPU và chip tăng tốc TPU.

Flax, Optax, Pax và nhiều thư viện khác được xây dựng trên cơ sở hạ tầng JAX.

nghìn

Keras

Một API học máy Python phổ biến. Keras chạy trên một số khung học sâu, bao gồm cả TensorFlow, nơi Keras được cung cấp dưới dạng tf.keras.

Máy vectơ hỗ trợ hạt nhân (KSVM)

Thuật toán phân loại tìm cách tối đa hoá khoảng cách giữa lớp dươnglớp âm bằng cách ánh xạ các vectơ dữ liệu đầu vào đến một không gian có kích thước cao hơn. Ví dụ: hãy xem xét một vấn đề phân loại trong đó tập dữ liệu đầu vào có một trăm đặc điểm. Để tăng tối đa khoảng cách giữa các lớp dương và âm, KSVM có thể ánh xạ các đặc điểm đó vào không gian có hàng triệu chiều. KSVM sử dụng một hàm tổn thất có tên là tổn thất bản lề.

điểm chính

#image

Toạ độ của các đặc điểm cụ thể trong hình ảnh. Ví dụ: đối với mô hình nhận dạng hình ảnh giúp phân biệt các loài hoa, các điểm chính có thể là tâm của mỗi cánh hoa, thân cây, nhị hoa, v.v.

Xác thực chéo k-nhóm

Thuật toán dự đoán khả năng của mô hình trong việc tổng quát hoá cho dữ liệu mới. K trong k-fold đề cập đến số lượng nhóm bằng nhau mà bạn chia các ví dụ của tập dữ liệu thành; tức là bạn huấn luyện và kiểm thử mô hình của mình k lần. Đối với mỗi vòng huấn luyện và kiểm thử, một nhóm khác nhau sẽ là tập kiểm thử và tất cả các nhóm còn lại sẽ trở thành tập huấn luyện. Sau k vòng huấn luyện và kiểm thử, bạn sẽ tính toán giá trị trung bình và độ lệch chuẩn của(các) chỉ số kiểm thử đã chọn.

Ví dụ: giả sử tập dữ liệu của bạn bao gồm 120 ví dụ. Giả sử thêm, bạn quyết định đặt k thành 4. Do đó, sau khi xáo trộn các ví dụ, bạn chia tập dữ liệu thành 4 nhóm bằng nhau, mỗi nhóm gồm 30 ví dụ và tiến hành 4 vòng huấn luyện và kiểm thử:

Một tập dữ liệu được chia thành 4 nhóm ví dụ bằng nhau. Trong Vòng 1, ba nhóm đầu tiên được dùng để huấn luyện và nhóm cuối cùng được dùng để kiểm thử. Trong Vòng 2, hai nhóm đầu tiên và nhóm cuối cùng được dùng để huấn luyện, còn nhóm thứ ba được dùng để kiểm thử. Trong Vòng 3, nhóm đầu tiên và hai nhóm cuối cùng được dùng để huấn luyện, còn nhóm thứ hai được dùng để kiểm thử.
          Trong Vòng 4, nhóm đầu tiên được dùng để kiểm thử, còn ba nhóm cuối cùng được dùng để huấn luyện.

Ví dụ: Sai số bình phương trung bình (MSE) có thể là chỉ số có ý nghĩa nhất cho mô hình hồi quy tuyến tính. Do đó, bạn sẽ tìm thấy giá trị trung bình và độ lệch chuẩn của MSE trên cả 4 vòng.

k trung bình

#clustering

Một thuật toán nhóm phổ biến giúp nhóm các ví dụ trong quá trình học không có giám sát. Về cơ bản, thuật toán k-means thực hiện những việc sau:

  • Xác định lặp lại các điểm trung tâm k tốt nhất (còn gọi là trung tâm trọng lực).
  • Chỉ định mỗi ví dụ cho tâm điểm gần nhất. Những ví dụ gần nhất với cùng một tâm điểm sẽ thuộc cùng một nhóm.

Thuật toán k-means chọn các vị trí trọng tâm để giảm thiểu hình vuông tích luỹ của các khoảng cách từ mỗi ví dụ đến trọng tâm gần nhất.

Ví dụ: hãy xem xét biểu đồ sau đây về chiều cao so với chiều rộng của chó:

Biểu đồ Descartes có vài chục điểm dữ liệu.

Nếu k=3, thuật toán k-means sẽ xác định 3 tâm điểm. Mỗi ví dụ được chỉ định cho tâm điểm gần nhất, tạo ra ba nhóm:

Biểu đồ Descartes giống như trong hình minh hoạ trước, ngoại trừ việc thêm ba trọng tâm.
          Các điểm dữ liệu trước đó được nhóm thành ba nhóm riêng biệt, trong đó mỗi nhóm đại diện cho các điểm dữ liệu gần nhất với một tâm cụ thể.

Hãy tưởng tượng một nhà sản xuất muốn xác định kích thước lý tưởng cho áo len nhỏ, trung bình và lớn dành cho chó. Ba tâm điểm xác định chiều cao trung bình và chiều rộng trung bình của mỗi chú chó trong cụm đó. Vì vậy, nhà sản xuất nên dựa vào 3 tâm điểm đó để xác định kích thước áo len. Xin lưu ý rằng tâm của một cụm thường không phải là một ví dụ trong cụm đó.

Hình minh hoạ trước đó cho thấy k-means cho các ví dụ chỉ có hai đặc điểm (chiều cao và chiều rộng). Xin lưu ý rằng k-means có thể nhóm các ví dụ trên nhiều tính năng.

k trung vị

#clustering

Một thuật toán phân cụm liên quan chặt chẽ đến k-means. Sự khác biệt thực tế giữa hai loại này như sau:

  • Trong k-means, các tâm điểm được xác định bằng cách giảm thiểu tổng bình phương của khoảng cách giữa một tâm điểm đề xuất và từng ví dụ của tâm điểm đó.
  • Trong k-median, các tâm điểm được xác định bằng cách giảm thiểu tổng khoảng cách giữa một tâm điểm đề xuất và mỗi ví dụ của tâm điểm đó.

Xin lưu ý rằng định nghĩa về khoảng cách cũng khác nhau:

  • K-means dựa trên khoảng cách Euclide từ tâm điểm đến một ví dụ. (Trong hai chiều, khoảng cách Euclide có nghĩa là sử dụng định lý Pythagore để tính cạnh huyền.) Ví dụ: khoảng cách k-means giữa (2,2) và (5,-2) sẽ là:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • K-median dựa trên khoảng cách Manhattan từ tâm điểm đến một ví dụ. Khoảng cách này là tổng delta tuyệt đối trong mỗi phương diện. Ví dụ: khoảng cách k-median giữa (2,2) và (5,-2) sẽ là:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Điều hoà L0

#fundamentals

Một loại quy tắc chuẩn hoá sẽ phạt tổng số trọng số không bằng 0 trong một mô hình. Ví dụ: một mô hình có 11 trọng số khác 0 sẽ bị phạt nhiều hơn một mô hình tương tự có 10 trọng số khác 0.

Đôi khi, quy trình điều hoà L0 được gọi là quy trình điều hoà theo chuẩn L0.

Mất L1

#fundamentals

Hàm tổn thất tính toán giá trị tuyệt đối của chênh lệch giữa các giá trị thẻ thực tế và các giá trị mà mô hình dự đoán. Ví dụ: sau đây là cách tính toán tổn thất L1 cho một gồm 5 ví dụ:

Giá trị thực tế của ví dụ Giá trị dự đoán của mô hình Giá trị tuyệt đối của delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = tổn thất L1

Mất mát L1 ít nhạy cảm với điểm ngoại lai hơn mất mát L2.

Sai số tuyệt đối trung bình là tổn thất trung bình L1 trên mỗi ví dụ.

Điều hoà L1

#fundamentals

Một loại quy tắc chuẩn hoá phạt trọng số theo tỷ lệ với tổng giá trị tuyệt đối của trọng số. Phương pháp chuẩn hoá L1 giúp tăng trọng số của các đặc điểm không liên quan hoặc gần như không liên quan lên chính xác là 0. Một tính năng có trọng số là 0 sẽ bị xoá hiệu quả khỏi mô hình.

Tương phản với quy trình điều hoà L2.

Mất L2

#fundamentals

Hàm tổn thất tính toán bình phương của chênh lệch giữa các giá trị thẻ thực tế và các giá trị mà mô hình dự đoán. Ví dụ: sau đây là cách tính toán tổn thất L2 cho một gồm 5 ví dụ:

Giá trị thực tế của ví dụ Giá trị dự đoán của mô hình Delta vuông
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = tổn thất L2

Do việc bình phương, tổn thất L2 làm tăng ảnh hưởng của các điểm ngoại lai. Tức là tổn thất L2 phản ứng mạnh mẽ hơn với các dự đoán không chính xác so với tổn thất L1. Ví dụ: tổn thất L1 cho lô trước đó sẽ là 8 thay vì 16. Lưu ý rằng một giá trị ngoại lai chiếm 9 trong số 16 giá trị.

Các mô hình hồi quy thường sử dụng hàm tổn thất L2 làm hàm tổn thất.

Sai số bình phương trung bình là tổn thất trung bình L2 trên mỗi ví dụ. Tổn thất bình phương là một tên khác của tổn thất L2.

Điều hoà L2

#fundamentals

Một loại quy tắc chuẩn hoá phạt trọng số theo tỷ lệ với tổng hình vuông của các trọng số. Phương pháp chuẩn hoá L2 giúp tăng trọng số điểm ngoại lai (những điểm có giá trị dương cao hoặc giá trị âm thấp) gần với 0 nhưng không hoàn toàn bằng 0. Các tính năng có giá trị rất gần với 0 vẫn nằm trong mô hình nhưng không ảnh hưởng nhiều đến kết quả dự đoán của mô hình.

Quy trình chuẩn hoá L2 luôn cải thiện khả năng khái quát hoá trong mô hình tuyến tính.

Tương phản với quy trình điều hoà L1.

nhãn

#fundamentals

Trong học máy có giám sát, phần "câu trả lời" hoặc "kết quả" của một ví dụ.

Mỗi ví dụ được gắn nhãn bao gồm một hoặc nhiều tính năng và một nhãn. Ví dụ: trong tập dữ liệu phát hiện nội dung rác, nhãn có thể là "rác" hoặc "không phải rác". Trong tập dữ liệu về lượng mưa, nhãn có thể là lượng mưa trong một khoảng thời gian nhất định.

ví dụ về dữ liệu có nhãn

#fundamentals

Một ví dụ chứa một hoặc nhiều tính năng và một nhãn. Ví dụ: bảng sau đây cho thấy 3 ví dụ được gắn nhãn từ một mô hình định giá nhà, mỗi ví dụ có 3 đặc điểm và 1 nhãn:

Số lượng phòng ngủ Số lượng phòng tắm Tuổi nhà Giá nhà (nhãn)
3 2 15 345.000 đô la
2 1 72 179.000 đô la
4 2 34 392.000 đô la

Trong công nghệ học máy có giám sát, các mô hình được huấn luyện dựa trên các ví dụ được gắn nhãn và đưa ra dự đoán dựa trên các ví dụ không được gắn nhãn.

So sánh ví dụ có gắn nhãn với ví dụ không gắn nhãn.

rò rỉ nhãn

Lỗi thiết kế mô hình trong đó tính năng là proxy cho nhãn. Ví dụ: hãy xem xét mô hình phân loại nhị phân để dự đoán liệu khách hàng tiềm năng có mua một sản phẩm cụ thể hay không. Giả sử một trong các đặc điểm của mô hình là một Boolean có tên SpokeToCustomerAgent. Giả sử thêm rằng nhân viên hỗ trợ khách hàng chỉ được chỉ định sau khi khách hàng tiềm năng thực sự mua sản phẩm. Trong quá trình huấn luyện, mô hình sẽ nhanh chóng học được mối liên kết giữa SpokeToCustomerAgent và nhãn.

lambda

#fundamentals

Đồng nghĩa với hệ số điều hoà.

Lambda là một thuật ngữ nạp chồng. Ở đây, chúng ta sẽ tập trung vào định nghĩa của thuật ngữ này trong quá trình điều chỉnh.

LaMDA (Mô hình ngôn ngữ cho ứng dụng đối thoại)

#language

Mô hình ngôn ngữ lớn dựa trên Transformer do Google phát triển, được huấn luyện trên một tập dữ liệu đối thoại lớn có thể tạo ra các câu trả lời trò chuyện thực tế.

LaMDA: công nghệ đàm thoại đột phá của chúng tôi cung cấp thông tin tổng quan.

địa danh

#image

Từ đồng nghĩa với điểm chính.

mô hình ngôn ngữ

#language

Mô hình ước tính xác suất một mã thông báo hoặc một chuỗi mã thông báo xuất hiện trong một chuỗi mã thông báo dài hơn.

mô hình ngôn ngữ lớn

#language

Ít nhất, mô hình ngôn ngữ có số lượng rất lớn tham số. Nói một cách không chính thức, mọi mô hình ngôn ngữ dựa trên Transformer, chẳng hạn như Gemini hoặc GPT.

không gian tiềm ẩn

#language

Đồng nghĩa với không gian nhúng.

lớp

#fundamentals

Một tập hợp nơron trong một mạng nơron. Sau đây là 3 loại lớp phổ biến:

Ví dụ: hình minh hoạ sau đây cho thấy một mạng nơron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra:

Một mạng nơron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra. Lớp đầu vào bao gồm hai đặc điểm. Lớp ẩn đầu tiên bao gồm 3 tế bào thần kinh và lớp ẩn thứ hai bao gồm 2 tế bào thần kinh. Lớp đầu ra bao gồm một nút duy nhất.

Trong TensorFlow, lớp cũng là các hàm Python lấy Tensor và các tuỳ chọn cấu hình làm dữ liệu đầu vào và tạo ra các tensor khác làm dữ liệu đầu ra.

Layers API (tf.layers)

#TensorFlow

API TensorFlow để tạo một mạng nơron sâu dưới dạng một thành phần của các lớp. API Lớp cho phép bạn tạo nhiều loại lớp, chẳng hạn như:

API Lớp tuân theo các quy ước API lớp Keras. Tức là, ngoài tiền tố khác, tất cả các hàm trong API Lớp đều có tên và chữ ký giống như các hàm tương ứng trong API lớp Keras.

#df

Mọi điểm cuối trong cây quyết định. Không giống như điều kiện, lá không thực hiện kiểm thử. Thay vào đó, một lá là một dự đoán có thể xảy ra. Lá cũng là nút đầu cuối của một đường dẫn suy luận.

Ví dụ: Cây quyết định sau đây chứa 3 lá:

Cây quyết định có hai điều kiện dẫn đến ba lá.

Công cụ giải thích học tập (LIT)

Một công cụ trực quan, tương tác để hiểu mô hình và trực quan hoá dữ liệu.

Bạn có thể sử dụng LIT nguồn mở để diễn giải các mô hình hoặc để trực quan hoá văn bản, hình ảnh và dữ liệu dạng bảng.

tốc độ học

#fundamentals

Một số dấu phẩy động cho thuật toán xuống dốc theo độ dốc biết mức độ điều chỉnh trọng số và độ lệch trên mỗi lặp lại. Ví dụ: tốc độ học là 0,3 sẽ điều chỉnh trọng số và độ lệch mạnh hơn gấp ba lần so với tốc độ học là 0,1.

Tốc độ học là một biến siêu tham số chính. Nếu bạn đặt tốc độ học quá thấp, quá trình huấn luyện sẽ mất quá nhiều thời gian. Nếu bạn đặt tốc độ học quá cao, phương pháp hạ gradient thường gặp sự cố khi đạt đến điểm hội tụ.

hồi quy bình phương tối thiểu

Mô hình hồi quy tuyến tính được huấn luyện bằng cách giảm thiểu L2 Loss.

Khoảng cách Levenshtein

#language
#metric

Chỉ số khoảng cách chỉnh sửa tính toán số lượng thao tác xoá, chèn và thay thế ít nhất cần thiết để thay đổi một từ thành một từ khác. Ví dụ: khoảng cách Levenshtein giữa các từ "heart" (trái tim) và "darts" (phi tiêu) là 3 vì 3 lần chỉnh sửa sau đây là ít thay đổi nhất để biến từ này thành từ kia:

  1. heart → deart (thay thế "h" bằng "d")
  2. deart → dart (xoá "e")
  3. dart → darts (chèn "s")

Xin lưu ý rằng trình tự trước đó không phải là lộ trình duy nhất của 3 lần chỉnh sửa.

tuyến tính

#fundamentals

Mối quan hệ giữa hai hoặc nhiều biến chỉ có thể được biểu thị thông qua phép cộng và phép nhân.

Biểu đồ của mối quan hệ tuyến tính là một đường thẳng.

Tương phản với phi tuyến tính.

mô hình tuyến tính

#fundamentals

Mô hình chỉ định một trọng số cho mỗi tính năng để đưa ra dự đoán. (Mô hình tuyến tính cũng kết hợp tính thiên vị.) Ngược lại, mối quan hệ giữa các đặc điểm với dự đoán trong mô hình sâu thường không tuyến tính.

Mô hình tuyến tính thường dễ huấn luyện hơn và dễ giải thích hơn so với mô hình sâu. Tuy nhiên, mô hình sâu có thể tìm hiểu các mối quan hệ phức tạp giữa các đặc điểm.

Hồi quy tuyến tínhhồi quy logistic là hai loại mô hình tuyến tính.

hồi quy tuyến tính

#fundamentals

Một loại mô hình học máy trong đó cả hai điều sau đều đúng:

  • Mô hình này là một mô hình tuyến tính.
  • Kết quả dự đoán là một giá trị dấu phẩy động. (Đây là phần hồi quy của hồi quy tuyến tính.)

So sánh hồi quy tuyến tính với hồi quy logistic. Ngoài ra, hãy so sánh hồi quy với phân loại.

LIT

Biểu tượng viết tắt của Công cụ diễn giải học tập (LIT), trước đây gọi là Công cụ diễn giải ngôn ngữ.

LLM

#language
#generativeAI

Từ viết tắt của mô hình ngôn ngữ lớn.

Đánh giá LLM (evals)

#language
#generativeAI

Một bộ chỉ số và điểm chuẩn để đánh giá hiệu suất của mô hình ngôn ngữ lớn (LLM). Nói chung, các hoạt động đánh giá LLM:

  • Giúp các nhà nghiên cứu xác định những khía cạnh cần cải thiện đối với LLM.
  • Hữu ích trong việc so sánh các LLM khác nhau và xác định LLM tốt nhất cho một tác vụ cụ thể.
  • Giúp đảm bảo rằng LLM được sử dụng một cách an toàn và hợp lý.

hồi quy logistic

#fundamentals

Một loại mô hình hồi quy dự đoán xác suất. Mô hình hồi quy logistic có các đặc điểm sau:

  • Nhãn này là danh mục. Thuật ngữ hồi quy logistic thường đề cập đến hồi quy logistic nhị phân, tức là một mô hình tính toán xác suất cho các nhãn có hai giá trị có thể xảy ra. Một biến thể ít phổ biến hơn là bước hồi quy logistic đa thức, tính toán xác suất cho các nhãn có nhiều hơn hai giá trị có thể có.
  • Hàm tổn thất trong quá trình huấn luyện là Log Loss (Tổn thất logarit). (Bạn có thể đặt song song nhiều đơn vị Mất mát theo nhật ký cho các nhãn có nhiều hơn hai giá trị có thể có.)
  • Mô hình này có cấu trúc tuyến tính, chứ không phải mạng nơron sâu. Tuy nhiên, phần còn lại của định nghĩa này cũng áp dụng cho mô hình sâu dự đoán xác suất cho nhãn phân loại.

Ví dụ: hãy xem xét một mô hình hồi quy logistic tính toán xác suất một email đầu vào là email rác hoặc không phải email rác. Trong quá trình suy luận, giả sử mô hình dự đoán là 0,72. Do đó, mô hình đang ước tính:

  • Có 72% khả năng email đó là thư rác.
  • Có 28% khả năng email đó không phải là thư rác.

Mô hình hồi quy logistic sử dụng cấu trúc hai bước sau:

  1. Mô hình tạo ra một dự đoán thô (y') bằng cách áp dụng hàm tuyến tính của các tính năng đầu vào.
  2. Mô hình sử dụng thông tin dự đoán thô đó làm dữ liệu đầu vào cho hàm sigmoid. Hàm này chuyển đổi thông tin dự đoán thô thành một giá trị từ 0 đến 1, không bao gồm 0 và 1.

Giống như mọi mô hình hồi quy khác, mô hình hồi quy logistic dự đoán một con số. Tuy nhiên, con số này thường trở thành một phần của mô hình phân loại nhị phân như sau:

  • Nếu số được dự đoán lớn hơn ngưỡng phân loại, thì mô hình phân loại nhị phân sẽ dự đoán lớp dương.
  • Nếu số được dự đoán ít hơn ngưỡng phân loại, thì mô hình phân loại nhị phân sẽ dự đoán lớp âm.

logits

Vectơ dự đoán thô (chưa chuẩn hoá) mà mô hình phân loại tạo ra, sau đó thường được truyền đến một hàm chuẩn hoá. Nếu mô hình đang giải quyết một vấn đề phân loại nhiều lớp, thì logarit thường trở thành dữ liệu đầu vào cho hàm softmax. Sau đó, hàm softmax sẽ tạo một vectơ xác suất (được chuẩn hoá) với một giá trị cho mỗi lớp có thể có.

Mất dữ liệu

#fundamentals

Hàm tổn thất được dùng trong bước hồi quy logistic nhị phân.

log-odds

#fundamentals

Logarit của tỷ lệ cược của một số sự kiện.

Bộ nhớ dài hạn ngắn hạn (LSTM)

#seq

Một loại tế bào trong mạng nơron tái sinh dùng để xử lý các trình tự dữ liệu trong các ứng dụng như nhận dạng chữ viết tay, dịch máy và chú thích hình ảnh. LSTM giải quyết vấn đề về độ dốc biến mất xảy ra khi huấn luyện RNN do các trình tự dữ liệu dài bằng cách duy trì nhật ký ở trạng thái bộ nhớ nội bộ dựa trên dữ liệu đầu vào và ngữ cảnh mới từ các ô trước đó trong RNN.

LoRA

#language
#generativeAI

Viết tắt của Khả năng thích ứng cấp thấp.

thua

#fundamentals

Trong quá trình huấn luyện một mô hình được giám sát, một chỉ số đo lường khoảng cách giữa dự đoán của mô hình với nhãn của mô hình đó.

Hàm tổn thất sẽ tính toán tổn thất.

trình tổng hợp tổn thất

Một loại thuật toán học máy giúp cải thiện hiệu suất của một mô hình bằng cách kết hợp dự đoán của nhiều mô hình và sử dụng các dự đoán đó để đưa ra một dự đoán duy nhất. Do đó, trình tổng hợp tổn thất có thể làm giảm độ biến thiên của các dự đoán và cải thiện độ chính xác của các dự đoán.

đường cong tổn thất

#fundamentals

Biểu đồ mất mát dưới dạng hàm của số lần lặp lại trong quá trình huấn luyện. Biểu đồ sau đây cho thấy một đường cong tổn hao điển hình:

Biểu đồ Descartes về tổn thất so với số lần lặp lại trong quá trình huấn luyện, cho thấy tổn thất giảm nhanh trong các lần lặp lại ban đầu, sau đó giảm dần, rồi có độ dốc bằng phẳng trong các lần lặp lại cuối cùng.

Đường cong tổn thất có thể giúp bạn xác định thời điểm mô hình của mình hội tụ hoặc quá thích ứng.

Đường cong tổn thất có thể lập biểu đồ tất cả các loại tổn thất sau:

Xem thêm đường cong tổng quát hoá.

hàm tổn thất

#fundamentals

Trong quá trình huấn luyện hoặc kiểm thử, một hàm toán học sẽ tính toán tổn thất trên một ví dụ. Hàm tổn thất trả về tổn thất thấp hơn cho các mô hình đưa ra dự đoán chính xác hơn so với các mô hình đưa ra dự đoán không chính xác.

Mục tiêu của quá trình huấn luyện thường là giảm thiểu tổn thất mà hàm tổn thất trả về.

Có nhiều loại hàm tổn thất khác nhau. Chọn hàm tổn thất phù hợp với loại mô hình bạn đang xây dựng. Ví dụ:

bề mặt tổn thất

Biểu đồ về(các) trọng số so với mức hao tổn. Đường dẫn xuống dốc nhằm tìm(các) trọng số mà bề mặt tổn thất ở mức tối thiểu cục bộ.

Khả năng thích ứng cấp thấp (LoRA)

#language
#generativeAI

Một kỹ thuật tiết kiệm tham số để điều chỉnh tinh vi, giúp "đóng băng" các trọng số được huấn luyện trước của mô hình (như vậy, các trọng số này không thể sửa đổi được nữa) rồi chèn một tập hợp nhỏ các trọng số có thể huấn luyện vào mô hình. Tập hợp các trọng số có thể huấn luyện này (còn gọi là "matrices cập nhật") nhỏ hơn đáng kể so với mô hình cơ sở và do đó, việc huấn luyện sẽ nhanh hơn nhiều.

LoRA mang lại các lợi ích sau:

  • Cải thiện chất lượng dự đoán của mô hình cho miền áp dụng tính năng tinh chỉnh.
  • Điều chỉnh chi tiết nhanh hơn so với các kỹ thuật yêu cầu điều chỉnh chi tiết tất cả tham số của mô hình.
  • Giảm chi phí tính toán của hoạt động xác suất bằng cách cho phép phân phát đồng thời nhiều mô hình chuyên biệt có cùng một mô hình cơ sở.

LSTM

#seq

Từ viết tắt của Bộ nhớ ngắn hạn dài.

M

học máy

#fundamentals

Một chương trình hoặc hệ thống huấn luyện một mô hình từ dữ liệu đầu vào. Mô hình đã huấn luyện có thể đưa ra dự đoán hữu ích từ dữ liệu mới (chưa từng thấy trước đây) được lấy từ cùng một phân phối như dữ liệu dùng để huấn luyện mô hình.

Học máy cũng đề cập đến lĩnh vực nghiên cứu liên quan đến các chương trình hoặc hệ thống này.

bản dịch máy

#generativeAI

Sử dụng phần mềm (thường là mô hình học máy) để chuyển đổi văn bản từ ngôn ngữ này sang ngôn ngữ khác, ví dụ: từ tiếng Anh sang tiếng Nhật.

lớp đa số

#fundamentals

Nhãn phổ biến hơn trong một tập dữ liệu bất cân đối về loại. Ví dụ: với một tập dữ liệu chứa 99% nhãn âm và 1% nhãn dương, nhãn âm là lớp chiếm đa số.

Tương phản với lớp thiểu số.

Quy trình quyết định Markov (MDP)

#rl

Biểu đồ thể hiện mô hình ra quyết định, trong đó các quyết định (hoặc hành động) được đưa ra để điều hướng một chuỗi trạng thái với giả định rằng thuộc tính Markov được giữ nguyên. Trong học tăng cường, các quá trình chuyển đổi này giữa các trạng thái sẽ trả về một phần thưởng dạng số.

Thuộc tính Markov

#rl

Một thuộc tính của một số môi trường nhất định, trong đó các quá trình chuyển đổi trạng thái được xác định hoàn toàn bằng thông tin ngầm ẩn trong trạng thái hiện tại và hành động của tác nhân.

mô hình ngôn ngữ bị che

#language

Mô hình ngôn ngữ dự đoán xác suất các mã thông báo đề xuất điền vào chỗ trống trong một trình tự. Ví dụ: mô hình ngôn ngữ bị che có thể tính toán xác suất cho(các) từ đề xuất để thay thế dấu gạch dưới trong câu sau:

____ trong chiếc mũ đã quay lại.

Tài liệu thường sử dụng chuỗi "MASK" thay vì gạch dưới. Ví dụ:

"MASK" trong chiếc mũ đã trở lại.

Hầu hết các mô hình ngôn ngữ ẩn hiện đại đều hai chiều.

matplotlib

Thư viện lập biểu đồ 2D Python nguồn mở. matplotlib giúp bạn trực quan hoá nhiều khía cạnh của học máy.

phân tích ma trận

#recsystems

Trong toán học, một cơ chế để tìm các ma trận có tích vô hướng xấp xỉ với ma trận mục tiêu.

Trong hệ thống đề xuất, ma trận mục tiêu thường chứa điểm xếp hạng của người dùng về các mục. Ví dụ: ma trận mục tiêu cho hệ thống đề xuất phim có thể có dạng như sau, trong đó các số nguyên dương là điểm xếp hạng của người dùng và 0 có nghĩa là người dùng không xếp hạng phim:

  Casablanca The Philadelphia Story Black Panther (Chiến binh Báo Đen) Wonder Woman Pulp Fiction
Người dùng 1 5 3 0,0 2 0,0
Người dùng 2 4 0,0 0,0 1.0 5
Người dùng 3 3 1.0 4 5 0,0

Hệ thống đề xuất phim nhằm mục đích dự đoán điểm xếp hạng của người dùng đối với các bộ phim chưa được phân loại. Ví dụ: Người dùng 1 có thích Black Panther không?

Một phương pháp cho hệ thống đề xuất là sử dụng phép phân tích ma trận để tạo ra hai ma trận sau:

Ví dụ: việc sử dụng phép phân tích ma trận trên 3 người dùng và 5 mặt hàng có thể tạo ra ma trận người dùng và ma trận mặt hàng sau:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Sản phẩm nội tích của ma trận người dùng và ma trận mặt hàng sẽ tạo ra một ma trận đề xuất không chỉ chứa điểm xếp hạng ban đầu của người dùng mà còn chứa cả dự đoán cho những bộ phim mà mỗi người dùng chưa xem. Ví dụ: hãy xem xét điểm xếp hạng của Người dùng 1 cho Casablanca là 5.0. Sản phẩm dấu chấm tương ứng với ô đó trong ma trận đề xuất hy vọng sẽ là khoảng 5, 0 và là:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Quan trọng hơn, Người dùng 1 có thích Black Panther không? Lấy tích vô hướng tương ứng với hàng đầu tiên và cột thứ ba sẽ cho ra điểm xếp hạng dự đoán là 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

Quá trình phân tích ma trận thường tạo ra một ma trận người dùng và một ma trận mặt hàng, cùng với nhau, chúng nhỏ gọn hơn đáng kể so với ma trận mục tiêu.

Sai số tuyệt đối trung bình (MAE)

Mức hao tổn trung bình trên mỗi ví dụ khi sử dụng mức hao tổn L1. Tính Sai số tuyệt đối trung bình như sau:

  1. Tính toán tổn thất L1 cho một lô.
  2. Chia tổn thất L1 cho số lượng ví dụ trong lô.

Ví dụ: hãy xem xét cách tính tổn thất L1 trên lô gồm 5 ví dụ sau:

Giá trị thực tế của ví dụ Giá trị dự đoán của mô hình Mức hao tổn (chênh lệch giữa giá trị thực tế và giá trị dự đoán)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = tổn thất L1

Do đó, tổn thất L1 là 8 và số lượng ví dụ là 5. Do đó, Sai số tuyệt đối trung bình là:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

So sánh Sai số tuyệt đối trung bình với Sai số bình phương trung bìnhSai số bình phương trung bình gốc.

độ chính xác trung bình tại k (mAP@k)

#language
#generativeAI

Giá trị trung bình thống kê của tất cả điểm số độ chính xác trung bình tại k trên một tập dữ liệu xác thực. Một cách sử dụng độ chính xác trung bình tại k là để đánh giá chất lượng của các đề xuất do hệ thống đề xuất tạo ra.

Mặc dù cụm từ "trung bình trung bình" nghe có vẻ thừa thãi, nhưng tên của chỉ số này là phù hợp. Xét cho cùng, chỉ số này tìm giá trị trung bình của nhiều giá trị độ chính xác trung bình tại k.

Sai số bình phương trung bình (MSE)

Mức hao tổn trung bình trên mỗi ví dụ khi sử dụng mức hao tổn L2. Tính Sai số bình phương trung bình như sau:

  1. Tính toán tổn thất L2 cho một lô.
  2. Chia tổn thất L2 cho số lượng ví dụ trong lô.

Ví dụ: hãy xem xét tổn thất trên lô gồm 5 ví dụ sau:

Giá trị thực tế Dự đoán của mô hình Thua Tổn thất bình phương
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = tổn thất L2

Do đó, Sai số bình phương trung bình là:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Sai số bình phương trung bình là một trình tối ưu hoá phổ biến trong quá trình huấn luyện, đặc biệt là đối với bước hồi quy tuyến tính.

So sánh Sai số bình phương trung bình với Sai số tuyệt đối trung bìnhSai số trung bình bình phương căn bậc hai.

TensorFlow Playground sử dụng Mean Squared Error (Sai số bình phương trung bình) để tính toán các giá trị tổn thất.

lưới

#TensorFlow
#GoogleCloud

Trong lập trình song song cho học máy, một thuật ngữ liên quan đến việc chỉ định dữ liệu và mô hình cho các khối TPU, đồng thời xác định cách các giá trị này sẽ được phân đoạn hoặc sao chép.

Lưới là một thuật ngữ nạp chồng có thể có nghĩa là một trong những nội dung sau:

  • Bố cục thực của các khối TPU.
  • Một cấu trúc logic trừu tượng để liên kết dữ liệu và mô hình với chip TPU.

Trong cả hai trường hợp, lưới được chỉ định là một hình dạng.

học siêu việt

#language

Một tập hợp con của công nghệ học máy giúp khám phá hoặc cải thiện thuật toán học. Hệ thống học siêu dữ liệu cũng có thể hướng đến việc huấn luyện một mô hình để nhanh chóng học một nhiệm vụ mới từ một lượng nhỏ dữ liệu hoặc từ kinh nghiệm có được trong các nhiệm vụ trước đó. Các thuật toán học siêu dữ liệu thường cố gắng đạt được những mục tiêu sau:

  • Cải thiện hoặc tìm hiểu các tính năng được thiết kế thủ công (chẳng hạn như trình khởi chạy hoặc trình tối ưu hoá).
  • Tiết kiệm dữ liệu và hiệu quả tính toán hơn.
  • Cải thiện khả năng khái quát.

Học siêu dữ liệu có liên quan đến học từ một vài dữ liệu.

chỉ số

#TensorFlow

Một số liệu thống kê mà bạn quan tâm.

Mục tiêu là một chỉ số mà hệ thống học máy cố gắng tối ưu hoá.

API chỉ số (tf.metrics)

API TensorFlow để đánh giá mô hình. Ví dụ: tf.metrics.accuracy xác định tần suất dự đoán của mô hình khớp với nhãn.

lô nhỏ

#fundamentals

Một tập hợp con nhỏ được chọn ngẫu nhiên của một được xử lý trong một lượt lặp. Kích thước lô của một lô nhỏ thường dao động từ 10 đến 1.000 ví dụ.

Ví dụ: giả sử toàn bộ tập dữ liệu huấn luyện (một lô đầy đủ) bao gồm 1.000 ví dụ. Giả sử thêm rằng bạn đặt kích thước lô của mỗi lô nhỏ thành 20. Do đó, mỗi lần lặp lại sẽ xác định tổn thất trên 20 ví dụ ngẫu nhiên trong số 1.000 ví dụ,sau đó điều chỉnh trọng sốđộ lệch cho phù hợp.

Việc tính toán tổn thất trên một lô nhỏ sẽ hiệu quả hơn nhiều so với tổn thất trên tất cả các ví dụ trong lô đầy đủ.

phương pháp giảm độ dốc ngẫu nhiên trên gói nhỏ

Thuật toán giảm độ dốc sử dụng các lô nhỏ. Nói cách khác, phương pháp giảm độ dốc ngẫu nhiên trên gói nhỏ ước tính độ dốc dựa trên một tập con nhỏ của dữ liệu huấn luyện. Phương pháp giảm độ dốc ngẫu nhiên thông thường sử dụng một lô nhỏ có kích thước 1.

tổn thất minimax

Hàm tổn thất cho mạng đối kháng tạo sinh, dựa trên entropy chéo giữa phân phối dữ liệu được tạo và dữ liệu thực.

Mất mát Minimax được sử dụng trong bài báo đầu tiên để mô tả mạng đối kháng tạo sinh.

lớp thiểu số

#fundamentals

Nhãn ít phổ biến hơn trong một tập dữ liệu mất cân bằng lớp. Ví dụ: với một tập dữ liệu chứa 99% nhãn âm và 1% nhãn dương, nhãn dương là lớp thiểu số.

Tương phản với lớp đa số.

sự kết hợp của các chuyên gia

#language
#generativeAI

Một lược đồ để tăng hiệu quả của mạng nơron bằng cách chỉ sử dụng một tập hợp con tham số (được gọi là chuyên gia) để xử lý một mã thông báo đầu vào nhất định hoặc ví dụ. Mạng lọc sẽ định tuyến từng mã thông báo đầu vào hoặc ví dụ đến(các) chuyên gia thích hợp.

Để biết thông tin chi tiết, hãy xem một trong các bài viết sau:

ML (Mali)

Từ viết tắt của công nghệ học máy.

MMIT

#language
#image
#generativeAI

Viết tắt của được điều chỉnh theo hướng dẫn đa phương thức.

MNIST

#image

Một tập dữ liệu thuộc phạm vi công cộng do LeCun, Cortes và Burges biên soạn, chứa 60.000 hình ảnh, mỗi hình ảnh cho thấy cách một người viết một chữ số cụ thể từ 0 đến 9 theo cách thủ công. Mỗi hình ảnh được lưu trữ dưới dạng một mảng 28x28 gồm các số nguyên, trong đó mỗi số nguyên là một giá trị thang màu xám từ 0 đến 255.

MNIST là một tập dữ liệu chuẩn hoá cho học máy, thường được dùng để kiểm thử các phương pháp học máy mới. Để biết thông tin chi tiết, hãy xem bài viết Cơ sở dữ liệu MNIST về chữ số viết tay.

phương thức

#language

Danh mục dữ liệu cấp cao. Ví dụ: số, văn bản, hình ảnh, video và âm thanh là 5 phương thức khác nhau.

kiểu máy

#fundamentals

Nhìn chung, bất kỳ cấu trúc toán học nào xử lý dữ liệu đầu vào và trả về đầu ra. Nói cách khác, mô hình là tập hợp các tham số và cấu trúc cần thiết để hệ thống đưa ra dự đoán. Trong công nghệ học máy có giám sát, mô hình sẽ lấy ví dụ làm dữ liệu đầu vào và suy luận dự đoán làm dữ liệu đầu ra. Trong học máy có giám sát, các mô hình có phần khác biệt. Ví dụ:

  • Mô hình hồi quy tuyến tính bao gồm một tập hợp trọng số và một sai số.
  • Mô hình mạng nơron bao gồm:
    • Một tập hợp các lớp ẩn, mỗi lớp chứa một hoặc nhiều neuron.
    • Trọng số và độ lệch liên kết với từng tế bào thần kinh.
  • Mô hình cây quyết định bao gồm:
    • Hình dạng của cây; tức là mẫu mà các điều kiện và lá được kết nối.
    • Các điều kiện và lá.

Bạn có thể lưu, khôi phục hoặc tạo bản sao của một mô hình.

Công nghệ học máy không giám sát cũng tạo ra các mô hình, thường là một hàm có thể liên kết một ví dụ đầu vào với cụm phù hợp nhất.

dung lượng mô hình

Mức độ phức tạp của các vấn đề mà mô hình có thể học được. Mô hình càng có thể học được các vấn đề phức tạp thì mô hình đó càng có năng lực cao. Dung lượng của mô hình thường tăng theo số lượng tham số mô hình. Để biết định nghĩa chính thức về dung lượng của bộ phân loại, hãy xem phương diện VC.

mô hình xếp chồng

#generativeAI

Một hệ thống chọn mô hình lý tưởng cho một truy vấn suy luận cụ thể.

Hãy tưởng tượng một nhóm mô hình, từ rất lớn (có nhiều thông số) đến nhỏ hơn nhiều (có ít thông số hơn). Các mô hình rất lớn tiêu tốn nhiều tài nguyên tính toán hơn tại thời điểm dự đoán so với các mô hình nhỏ hơn. Tuy nhiên, các mô hình rất lớn thường có thể suy luận các yêu cầu phức tạp hơn so với các mô hình nhỏ hơn. Mô hình xếp tầng xác định độ phức tạp của truy vấn suy luận, sau đó chọn mô hình thích hợp để thực hiện suy luận. Động lực chính của việc xếp tầng mô hình là giảm chi phí suy luận bằng cách thường xuyên chọn các mô hình nhỏ hơn và chỉ chọn mô hình lớn hơn cho các truy vấn phức tạp hơn.

Hãy tưởng tượng một mô hình nhỏ chạy trên điện thoại và phiên bản lớn hơn của mô hình đó chạy trên máy chủ từ xa. Việc phân cấp mô hình hiệu quả sẽ làm giảm chi phí và độ trễ bằng cách cho phép mô hình nhỏ hơn xử lý các yêu cầu đơn giản và chỉ gọi mô hình từ xa để xử lý các yêu cầu phức tạp.

Xem thêm trình định tuyến mô hình.

tính song song của mô hình

#language

Một cách mở rộng quy mô huấn luyện hoặc suy luận, trong đó đặt các phần khác nhau của một mô hình trên các thiết bị khác nhau. Tính năng song song của mô hình cho phép các mô hình quá lớn để vừa với một thiết bị.

Để triển khai tính năng song song mô hình, hệ thống thường thực hiện những việc sau:

  1. Phân mảnh (chia) mô hình thành các phần nhỏ hơn.
  2. Phân phối quá trình huấn luyện các phần nhỏ đó trên nhiều bộ xử lý. Mỗi bộ xử lý sẽ huấn luyện phần riêng của mô hình.
  3. Kết hợp các kết quả để tạo một mô hình duy nhất.

Tính song song của mô hình làm chậm quá trình huấn luyện.

Xem thêm về tính song song dữ liệu.

bộ định tuyến mô hình

#generativeAI

Thuật toán xác định mô hình lý tưởng để xác định trong mô hình xếp tầng. Trình định tuyến mô hình thường là một mô hình học máy, mô hình này dần dần học cách chọn mô hình tốt nhất cho một dữ liệu đầu vào nhất định. Tuy nhiên, đôi khi bộ định tuyến mô hình có thể là một thuật toán không phải học máy, đơn giản hơn.

huấn luyện mô hình

Quá trình xác định mô hình tốt nhất.

MOE

#language
#image
#generativeAI

Viết tắt của nhóm chuyên gia.

Đà phát triển

Một thuật toán hạ gradient phức tạp, trong đó một bước học không chỉ phụ thuộc vào đạo hàm trong bước hiện tại, mà còn phụ thuộc vào đạo hàm của(các) bước ngay trước đó. Động lượng liên quan đến việc tính toán trung bình động có trọng số mũ của các độ dốc theo thời gian, tương tự như động lượng trong vật lý. Đôi khi, động lượng ngăn việc học bị mắc kẹt trong giá trị cực tiểu cục bộ.

MT

#generativeAI

Từ viết tắt của bản dịch máy.

phân loại nhiều lớp

#fundamentals

Trong phương pháp học có giám sát, một vấn đề phân loại trong đó tập dữ liệu chứa hơn hai lớp nhãn. Ví dụ: nhãn trong tập dữ liệu Iris phải là một trong ba lớp sau:

  • Iris setosa
  • Iris virginica
  • Iris versicolor

Mô hình được huấn luyện trên tập dữ liệu Iris để dự đoán loại Iris trên các ví dụ mới đang thực hiện việc phân loại nhiều lớp.

Ngược lại, các vấn đề phân loại phân biệt chính xác giữa hai lớp là mô hình phân loại nhị phân. Ví dụ: mô hình email dự đoán thư rác hoặc không phải thư rác là mô hình phân loại nhị phân.

Trong các vấn đề về cụm, thuật toán phân loại nhiều lớp đề cập đến nhiều cụm hơn.

hồi quy logistic nhiều lớp

Sử dụng phương pháp hồi quy logistic trong các vấn đề phân loại nhiều lớp.

tự chú ý nhiều đầu

#language

Một phần mở rộng của tự chú ý áp dụng cơ chế tự chú ý nhiều lần cho mỗi vị trí trong trình tự đầu vào.

Transformer đã giới thiệu tính năng tự chú ý nhiều đầu.

được điều chỉnh hướng dẫn đa phương thức

#language

Mô hình được điều chỉnh theo hướng dẫn có thể xử lý dữ liệu đầu vào ngoài văn bản, chẳng hạn như hình ảnh, video và âm thanh.

mô hình đa phương thức

#language

Mô hình có đầu vào và/hoặc đầu ra bao gồm nhiều chế độ. Ví dụ: hãy xem xét một mô hình lấy cả hình ảnh và chú thích văn bản (hai phương thức) làm tính năng và xuất ra một điểm số cho biết mức độ phù hợp của chú thích văn bản đối với hình ảnh. Do đó, dữ liệu đầu vào của mô hình này là đa phương thức và dữ liệu đầu ra là đơn phương thức.

phân loại đa thức

Đồng nghĩa với phân loại đa lớp.

hồi quy đa thức

Từ đồng nghĩa với hồi quy logistic đa lớp.

đa nhiệm

Một kỹ thuật học máy trong đó một mô hình duy nhất được huấn luyện để thực hiện nhiều tác vụ.

Mô hình đa nhiệm được tạo bằng cách huấn luyện trên dữ liệu phù hợp với từng nhiệm vụ. Điều này cho phép mô hình học cách chia sẻ thông tin giữa các nhiệm vụ, giúp mô hình học hiệu quả hơn.

Mô hình được huấn luyện cho nhiều tác vụ thường có khả năng tổng quát hoá tốt hơn và có thể xử lý hiệu quả hơn nhiều loại dữ liệu.

Không

Bẫy NaN

Khi một số trong mô hình của bạn trở thành NaN trong quá trình huấn luyện, điều này khiến nhiều hoặc tất cả các số khác trong mô hình của bạn cuối cùng trở thành NaN.

NaN là từ viết tắt của Không phải số N.

xử lý ngôn ngữ tự nhiên

#language
Lĩnh vực dạy máy tính xử lý những gì người dùng nói hoặc nhập bằng các quy tắc ngôn ngữ. Hầu hết các phương pháp xử lý ngôn ngữ tự nhiên hiện đại đều dựa vào học máy.

hiểu ngôn ngữ tự nhiên

#language

Một tập hợp con của công nghệ xử lý ngôn ngữ tự nhiên xác định ý định của một câu nói hoặc nội dung được nhập. Khả năng hiểu ngôn ngữ tự nhiên có thể vượt ra ngoài việc xử lý ngôn ngữ tự nhiên để xem xét các khía cạnh phức tạp của ngôn ngữ như ngữ cảnh, lời châm biếm và cảm xúc.

lớp âm

#fundamentals

Trong phân loại nhị phân, một lớp được gọi là dương và lớp còn lại được gọi là âm. Lớp dương là đối tượng hoặc sự kiện mà mô hình đang kiểm thử và lớp âm là khả năng khác. Ví dụ:

  • Lớp âm tính trong một bài kiểm tra y tế có thể là "không phải khối u".
  • Lớp âm trong một bộ phân loại email có thể là "không phải nội dung rác".

Tương phản với lớp dương.

lấy mẫu âm

Đồng nghĩa với lấy mẫu ứng viên.

Tìm kiếm cấu trúc mạng nơron (NAS)

Một kỹ thuật tự động thiết kế cấu trúc của mạng nơron. Các thuật toán NAS có thể giảm thời gian và tài nguyên cần thiết để huấn luyện mạng nơron.

NAS thường sử dụng:

  • Không gian tìm kiếm là một tập hợp các cấu trúc có thể có.
  • Hàm phù hợp là một thước đo mức độ hiệu quả của một cấu trúc cụ thể trong một tác vụ nhất định.

Các thuật toán NAS thường bắt đầu bằng một tập hợp nhỏ các cấu trúc có thể có và dần mở rộng không gian tìm kiếm khi thuật toán tìm hiểu thêm về những cấu trúc nào hiệu quả. Hàm thích ứng thường dựa trên hiệu suất của cấu trúc trên một tập huấn luyện và thuật toán thường được huấn luyện bằng kỹ thuật học tăng cường.

Các thuật toán NAS đã được chứng minh là hiệu quả trong việc tìm kiếm các cấu trúc có hiệu suất cao cho nhiều tác vụ, bao gồm cả phân loại hình ảnh, phân loại văn bản và dịch máy.

mạng nơron

#fundamentals

Một mô hình chứa ít nhất một lớp ẩn. Mạng nơron sâu là một loại mạng nơron chứa nhiều lớp ẩn. Ví dụ: Sơ đồ sau đây cho thấy một mạng nơron sâu chứa hai lớp ẩn.

Một mạng nơron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra.

Mỗi tế bào thần kinh trong mạng nơron kết nối với tất cả các nút trong lớp tiếp theo. Ví dụ: trong sơ đồ trước, hãy lưu ý rằng mỗi trong số 3 tế bào thần kinh trong lớp ẩn đầu tiên kết nối riêng biệt với cả hai tế bào thần kinh trong lớp ẩn thứ hai.

Đôi khi, mạng nơron được triển khai trên máy tính được gọi là mạng nơron nhân tạo để phân biệt với mạng nơron có trong não và các hệ thống thần kinh khác.

Một số mạng nơron có thể mô phỏng các mối quan hệ phi tuyến tính cực kỳ phức tạp giữa các đặc điểm và nhãn.

Xem thêm mạng nơron tích chậpmạng nơron tái sinh.

nơron

#fundamentals

Trong học máy, một đơn vị riêng biệt trong lớp ẩn của mạng nơron. Mỗi tế bào thần kinh thực hiện thao tác hai bước sau:

  1. Tính tổng trọng số của các giá trị đầu vào nhân với trọng số tương ứng.
  2. Truyền tổng trọng số làm dữ liệu đầu vào cho một hàm kích hoạt.

Một tế bào thần kinh trong lớp ẩn đầu tiên chấp nhận dữ liệu đầu vào từ các giá trị đặc điểm trong lớp đầu vào. Một tế bào thần kinh trong bất kỳ lớp ẩn nào ngoài lớp đầu tiên sẽ chấp nhận dữ liệu đầu vào từ các tế bào thần kinh trong lớp ẩn trước đó. Ví dụ: một tế bào thần kinh trong lớp ẩn thứ hai chấp nhận dữ liệu đầu vào từ các tế bào thần kinh trong lớp ẩn đầu tiên.

Hình minh hoạ sau đây nêu bật hai tế bào thần kinh và đầu vào của chúng.

Một mạng nơron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra. Hai tế bào thần kinh được làm nổi bật: một tế bào trong lớp ẩn đầu tiên và một tế bào trong lớp ẩn thứ hai. Tế bào thần kinh được làm nổi bật trong lớp ẩn đầu tiên nhận dữ liệu đầu vào từ cả hai đặc điểm trong lớp đầu vào. Neuron được làm nổi bật trong lớp ẩn thứ hai nhận dữ liệu đầu vào từ mỗi trong số ba neuron trong lớp ẩn đầu tiên.

Một nơron trong mạng nơron bắt chước hành vi của các nơron trong não và các phần khác của hệ thần kinh.

N-gram

#seq
#language

Một chuỗi có thứ tự gồm N từ. Ví dụ: truly madly là một từ 2 âm tiết. Vì thứ tự có liên quan, madly truly là một từ 2 gram khác với truly madly.

Không (Các) tên của loại N-gram này Ví dụ
2 bigram hoặc 2-gram đi, đến, ăn trưa, ăn tối
3 ba ký tự hoặc 3 ký tự ate too much, three blind mice, the bell tolls
4 4-gram walk in the park, dust in the wind, the boy ate lentils

Nhiều mô hình hiểu ngôn ngữ tự nhiên dựa vào N-gram để dự đoán từ tiếp theo mà người dùng sẽ nhập hoặc nói. Ví dụ: giả sử người dùng đã nhập three blind (3 người mù). Mô hình NLU dựa trên trigram có thể dự đoán rằng người dùng sẽ nhập chuột tiếp theo.

So sánh N-gram với túi từ, là các tập hợp từ không theo thứ tự.

xử lý ngôn ngữ tự nhiên (NLP)

#language

Từ viết tắt của xử lý ngôn ngữ tự nhiên.

hiểu ngôn ngữ tự nhiên (NLU)

#language

Từ viết tắt của hiểu ngôn ngữ tự nhiên.

nút (cây quyết định)

#df

Trong cây quyết định, mọi điều kiện hoặc .

Cây quyết định có hai điều kiện và ba lá.

nút (mạng nơron)

#fundamentals

Một neuron trong lớp ẩn.

nút (biểu đồ TensorFlow)

#TensorFlow

Một phép toán trong biểu đồ TensorFlow.

độ nhiễu

Nói chung, bất cứ điều gì làm lu mờ tín hiệu trong một tập dữ liệu. Có nhiều cách để đưa nhiễu vào dữ liệu. Ví dụ:

  • Người đánh giá mắc lỗi khi gắn nhãn.
  • Con người và thiết bị ghi sai hoặc bỏ qua các giá trị đặc điểm.

điều kiện phi nhị phân

#df

Một điều kiện chứa nhiều hơn hai kết quả có thể xảy ra. Ví dụ: điều kiện không nhị phân sau đây chứa ba kết quả có thể xảy ra:

Một điều kiện (number_of_legs = ?) dẫn đến 3 kết quả có thể xảy ra. Một kết quả (number_of_legs = 8) dẫn đến một lá có tên là spider (mối). Kết quả thứ hai (number_of_legs = 4) dẫn đến một lá có tên là dog. Kết quả thứ ba (number_of_legs = 2) dẫn đến một lá có tên penguin.

phi tuyến tính

#fundamentals

Mối quan hệ giữa hai hoặc nhiều biến không thể được biểu thị chỉ thông qua phép cộng và phép nhân. Mối quan hệ tuyến tính có thể được biểu thị dưới dạng một đường thẳng; mối quan hệ phi tuyến tính không thể được biểu thị dưới dạng một đường thẳng. Ví dụ: hãy xem xét hai mô hình, mỗi mô hình liên kết một tính năng với một nhãn. Mô hình ở bên trái là tuyến tính và mô hình ở bên phải là phi tuyến tính:

Hai biểu đồ. Một đồ thị là một đường thẳng, vì vậy đây là mối quan hệ tuyến tính.
          Biểu đồ còn lại là một đường cong, vì vậy đây là mối quan hệ phi tuyến tính.

thiên vị do thiếu hồi âm

#fairness

Xem phần thiên vị do cách chọn mẫu.

không tĩnh

#fundamentals

Một đặc điểm có giá trị thay đổi trên một hoặc nhiều phương diện, thường là thời gian. Ví dụ: hãy xem xét các ví dụ sau về tính không ổn định:

  • Số lượng bộ đồ bơi được bán tại một cửa hàng cụ thể thay đổi theo mùa.
  • Lượng một loại trái cây cụ thể được thu hoạch ở một khu vực cụ thể là 0 trong phần lớn thời gian trong năm nhưng lại lớn trong một khoảng thời gian ngắn.
  • Do biến đổi khí hậu, nhiệt độ trung bình hằng năm đang thay đổi.

Tương phản với tính chất không đổi.

không có câu trả lời đúng (NORA)

#language
#generativeAI

Một lời nhắc có nhiều câu trả lời phù hợp. Ví dụ: câu lệnh sau đây không có câu trả lời đúng:

Kể cho tôi nghe một chuyện cười về voi.

Việc đánh giá câu lệnh không có câu trả lời đúng có thể là một thách thức.

NORA

#language
#generativeAI

Viết tắt của không có câu trả lời đúng.

chuẩn hoá

#fundamentals

Nói chung, quá trình chuyển đổi phạm vi giá trị thực tế của một biến thành phạm vi giá trị chuẩn, chẳng hạn như:

  • -1 đến +1
  • 0 đến 1
  • Điểm Z (khoảng từ -3 đến +3)

Ví dụ: giả sử phạm vi giá trị thực tế của một đặc điểm nhất định là từ 800 đến 2.400. Trong quá trình kỹ thuật xử lý đặc điểm, bạn có thể chuẩn hoá các giá trị thực tế xuống một phạm vi tiêu chuẩn, chẳng hạn như -1 đến +1.

Việc chuẩn hoá là một nhiệm vụ phổ biến trong quá trình xây dựng đặc điểm. Các mô hình thường huấn luyện nhanh hơn (và đưa ra kết quả dự đoán tốt hơn) khi mọi đặc điểm số trong vectơ đặc điểm có phạm vi gần như giống nhau.

Hãy xem phần Làm việc với mô-đun dữ liệu số của khoá học cấp tốc về học máy để biết thêm thông tin chi tiết. Ngoài ra, hãy xem phần Chuẩn hoá điểm Z.

phát hiện tính mới

Quy trình xác định xem một ví dụ mới (mới) có đến từ cùng một quá trình phân phối với tập huấn luyện hay không. Nói cách khác, sau khi đào tạo trên tập huấn luyện, tính năng phát hiện tính mới sẽ xác định xem một ví dụ mới (trong quá trình suy luận hoặc trong quá trình đào tạo bổ sung) có phải là một điểm ngoại lai hay không.

Tương phản với công nghệ phát hiện giá trị ngoại lai.

dữ liệu dạng số

#fundamentals

Tính năng được biểu thị dưới dạng số nguyên hoặc số thực. Ví dụ: mô hình định giá nhà có thể thể hiện kích thước của một ngôi nhà (tính bằng feet vuông hoặc mét vuông) dưới dạng dữ liệu số. Việc biểu thị một đặc điểm dưới dạng dữ liệu số cho biết rằng các giá trị của đặc điểm đó có mối quan hệ toán học với nhãn. Tức là số mét vuông trong một ngôi nhà có thể có một số mối quan hệ toán học với giá trị của ngôi nhà đó.

Không phải tất cả dữ liệu số nguyên đều phải được biểu thị dưới dạng dữ liệu số. Ví dụ: mã bưu chính ở một số nơi trên thế giới là số nguyên; tuy nhiên, mã bưu chính số nguyên không được biểu thị dưới dạng dữ liệu số trong mô hình. Đó là do mã bưu chính 20000 không mạnh gấp đôi (hoặc một nửa) so với mã bưu chính 10000. Hơn nữa, mặc dù các mã bưu chính khác nhau mối tương quan với các giá trị bất động sản khác nhau, nhưng chúng ta không thể giả định rằng giá trị bất động sản tại mã bưu chính 20000 có giá trị gấp đôi giá trị bất động sản tại mã bưu chính 10000. Thay vào đó, bạn nên biểu thị mã bưu chính dưới dạng dữ liệu dạng danh mục.

Đôi khi, các đặc điểm số được gọi là các đặc điểm liên tục.

NumPy

Thư viện toán học nguồn mở cung cấp các phép toán hiệu quả trên mảng trong Python. pandas được xây dựng trên NumPy.

O

mục tiêu

Một chỉ số mà thuật toán của bạn đang cố gắng tối ưu hoá.

hàm mục tiêu

Công thức toán học hoặc chỉ số mà mô hình hướng đến tối ưu hoá. Ví dụ: hàm mục tiêu cho bước hồi quy tuyến tính thường là Mất mát bình phương trung bình. Do đó, khi huấn luyện mô hình hồi quy tuyến tính, mục tiêu của quá trình huấn luyện là giảm thiểu Mức hao tổn bình phương trung bình.

Trong một số trường hợp, mục tiêu là tối đa hoá hàm mục tiêu. Ví dụ: nếu hàm mục tiêu là độ chính xác, thì mục tiêu là tối đa hoá độ chính xác.

Xem thêm mất.

điều kiện xiên

#df

Trong cây quyết định, một điều kiện liên quan đến nhiều tính năng. Ví dụ: nếu chiều cao và chiều rộng đều là các đặc điểm, thì sau đây là một điều kiện xiên:

  height > width

Tương phản với điều kiện căn chỉnh theo trục.

ngoại tuyến

#fundamentals

Từ đồng nghĩa với tĩnh.

suy luận ngoại tuyến

#fundamentals

Quy trình một mô hình tạo một lô dự đoán rồi lưu các dự đoán đó vào bộ nhớ đệm. Sau đó, ứng dụng có thể truy cập vào dự đoán được suy luận từ bộ nhớ đệm thay vì chạy lại mô hình.

Ví dụ: hãy xem xét một mô hình tạo thông tin dự báo thời tiết tại địa phương (dự đoán) 4 giờ một lần. Sau mỗi lần chạy mô hình, hệ thống sẽ lưu tất cả thông tin dự báo thời tiết tại địa phương vào bộ nhớ đệm. Ứng dụng thời tiết truy xuất thông tin dự báo từ bộ nhớ đệm.

Suy luận ngoại tuyến còn được gọi là suy luận tĩnh.

Tương phản với nhận định trực tuyến.

mã hoá one-hot

#fundamentals

Biểu thị dữ liệu phân loại dưới dạng một vectơ trong đó:

  • Một phần tử được đặt thành 1.
  • Tất cả các phần tử khác được đặt thành 0.

Mã hoá một nóng thường được dùng để biểu thị các chuỗi hoặc giá trị nhận dạng có một tập hợp các giá trị có thể có hữu hạn. Ví dụ: giả sử một tính năng phân loại nhất định có tên Scandinavia có 5 giá trị có thể có:

  • "Đan Mạch"
  • "Thụy Điển"
  • "Na Uy"
  • "Phần Lan"
  • "Iceland"

Mã hoá một nóng có thể biểu thị từng giá trị trong số 5 giá trị như sau:

country Vectơ
"Đan Mạch" 1 0 0 0 0
"Thụy Điển" 0 1 0 0 0
"Na Uy" 0 0 1 0 0
"Phần Lan" 0 0 0 1 0
"Iceland" 0 0 0 0 1

Nhờ mã hoá một nóng, mô hình có thể học các mối liên kết khác nhau dựa trên từng quốc gia trong số 5 quốc gia.

Việc biểu thị một đặc điểm dưới dạng dữ liệu số là một giải pháp thay thế cho phương thức mã hoá one-hot. Rất tiếc, việc biểu thị các quốc gia Bắc Âu theo số không phải là lựa chọn hay. Ví dụ: hãy xem xét cách biểu diễn số sau:

  • "Đan Mạch" là 0
  • "Thụy Điển" là 1
  • "Na Uy" là 2
  • "Phần Lan" là 3
  • "Iceland" là 4

Với phương thức mã hoá số, mô hình sẽ diễn giải các số thô theo toán học và cố gắng huấn luyện dựa trên các số đó. Tuy nhiên, Iceland không thực sự có số lượng gấp đôi (hoặc một nửa) so với Na Uy, vì vậy, mô hình này sẽ đưa ra một số kết luận kỳ lạ.

học một lần

Một phương pháp học máy, thường được dùng để phân loại đối tượng, được thiết kế để học các thuật toán phân loại hiệu quả từ một ví dụ huấn luyện duy nhất.

Xem thêm về học từ một vài dữ liệuhọc không có dữ liệu.

câu lệnh một lần

#language
#generativeAI

Một câu lệnh chứa một ví dụ minh hoạ cách mô hình ngôn ngữ lớn phản hồi. Ví dụ: câu lệnh sau đây chứa một ví dụ cho thấy cách một mô hình ngôn ngữ lớn trả lời truy vấn.

Các phần của một câu lệnh Ghi chú
Đơn vị tiền tệ chính thức của quốc gia đã chỉ định là gì? Câu hỏi mà bạn muốn LLM trả lời.
Pháp: EUR Một ví dụ.
Ấn Độ: Cụm từ tìm kiếm thực tế.

So sánh và đối chiếu lệnh nhắc một lần với các thuật ngữ sau:

một-với-tất-cả

#fundamentals

Với một vấn đề phân loại có N lớp, giải pháp bao gồm N trình phân loại nhị phân riêng biệt – một trình phân loại nhị phân cho mỗi kết quả có thể xảy ra. Ví dụ: với một mô hình phân loại các ví dụ là động vật, rau hoặc khoáng sản, giải pháp một-đối-tất-cả sẽ cung cấp ba bộ phân loại nhị phân riêng biệt sau:

  • động vật so với không phải động vật
  • rau so với không phải rau
  • khoáng sản so với không phải khoáng sản

trực tuyến

#fundamentals

Từ đồng nghĩa với động.

suy luận trực tuyến

#fundamentals

Tạo dự đoán theo yêu cầu. Ví dụ: giả sử một ứng dụng chuyển dữ liệu đầu vào đến một mô hình và đưa ra yêu cầu dự đoán. Hệ thống sử dụng suy luận trực tuyến sẽ phản hồi yêu cầu bằng cách chạy mô hình (và trả về kết quả dự đoán cho ứng dụng).

Tương phản với nhận định ngoại tuyến.

toán tử (op)

#TensorFlow

Trong TensorFlow, mọi quy trình tạo, thao tác hoặc huỷ bỏ Tensor. Ví dụ: phép nhân ma trận là một phép toán lấy hai Tensor làm đầu vào và tạo ra một Tensor làm đầu ra.

Thuế bổ sung

Thư viện tối ưu hoá và xử lý chuyển màu cho JAX. Optax hỗ trợ nghiên cứu bằng cách cung cấp các khối xây dựng có thể được kết hợp lại theo cách tuỳ chỉnh để tối ưu hoá các mô hình tham số như mạng nơron sâu. Các mục tiêu khác bao gồm:

  • Cung cấp cách triển khai các thành phần cốt lõi dễ đọc, được kiểm thử kỹ lưỡng và hiệu quả.
  • Cải thiện năng suất bằng cách cho phép kết hợp các thành phần cấp thấp vào trình tối ưu hoá tuỳ chỉnh (hoặc các thành phần xử lý chuyển màu khác).
  • Đẩy nhanh việc áp dụng các ý tưởng mới bằng cách giúp mọi người dễ dàng đóng góp.

trình tối ưu hoá

Cách triển khai cụ thể của thuật toán giảm độ dốc. Các trình tối ưu hoá phổ biến bao gồm:

  • AdaGrad, viết tắt của ADAptive GRADient descent (hướng xuống theo GRADIENT thích ứng).
  • Adam, viết tắt của ADAptive with Momentum (Thích ứng với động lực).

thiên vị khác nhóm

#fairness

Xu hướng xem các thành viên ngoài nhóm giống nhau hơn so với các thành viên trong nhóm khi so sánh thái độ, giá trị, đặc điểm tính cách và các đặc điểm khác. Nhóm trong đề cập đến những người mà bạn thường xuyên tương tác; nhóm ngoài đề cập đến những người mà bạn không thường xuyên tương tác. Nếu bạn tạo một tập dữ liệu bằng cách yêu cầu mọi người cung cấp các thuộc tính về nhóm bên ngoài, thì các thuộc tính đó có thể ít tinh tế và mang tính khuôn mẫu hơn so với các thuộc tính mà người tham gia liệt kê cho những người trong nhóm của họ.

Ví dụ: Người Lilliput có thể mô tả nhà của người Lilliput khác một cách chi tiết, nêu ra những điểm khác biệt nhỏ về phong cách kiến trúc, cửa sổ, cửa ra vào và kích thước. Tuy nhiên, những người Lilliputian đó có thể chỉ tuyên bố rằng tất cả người Brobdingnag đều sống trong những ngôi nhà giống hệt nhau.

Thiên vị khác nhóm là một dạng thiên vị quy cho nhóm.

Xem thêm về thiên vị cùng nhóm.

phát hiện giá trị ngoại lai

Quá trình xác định điểm ngoại lai trong một tập dữ liệu huấn luyện.

Tương phản với công nghệ phát hiện tính mới.

các điểm ngoại lai

Các giá trị khác xa với hầu hết các giá trị khác. Trong học máy, bất kỳ giá trị nào sau đây đều là giá trị ngoại lai:

  • Dữ liệu đầu vào có giá trị lớn hơn khoảng 3 độ lệch chuẩn so với giá trị trung bình.
  • Trọng số có giá trị tuyệt đối cao.
  • Giá trị dự đoán tương đối khác xa với giá trị thực tế.

Ví dụ: giả sử widget-price là một tính năng của một mô hình nhất định. Giả sử widget-price trung bình là 7 Euro với độ lệch chuẩn là 1 Euro. Do đó, các ví dụ chứa widget-price là 12 Euro hoặc 2 Euro sẽ được coi là giá trị ngoại lai vì mỗi giá trị trong số đó đều chênh lệch 5 độ lệch chuẩn so với giá trị trung bình.

Giá trị ngoại lai thường là do lỗi chính tả hoặc các lỗi nhập khác. Trong các trường hợp khác, giá trị ngoại lai không phải là lỗi; xét cho cùng, các giá trị cách trung bình 5 độ lệch chuẩn là hiếm nhưng khó có thể không xảy ra.

Giá trị ngoại lai thường gây ra vấn đề trong quá trình huấn luyện mô hình. Cắt bớt là một cách để quản lý các giá trị ngoại lai.

đánh giá ngoài phạm vi (đánh giá OOB)

#df

Cơ chế đánh giá chất lượng của rừng quyết định bằng cách kiểm thử từng cây quyết định dựa trên ví dụ không được sử dụng trong quá trình huấn luyện của cây quyết định đó. Ví dụ: trong sơ đồ sau, hãy lưu ý rằng hệ thống huấn luyện từng cây quyết định trên khoảng 2/3 số ví dụ, sau đó đánh giá dựa trên 1/3 số ví dụ còn lại.

Một rừng quyết định bao gồm ba cây quyết định.
          Một cây quyết định được huấn luyện trên hai phần ba số ví dụ, sau đó sử dụng một phần ba còn lại để đánh giá OOB.
          Cây quyết định thứ hai huấn luyện trên hai phần ba ví dụ khác với cây quyết định trước đó, sau đó sử dụng một phần ba khác để đánh giá OOB so với cây quyết định trước đó.

Phương pháp đánh giá ngoài túi là một phương pháp ước tính hiệu quả và bảo thủ về mặt tính toán của cơ chế xác thực chéo. Trong quy trình xác thực chéo, một mô hình được huấn luyện cho mỗi vòng xác thực chéo (ví dụ: 10 mô hình được huấn luyện trong quy trình xác thực chéo 10 lần). Với phương pháp đánh giá bên ngoài phạm vi, một mô hình duy nhất sẽ được huấn luyện. Vì bagging giữ lại một số dữ liệu từ mỗi cây trong quá trình huấn luyện, nên việc đánh giá OOB có thể sử dụng dữ liệu đó để ước chừng quy trình xác thực chéo.

lớp đầu ra

#fundamentals

Lớp "cuối cùng" của mạng nơron. Lớp đầu ra chứa kết quả dự đoán.

Hình minh hoạ sau đây cho thấy một mạng nơron sâu nhỏ với một lớp đầu vào, hai lớp ẩn và một lớp đầu ra:

Một mạng nơron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra. Lớp đầu vào bao gồm hai đặc điểm. Lớp ẩn đầu tiên bao gồm 3 tế bào thần kinh và lớp ẩn thứ hai bao gồm 2 tế bào thần kinh. Lớp đầu ra bao gồm một nút duy nhất.

khái quát hoá kém

#fundamentals

Tạo một mô hình khớp với dữ liệu huấn luyện đến mức mô hình không thể dự đoán chính xác dữ liệu mới.

Quy trình chuẩn hoá có thể làm giảm tình trạng phù hợp quá mức. Việc huấn luyện trên một tập dữ liệu huấn luyện lớn và đa dạng cũng có thể làm giảm tình trạng thích ứng quá mức.

lấy mẫu quá mức

Sử dụng lại ví dụ về lớp thiểu số trong tập dữ liệu bất cân đối về loại để tạo tập huấn luyện cân bằng hơn.

Ví dụ: hãy xem xét một vấn đề phân loại nhị phân trong đó tỷ lệ của lớp đa số với lớp thiểu số là 5.000:1. Nếu tập dữ liệu chứa một triệu ví dụ, thì tập dữ liệu đó chỉ chứa khoảng 200 ví dụ về lớp thiểu số, có thể là quá ít ví dụ để huấn luyện hiệu quả. Để khắc phục sự thiếu hụt này, bạn có thể lấy mẫu nhiều lần (sử dụng lại) 200 ví dụ đó, có thể tạo ra đủ ví dụ để huấn luyện hữu ích.

Bạn cần cẩn thận về việc quá phù hợp khi lấy mẫu quá nhiều.

Tương phản với thiếu mẫu.

Điểm

dữ liệu được đóng gói

Một phương pháp lưu trữ dữ liệu hiệu quả hơn.

Dữ liệu đã đóng gói lưu trữ dữ liệu bằng cách sử dụng định dạng nén hoặc bằng một cách nào đó cho phép truy cập dữ liệu hiệu quả hơn. Dữ liệu được đóng gói giúp giảm thiểu dung lượng bộ nhớ và phép tính cần thiết để truy cập vào dữ liệu, nhờ đó quá trình huấn luyện diễn ra nhanh hơn và quá trình suy luận mô hình hiệu quả hơn.

Dữ liệu đã đóng gói thường được sử dụng với các kỹ thuật khác, chẳng hạn như tăng cường dữ liệuđiều chỉnh, giúp cải thiện hơn nữa hiệu suất của mô hình.

gấu trúc

#fundamentals

API phân tích dữ liệu theo cột được xây dựng dựa trên numpy. Nhiều khung máy học, bao gồm cả TensorFlow, hỗ trợ cấu trúc dữ liệu pandas làm dữ liệu đầu vào. Hãy xem tài liệu về pandas để biết thông tin chi tiết.

tham số

#fundamentals

Trọng sốđộ lệch mà mô hình học được trong quá trình huấn luyện. Ví dụ: trong mô hình biến hồi quy tuyến tính, các tham số bao gồm độ lệch (b) và tất cả các trọng số (w1, w2, v.v.) theo công thức sau:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Ngược lại, tham số siêu dữ liệu là các giá trị mà bạn (hoặc dịch vụ điều chỉnh tham số siêu dữ liệu) cung cấp cho mô hình. Ví dụ: tốc độ học là một tham số siêu dữ liệu.

điều chỉnh hiệu quả theo tham số

#language
#generativeAI

Một bộ kỹ thuật để điều chỉnh tinh vi một mô hình ngôn ngữ được huấn luyện trước (PLM) lớn hiệu quả hơn so với việc điều chỉnh tinh vi toàn bộ. Việc điều chỉnh hiệu quả theo tham số thường tinh chỉnh ít tham số hơn so với việc tinh chỉnh đầy đủ, nhưng thường tạo ra một mô hình ngôn ngữ lớn hoạt động tốt (hoặc gần như tốt) như một mô hình ngôn ngữ lớn được tạo từ quá trình tinh chỉnh đầy đủ.

So sánh và đối chiếu việc điều chỉnh hiệu quả tham số với:

Điều chỉnh hiệu quả theo tham số còn được gọi là điều chỉnh tinh vi hiệu quả theo tham số.

Máy chủ tham số (PS)

#TensorFlow

Một công việc theo dõi các tham số của mô hình trong một chế độ cài đặt phân tán.

cập nhật tham số

Thao tác điều chỉnh các tham số của mô hình trong quá trình đào tạo, thường là trong một vòng lặp duy nhất của quá trình giảm độ dốc.

đạo hàm riêng

Một đạo hàm trong đó tất cả các biến trừ một biến được coi là hằng số. Ví dụ: đạo hàm riêng của f(x, y) theo x là đạo hàm của f được coi là một hàm của riêng x (tức là giữ y không đổi). Đạo hàm riêng của f theo x chỉ tập trung vào cách x thay đổi và bỏ qua tất cả các biến khác trong phương trình.

thiên kiến về mức độ tham gia

#fairness

Đồng nghĩa với thiên vị do thiếu hồi âm. Xem phần thiên vị do cách chọn mẫu.

chiến lược phân vùng

Thuật toán phân chia các biến trên máy chủ tham số.

truyền tại k (pass@k)

Một chỉ số để xác định chất lượng của mã (ví dụ: Python) mà mô hình ngôn ngữ lớn tạo ra. Cụ thể hơn, việc vượt qua ở k cho bạn biết khả năng ít nhất một khối mã được tạo trong số k khối mã được tạo sẽ vượt qua tất cả các bài kiểm thử đơn vị.

Mô hình ngôn ngữ lớn thường gặp khó khăn trong việc tạo mã tốt cho các vấn đề lập trình phức tạp. Các kỹ sư phần mềm thích ứng với vấn đề này bằng cách nhắc mô hình ngôn ngữ lớn tạo ra nhiều (k) giải pháp cho cùng một vấn đề. Sau đó, các kỹ sư phần mềm sẽ kiểm thử từng giải pháp dựa trên kiểm thử đơn vị. Việc tính toán số lần vượt qua ở k phụ thuộc vào kết quả của các bài kiểm thử đơn vị:

  • Nếu một hoặc nhiều giải pháp trong số đó vượt qua kiểm thử đơn vị, thì LLM sẽ Vượt qua thử thách tạo mã đó.
  • Nếu không có giải pháp nào vượt qua được kiểm thử đơn vị, thì LLM sẽ Không thành công trong thử thách tạo mã đó.

Công thức để truyền tại k như sau:

$$\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}$$

Nhìn chung, giá trị k càng cao thì tỷ lệ vượt qua ở điểm k càng cao; tuy nhiên, giá trị k càng cao thì càng cần nhiều tài nguyên kiểm thử đơn vị và mô hình ngôn ngữ lớn hơn.

Pax

Khung lập trình được thiết kế để huấn luyện các mô hình mạng nơron quy mô lớn đến mức bao gồm nhiều TPU mảnh lát cắt hoặc vùng chứa.

Pax được xây dựng trên Flax, được xây dựng trên JAX.

Sơ đồ cho biết vị trí của Pax trong ngăn xếp phần mềm.
          Pax được xây dựng dựa trên JAX. Bản thân Pax bao gồm ba lớp. Lớp dưới cùng chứa TensorStore và Flax.
          Lớp giữa chứa Optax và Flaxformer. Lớp trên cùng chứa Thư viện mô hình hoá Praxis. Fiddle được xây dựng dựa trên Pax.

perceptron

Một hệ thống (phần cứng hoặc phần mềm) nhận một hoặc nhiều giá trị đầu vào, chạy một hàm trên tổng trọng số của các giá trị đầu vào và tính toán một giá trị đầu ra duy nhất. Trong học máy, hàm này thường không tuyến tính, chẳng hạn như ReLU, sigmoid hoặc tanh. Ví dụ: perceptron sau đây dựa vào hàm sigmoid để xử lý ba giá trị đầu vào:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Trong hình minh hoạ sau, perceptron nhận ba đầu vào, mỗi đầu vào được sửa đổi bằng một trọng số trước khi vào perceptron:

Một perceptron nhận 3 đầu vào, mỗi đầu vào được nhân với một trọng số riêng. Perceptron sẽ xuất ra một giá trị duy nhất.

Perceptron là nơron trong mạng nơron.

hiệu quả hoạt động

Thuật ngữ nạp chồng có các nghĩa sau:

  • Ý nghĩa chuẩn trong kỹ thuật phần mềm. Cụ thể: Phần mềm này chạy nhanh (hoặc hiệu quả) đến mức nào?
  • Ý nghĩa trong học máy. Ở đây, hiệu suất trả lời câu hỏi sau: Mô hình này chính xác đến mức nào? Tức là, độ chính xác của dự đoán của mô hình là bao nhiêu?

mức độ quan trọng của biến hoán vị

#df

Một loại tầm quan trọng của biến đánh giá mức tăng của lỗi dự đoán của một mô hình sau khi hoán vị các giá trị của đặc điểm. Tầm quan trọng của biến hoán vị là một chỉ số không phụ thuộc vào mô hình.

độ hỗn loạn

Một chỉ số đo lường mức độ hiệu quả của một mô hình trong việc hoàn thành nhiệm vụ. Ví dụ: giả sử nhiệm vụ của bạn là đọc vài chữ cái đầu tiên của một từ mà người dùng đang nhập trên bàn phím điện thoại và cung cấp danh sách các từ có thể hoàn thành. Mức độ phức tạp, P, cho nhiệm vụ này gần bằng số lượng dự đoán bạn cần đưa ra để danh sách của bạn chứa từ thực tế mà người dùng đang cố gắng nhập.

Mức độ phức tạp liên quan đến entropy chéo như sau:

$$P= 2^{-\text{cross entropy}}$$

quy trình

Cơ sở hạ tầng xung quanh thuật toán học máy. Quy trình bao gồm việc thu thập dữ liệu, đưa dữ liệu vào tệp dữ liệu huấn luyện, huấn luyện một hoặc nhiều mô hình và xuất mô hình sang môi trường sản xuất.

quy trình

#language

Một dạng song song mô hình, trong đó quá trình xử lý của mô hình được chia thành các giai đoạn liên tiếp và mỗi giai đoạn được thực thi trên một thiết bị khác nhau. Trong khi một giai đoạn đang xử lý một lô, thì giai đoạn trước đó có thể xử lý lô tiếp theo.

Xem thêm phần đào tạo theo giai đoạn.

pjit

Hàm JAX phân tách mã để chạy trên nhiều chip tăng tốc. Người dùng truyền một hàm đến pjit, hàm này sẽ trả về một hàm có ngữ nghĩa tương đương nhưng được biên dịch thành một phép tính XLA chạy trên nhiều thiết bị (chẳng hạn như GPU hoặc nhân TPU).

pjit cho phép người dùng phân đoạn các phép tính mà không cần viết lại bằng cách sử dụng trình phân vùng SPMD.

Kể từ tháng 3 năm 2023, pjit đã được hợp nhất với jit. Hãy tham khảo bài viết Mảng phân tán và tính năng song song tự động để biết thêm thông tin chi tiết.

PLM

#language
#generativeAI

Từ viết tắt của mô hình ngôn ngữ được huấn luyện trước.

pmap

Hàm JAX thực thi các bản sao của hàm đầu vào trên nhiều thiết bị phần cứng cơ bản (CPU, GPU hoặc TPU), với các giá trị đầu vào khác nhau. pmap dựa vào SPMD.

policy

#rl

Trong học tăng cường, bản đồ xác suất của tác nhân từ trạng thái đến hành động.

gộp

#image

Giảm một ma trận (hoặc các ma trận) do một lớp tích chập trước đó tạo thành một ma trận nhỏ hơn. Việc gộp thường liên quan đến việc lấy giá trị tối đa hoặc trung bình trên khu vực được gộp. Ví dụ: giả sử chúng ta có ma trận 3x3 sau:

Ma trận 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Một phép hợp nhất, giống như phép tích chập, chia ma trận đó thành các lát cắt, sau đó trượt phép tích chập đó theo bước. Ví dụ: giả sử phép hợp nhất chia ma trận tích chập thành các lát cắt 2x2 với bước 1x1. Như sơ đồ sau đây minh hoạ, 4 phép hợp nhất sẽ diễn ra. Hãy tưởng tượng rằng mỗi phép hợp nhất chọn giá trị tối đa trong số bốn giá trị trong lát cắt đó:

Ma trận đầu vào có kích thước 3x3 với các giá trị: [[5,3,1], [8,2,5], [9,4,3]].
          Ma trận con 2x2 trên cùng bên trái của ma trận đầu vào là [[5,3], [8,2]], vì vậy, phép hợp nhất trên cùng bên trái sẽ trả về giá trị 8 (là giá trị tối đa của 5, 3, 8 và 2). Ma trận con 2x2 ở trên cùng bên phải của ma trận đầu vào là [[3,1], [2,5]], vì vậy, phép hợp nhất ở trên cùng bên phải sẽ trả về giá trị 5. Ma trận con 2x2 ở dưới cùng bên trái của ma trận đầu vào là [[8,2], [9,4]], vì vậy, phép hợp nhất ở dưới cùng bên trái sẽ trả về giá trị 9. Ma trận con 2x2 ở dưới cùng bên phải của ma trận đầu vào là [[2,5], [4,3]], do đó, phép hợp nhất ở dưới cùng bên phải sẽ trả về giá trị 5. Tóm lại, phép gộp sẽ tạo ra ma trận 2x2
          [[8,5], [9,5]].

Tính năng gộp giúp thực thi bất biến dịch chuyển trong ma trận đầu vào.

Việc gộp dữ liệu cho các ứng dụng thị giác được gọi chính thức là gộp không gian. Các ứng dụng chuỗi thời gian thường gọi việc gộp dữ liệu là gộp dữ liệu theo thời gian. Không chính thức, việc gộp thường được gọi là lấy mẫu phụ hoặc lấy mẫu giảm.

mã hoá vị trí

#language

Một kỹ thuật để thêm thông tin về vị trí của một mã thông báo trong một trình tự vào phần nhúng của mã thông báo. Mô hình Transformer sử dụng mã hoá vị trí để hiểu rõ hơn mối quan hệ giữa các phần khác nhau của trình tự.

Một cách triển khai phổ biến của mã hoá vị trí là sử dụng hàm sin. (Cụ thể, tần số và biên độ của hàm sin được xác định bằng vị trí của mã thông báo trong trình tự.) Kỹ thuật này cho phép mô hình Transformer tìm hiểu cách chú ý đến các phần khác nhau của trình tự dựa trên vị trí của các phần đó.

lớp dương

#fundamentals

Lớp mà bạn đang kiểm thử.

Ví dụ: lớp dương tính trong mô hình ung thư có thể là "u". Lớp dương trong một bộ phân loại email có thể là "thư rác".

Tương phản với lớp âm.

xử lý hậu kỳ

#fairness
#fundamentals

Điều chỉnh đầu ra của mô hình sau khi mô hình đã chạy. Bạn có thể sử dụng quy trình xử lý hậu kỳ để thực thi các quy tắc ràng buộc về tính công bằng mà không cần sửa đổi mô hình.

Ví dụ: bạn có thể áp dụng quy trình xử lý sau cho một bộ phân loại nhị phân bằng cách đặt ngưỡng phân loại sao cho bình đẳng về cơ hội được duy trì cho một số thuộc tính bằng cách kiểm tra xem tỷ lệ dương tính thực sự có giống nhau đối với tất cả các giá trị của thuộc tính đó hay không.

mô hình sau khi huấn luyện

#language
#image
#generativeAI

Thuật ngữ được xác định không rõ ràng, thường đề cập đến một mô hình được huấn luyện trước đã trải qua một số quy trình xử lý sau, chẳng hạn như một hoặc nhiều quy trình sau:

AUC PR (diện tích dưới đường cong PR)

Diện tích dưới đường cong độ chính xác-độ hồi quy nội suy, thu được bằng cách lập biểu đồ các điểm (độ hồi quy, độ chính xác) cho các giá trị khác nhau của ngưỡng phân loại.

Praxis

Thư viện ML cốt lõi, hiệu suất cao của Pax. Praxis thường được gọi là "Thư viện lớp".

Praxis không chỉ chứa các định nghĩa cho lớp Lớp (Layer) mà còn chứa hầu hết các thành phần hỗ trợ của lớp này, bao gồm:

Praxis cung cấp các định nghĩa cho lớp Model.

độ chính xác

Một chỉ số cho mô hình phân loại giúp trả lời câu hỏi sau:

Khi mô hình dự đoán lớp dương, tỷ lệ phần trăm dự đoán chính xác là bao nhiêu?

Sau đây là công thức:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

trong đó:

  • dương tính thật có nghĩa là mô hình đã dự đoán chính xác lớp dương tính.
  • dương tính giả có nghĩa là mô hình nhầm lẫn dự đoán lớp dương.

Ví dụ: giả sử một mô hình đã đưa ra 200 dự đoán dương tính. Trong số 200 cụm từ gợi ý tích cực này:

  • 150 là số lượng dương tính thật.
  • 50 trường hợp là dương tính giả.

Trong trường hợp này:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Tương phản với độ chính xáctỷ lệ thu hồi.

Hãy xem bài viết Phân loại: Độ chính xác, tỷ lệ thu hồi, độ chính xác và các chỉ số liên quan để biết thêm thông tin.

độ chính xác tại k (precision@k)

#language

Chỉ số để đánh giá danh sách các mục được xếp hạng (theo thứ tự). Độ chính xác tại k xác định tỷ lệ phần trăm các mục k đầu tiên trong danh sách đó là "liên quan". Đó là:

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

Giá trị của k phải nhỏ hơn hoặc bằng độ dài của danh sách được trả về. Xin lưu ý rằng độ dài của danh sách được trả về không thuộc phạm vi tính toán.

Mức độ phù hợp thường mang tính chủ quan; ngay cả người đánh giá là chuyên gia cũng thường không đồng ý về những mục nào là phù hợp.

So với:

đường cong độ chính xác-tỷ lệ thu hồi

Đường cong độ chính xác so với độ chính xác ở các ngưỡng phân loại khác nhau.

dự đoán

#fundamentals

Đầu ra của mô hình. Ví dụ:

  • Dự đoán của mô hình phân loại nhị phân là lớp tích cực hoặc lớp tiêu cực.
  • Kết quả dự đoán của mô hình phân loại đa lớp là một lớp.
  • Kết quả dự đoán của mô hình hồi quy tuyến tính là một con số.

thiên kiến dự đoán

Một giá trị cho biết mức độ chênh lệch giữa giá trị trung bình của dự đoán với giá trị trung bình của nhãn trong tập dữ liệu.

Đừng nhầm lẫn với thời hạn thiên vị trong các mô hình học máy hoặc với thiên vị về đạo đức và công bằng.

công nghệ học máy dự đoán

Bất kỳ hệ thống học máy tiêu chuẩn ("cổ điển") nào.

Thuật ngữ học máy dự đoán không có định nghĩa chính thức. Thay vào đó, thuật ngữ này phân biệt một danh mục hệ thống học máy không dựa trên AI tạo sinh.

tính năng tương đương dự đoán

#fairness

Chỉ số công bằng kiểm tra xem đối với một bộ phân loại nhất định, tỷ lệ độ chính xác có tương đương với các nhóm con đang được xem xét hay không.

Ví dụ: một mô hình dự đoán khả năng được nhận vào trường đại học sẽ đáp ứng tính tương đương dự đoán về quốc tịch nếu tỷ lệ chính xác của mô hình này giống nhau đối với người Lilliput và người Brobdingnag.

Đôi khi, tính năng so khớp giá dự đoán còn được gọi là so khớp giá dự đoán.

Hãy xem phần "Giải thích định nghĩa về tính công bằng" (mục 3.2.1) để thảo luận chi tiết hơn về tính năng so sánh dự đoán.

tỷ giá dự đoán

#fairness

Tên khác của tính năng so khớp dự đoán.

xử lý trước

#fairness
Xử lý dữ liệu trước khi dùng dữ liệu đó để huấn luyện mô hình. Quá trình xử lý trước có thể đơn giản như xoá các từ không có trong từ điển tiếng Anh khỏi một tập hợp văn bản tiếng Anh, hoặc có thể phức tạp như diễn đạt lại các điểm dữ liệu theo cách loại bỏ càng nhiều thuộc tính có liên quan đến thuộc tính nhạy cảm càng tốt. Việc xử lý trước có thể giúp đáp ứng các quy tắc ràng buộc về tính công bằng.

mô hình được huấn luyện sẵn

#language
#image
#generativeAI

Thông thường, một mô hình đã được huấn luyện. Thuật ngữ này cũng có thể có nghĩa là một vectơ nhúng đã được huấn luyện trước đó.

Thuật ngữ mô hình ngôn ngữ được huấn luyện trước thường đề cập đến một mô hình ngôn ngữ lớn đã được huấn luyện.

huấn luyện trước

#language
#image
#generativeAI

Quá trình huấn luyện ban đầu của một mô hình trên một tập dữ liệu lớn. Một số mô hình được huấn luyện trước là những gã khổng lồ vụng về và thường phải được tinh chỉnh thông qua quá trình huấn luyện bổ sung. Ví dụ: các chuyên gia về học máy có thể huấn luyện trước một mô hình ngôn ngữ lớn trên một tập dữ liệu văn bản khổng lồ, chẳng hạn như tất cả các trang tiếng Anh trong Wikipedia. Sau khi huấn luyện trước, mô hình thu được có thể được tinh chỉnh thêm thông qua bất kỳ kỹ thuật nào sau đây:

niềm tin trước

Những gì bạn tin tưởng về dữ liệu trước khi bắt đầu huấn luyện trên dữ liệu đó. Ví dụ: quy trình chuẩn hoá L2 dựa trên niềm tin trước đó rằng trọng số phải nhỏ và được phân phối theo chuẩn xung quanh 0.

mô hình hồi quy có xác suất

Mô hình hồi quy không chỉ sử dụng trọng số cho từng tính năng mà còn sử dụng độ không chắc chắn của các trọng số đó. Mô hình hồi quy có xác suất tạo ra một kết quả dự đoán và mức độ không chắc chắn của kết quả dự đoán đó. Ví dụ: mô hình hồi quy xác suất có thể cho ra kết quả dự đoán là 325 với độ lệch chuẩn là 12. Để biết thêm thông tin về các mô hình hồi quy xác suất, hãy xem Colab này trên tensorflow.org.

hàm mật độ xác suất

Hàm xác định tần suất của các mẫu dữ liệu có chính xác một giá trị cụ thể. Khi các giá trị của tập dữ liệu là số dấu phẩy động liên tục, hiếm khi xảy ra trường hợp khớp chính xác. Tuy nhiên, việc tích hợp hàm mật độ xác suất từ giá trị x đến giá trị y sẽ tạo ra tần suất dự kiến của các mẫu dữ liệu giữa xy.

Ví dụ: hãy xem xét một phân phối chuẩn có giá trị trung bình là 200 và độ lệch chuẩn là 30. Để xác định tần suất dự kiến của các mẫu dữ liệu nằm trong phạm vi từ 211,4 đến 218,7, bạn có thể tích hợp hàm mật độ xác suất cho một phân phối chuẩn từ 211,4 đến 218,7.

lời nhắc

#language
#generativeAI

Mọi văn bản được nhập làm dữ liệu đầu vào cho một mô hình ngôn ngữ lớn để điều kiện hoá mô hình hoạt động theo một cách nhất định. Lời nhắc có thể ngắn như một cụm từ hoặc dài tuỳ ý (ví dụ: toàn bộ văn bản của một cuốn tiểu thuyết). Lời nhắc thuộc nhiều danh mục, bao gồm cả những lời nhắc trong bảng sau:

Danh mục câu lệnh Ví dụ: Ghi chú
Câu hỏi Một con chim bồ câu có thể bay nhanh đến mức nào?
Hướng dẫn Viết một bài thơ hài hước về hoạt động chênh lệch giá. Câu lệnh yêu cầu mô hình ngôn ngữ lớn làm một việc gì đó.
Ví dụ: Dịch mã Markdown sang HTML. Ví dụ:
Markdown: * mục danh sách
HTML: <ul> <li>mục danh sách</li> </ul>
Câu đầu tiên trong câu lệnh mẫu này là một hướng dẫn. Phần còn lại của câu lệnh là ví dụ.
Vai trò Giải thích lý do sử dụng phương pháp giảm độ dốc trong quá trình huấn luyện máy học cho một tiến sĩ Vật lý. Phần đầu tiên của câu là hướng dẫn; cụm từ "đến một tiến sĩ Vật lý" là phần vai trò.
Dữ liệu đầu vào một phần để mô hình hoàn tất Thủ tướng Vương quốc Anh sống tại Lời nhắc nhập một phần có thể kết thúc đột ngột (như ví dụ này) hoặc kết thúc bằng dấu gạch dưới.

Mô hình AI tạo sinh có thể phản hồi một câu lệnh bằng văn bản, mã, hình ảnh, nội dung nhúng, video… gần như mọi thứ.

học tập dựa trên câu lệnh

#language
#generativeAI

Một khả năng của một số mô hình nhất định cho phép các mô hình đó điều chỉnh hành vi để phản hồi hoạt động nhập văn bản tuỳ ý (lời nhắc). Trong mô hình học tập dựa trên câu lệnh thông thường, mô hình ngôn ngữ lớn sẽ phản hồi câu lệnh bằng cách tạo văn bản. Ví dụ: giả sử người dùng nhập lời nhắc sau:

Tóm tắt Định luật thứ ba của Newton về chuyển động.

Mô hình có khả năng học dựa trên câu lệnh không được huấn luyện cụ thể để trả lời câu lệnh trước đó. Thay vào đó, mô hình "biết" nhiều thông tin thực tế về vật lý, nhiều thông tin về các quy tắc ngôn ngữ chung và nhiều thông tin về những yếu tố tạo nên câu trả lời hữu ích nói chung. Kiến thức đó là đủ để cung cấp một câu trả lời (hy vọng là) hữu ích. Ý kiến phản hồi bổ sung của con người ("Câu trả lời đó quá phức tạp" hoặc "Phản ứng là gì?") cho phép một số hệ thống học dựa trên câu lệnh dần dần cải thiện tính hữu ích của câu trả lời.

thiết kế câu lệnh

#language
#generativeAI

Đồng nghĩa với thiết kế câu lệnh.

thiết kế câu lệnh

#language
#generativeAI

Nghệ thuật tạo lời nhắc để thu hút các câu trả lời mong muốn từ một mô hình ngôn ngữ lớn. Con người thực hiện kỹ thuật gợi ý. Việc viết câu lệnh có cấu trúc tốt là một phần thiết yếu để đảm bảo nhận được câu trả lời hữu ích từ mô hình ngôn ngữ lớn. Kỹ thuật lời nhắc phụ thuộc vào nhiều yếu tố, bao gồm:

Hãy xem bài viết Giới thiệu về thiết kế câu lệnh để biết thêm thông tin chi tiết về cách viết câu lệnh hữu ích.

Thiết kế câu lệnh đồng nghĩa với thiết kế câu lệnh.

điều chỉnh nhanh

#language
#generativeAI

Cơ chế điều chỉnh tham số hiệu quả giúp tìm hiểu "phần tiền tố" mà hệ thống thêm vào lời nhắc thực tế.

Một biến thể của tính năng điều chỉnh lời nhắc (đôi khi được gọi là điều chỉnh tiền tố) là đặt tiền tố ở mọi lớp. Ngược lại, hầu hết các tuỳ chọn điều chỉnh lời nhắc chỉ thêm một tiền tố vào lớp đầu vào.

proxy (thuộc tính nhạy cảm)

#fairness
Một thuộc tính được dùng thay thế cho thuộc tính nhạy cảm. Ví dụ: mã bưu chính của một cá nhân có thể được dùng làm thông tin thay thế cho thu nhập, chủng tộc hoặc sắc tộc của họ.

nhãn đại diện

#fundamentals

Dữ liệu dùng để ước tính các nhãn không có sẵn trực tiếp trong tập dữ liệu.

Ví dụ: giả sử bạn phải huấn luyện một mô hình để dự đoán mức độ căng thẳng của nhân viên. Tập dữ liệu của bạn chứa nhiều tính năng dự đoán nhưng không chứa nhãn có tên mức độ căng thẳng. Không nản lòng, bạn chọn "tai nạn tại nơi làm việc" làm nhãn đại diện cho mức độ căng thẳng. Xét cho cùng, những nhân viên chịu nhiều áp lực sẽ gặp nhiều tai nạn hơn so với những nhân viên bình tĩnh. Có phải vậy không? Có thể số vụ tai nạn tại nơi làm việc thực sự tăng và giảm vì nhiều lý do.

Ví dụ thứ hai: giả sử bạn muốn is it raining? (có mưa không?) là nhãn Boolean cho tập dữ liệu của mình, nhưng tập dữ liệu đó không chứa dữ liệu về mưa. Nếu có ảnh, bạn có thể thiết lập ảnh người dân cầm ô làm nhãn đại diện cho câu lệnh có mưa không? Đó có phải là một nhãn proxy tốt không? Có thể, nhưng người dân ở một số nền văn hoá có thể mang ô để chống nắng nhiều hơn là chống mưa.

Nhãn proxy thường không hoàn hảo. Khi có thể, hãy chọn nhãn thực tế thay vì nhãn proxy. Tuy nhiên, khi không có nhãn thực tế, hãy chọn nhãn proxy rất cẩn thận, chọn ứng cử viên nhãn proxy ít tệ nhất.

hàm thuần tuý

Một hàm có đầu ra chỉ dựa trên dữ liệu đầu vào và không có tác dụng phụ. Cụ thể, hàm thuần tuý không sử dụng hoặc thay đổi bất kỳ trạng thái toàn cục nào, chẳng hạn như nội dung của tệp hoặc giá trị của biến bên ngoài hàm.

Bạn có thể dùng các hàm thuần tuý để tạo mã an toàn cho luồng. Điều này sẽ có lợi khi phân đoạn mã mô hình trên nhiều chip tăng tốc.

Các phương thức biến đổi hàm của JAX yêu cầu hàm đầu vào phải là hàm thuần tuý.

Hỏi

Hàm Q

#rl

Trong học tăng cường, hàm dự đoán giá trị trả về dự kiến từ việc thực hiện một hành động trong một trạng thái, sau đó tuân theo một chính sách nhất định.

Hàm Q còn được gọi là hàm giá trị hành động trạng thái.

Học quy tắc Q

#rl

Trong học tăng cường, thuật toán cho phép tác nhân học hàm Q tối ưu của quy trình quyết định Markov bằng cách áp dụng biểu thức Bellman. Quy trình quyết định Markov mô hình hoá một môi trường.

số phân vị

Mỗi nhóm trong nhóm theo tứ phân vị.

phân giỏ theo số phân vị

Phân phối các giá trị của một đặc điểm vào các bộ chứa để mỗi bộ chứa chứa cùng một số lượng ví dụ (hoặc gần như giống nhau). Ví dụ: hình sau đây chia 44 điểm thành 4 nhóm, mỗi nhóm chứa 11 điểm. Để mỗi bộ chứa trong hình chứa cùng một số điểm, một số bộ chứa có chiều rộng giá trị x khác nhau.

44 điểm dữ liệu được chia thành 4 nhóm, mỗi nhóm có 11 điểm.
          Mặc dù mỗi bộ chứa có cùng số điểm dữ liệu, nhưng một số bộ chứa có phạm vi giá trị đặc điểm rộng hơn so với các bộ chứa khác.

lượng tử hoá

Thuật ngữ nạp chồng có thể được sử dụng theo bất kỳ cách nào sau đây:

  • Triển khai tính năng nhóm theo tứ phân vị trên một tính năng cụ thể.
  • Biến đổi dữ liệu thành số 0 và số 1 để lưu trữ, huấn luyện và suy luận nhanh hơn. Vì dữ liệu Boolean có khả năng chống nhiễu và lỗi tốt hơn so với các định dạng khác, nên việc lượng tử hoá có thể cải thiện độ chính xác của mô hình. Các kỹ thuật lượng tử hoá bao gồm làm tròn, cắt bớt và nhóm.
  • Giảm số lượng bit dùng để lưu trữ các tham số của mô hình. Ví dụ: giả sử các tham số của một mô hình được lưu trữ dưới dạng số dấu phẩy động 32 bit. Quá trình lượng tử hoá sẽ chuyển đổi các tham số đó từ 32 bit xuống còn 4, 8 hoặc 16 bit. Quá trình lượng tử hoá làm giảm các yếu tố sau:

    • Mức sử dụng điện toán, bộ nhớ, ổ đĩa và mạng
    • Thời gian để suy luận một dự đoán
    • Mức tiêu thụ điện năng

    Tuy nhiên, việc lượng tử hoá đôi khi làm giảm độ chính xác của dự đoán của mô hình.

danh sách chờ

#TensorFlow

Toán tử TensorFlow triển khai cấu trúc dữ liệu hàng đợi. Thường dùng trong I/O.

Điểm

RAG

#fundamentals

Viết tắt của tạo dữ liệu tăng cường truy xuất.

rừng ngẫu nhiên

#df

Một bộ dữ liệu tổng hợp của cây quyết định, trong đó mỗi cây quyết định được huấn luyện bằng một nhiễu ngẫu nhiên cụ thể, chẳng hạn như bagging.

Rừng ngẫu nhiên là một loại rừng quyết định.

chính sách ngẫu nhiên

#rl

Trong học tăng cường, một chính sách chọn một hành động ngẫu nhiên.

thứ hạng (thứ tự)

Vị trí thứ tự của một lớp trong một vấn đề học máy phân loại các lớp từ cao nhất đến thấp nhất. Ví dụ: hệ thống xếp hạng hành vi có thể xếp hạng phần thưởng của chó từ cao nhất (bò bít tết) đến thấp nhất (cải xoăn héo).

thứ hạng (Tensor)

#TensorFlow

Số lượng phương diện trong một Tensor. Ví dụ: một đại lượng vô hướng có thứ hạng 0, một vectơ có thứ hạng 1 và một ma trận có thứ hạng 2.

Đừng nhầm lẫn với hạng (thứ tự).

thứ hạng

Một loại học có giám sát có mục tiêu là sắp xếp danh sách các mục.

người đánh giá

#fundamentals

Một người cung cấp nhãn cho ví dụ. "Người chú thích" là một tên gọi khác của người đánh giá.

mức độ ghi nhớ

Một chỉ số cho mô hình phân loại giúp trả lời câu hỏi sau:

Khi đầu ra thực sựlớp dương tính, mô hình đã xác định chính xác bao nhiêu phần trăm dự đoán là lớp dương tính?

Sau đây là công thức:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

trong đó:

  • dương tính thật có nghĩa là mô hình đã dự đoán chính xác lớp dương tính.
  • kết quả âm tính giả có nghĩa là mô hình nhầm lẫn dự đoán lớp âm tính.

Ví dụ: giả sử mô hình của bạn đã đưa ra 200 dự đoán về các ví dụ mà giá trị thực tế là lớp dương tính. Trong số 200 cụm từ gợi ý này:

  • 180 là số lượng dương tính thật.
  • 20 trường hợp là âm tính giả.

Trong trường hợp này:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Hãy xem bài viết Phân loại: Độ chính xác, tỷ lệ thu hồi, độ chính xác và các chỉ số liên quan để biết thêm thông tin.

gọi lại tại k (recall@k)

#language

Chỉ số để đánh giá các hệ thống đưa ra danh sách các mục được xếp hạng (theo thứ tự). Mức độ gợi nhắc tại k xác định tỷ lệ phần trăm các mục có liên quan trong k mục đầu tiên trong danh sách đó trên tổng số mục có liên quan được trả về.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

So sánh với độ chính xác tại k.

hệ thống đề xuất

#recsystems

Một hệ thống chọn cho mỗi người dùng một nhóm tương đối nhỏ các mục mong muốn từ một tập hợp lớn. Ví dụ: hệ thống đề xuất video có thể đề xuất hai video trong một tập hợp gồm 100.000 video, chọn CasablancaThe Philadelphia Story cho một người dùng và Wonder WomanBlack Panther cho người dùng khác. Hệ thống đề xuất video có thể dựa trên các yếu tố như:

  • Những bộ phim mà người dùng tương tự đã đánh giá hoặc xem.
  • Thể loại, đạo diễn, diễn viên, đối tượng mục tiêu...

Rectified Linear Unit (ReLU)

#fundamentals

Hàm kích hoạt có hành vi sau:

  • Nếu giá trị đầu vào là âm hoặc 0, thì kết quả sẽ là 0.
  • Nếu giá trị đầu vào là dương, thì giá trị đầu ra bằng với giá trị đầu vào.

Ví dụ:

  • Nếu giá trị đầu vào là -3, thì kết quả sẽ là 0.
  • Nếu giá trị đầu vào là +3, thì kết quả sẽ là 3.0.

Dưới đây là biểu đồ của ReLU:

Biểu đồ Descartes của hai đường. Dòng đầu tiên có giá trị y không đổi là 0, chạy dọc theo trục x từ -vô cực,0 đến 0,-0.
          Dòng thứ hai bắt đầu tại 0,0. Đường này có độ dốc là +1, vì vậy, nó chạy từ 0,0 đến +vô cực, +vô cực.

ReLU là một hàm kích hoạt rất phổ biến. Mặc dù có hành vi đơn giản, nhưng ReLU vẫn cho phép mạng nơron học các mối quan hệ không tuyến tính giữa các đặc điểmnhãn.

mạng nơron tái sinh

#seq

Một mạng nơron được chạy nhiều lần một cách có chủ ý, trong đó các phần của mỗi lần chạy sẽ được đưa vào lần chạy tiếp theo. Cụ thể, các lớp ẩn từ lần chạy trước cung cấp một phần đầu vào cho cùng một lớp ẩn trong lần chạy tiếp theo. Mạng nơron tái sinh đặc biệt hữu ích cho việc đánh giá các trình tự, nhờ đó các lớp ẩn có thể học từ các lần chạy trước của mạng nơron trên các phần trước của trình tự.

Ví dụ: hình sau đây cho thấy một mạng nơron tái sinh chạy bốn lần. Lưu ý rằng các giá trị được học trong các lớp ẩn từ lần chạy đầu tiên sẽ trở thành một phần của dữ liệu đầu vào cho cùng các lớp ẩn trong lần chạy thứ hai. Tương tự, các giá trị được học trong lớp ẩn trong lần chạy thứ hai trở thành một phần của dữ liệu đầu vào cho cùng một lớp ẩn trong lần chạy thứ ba. Bằng cách này, mạng nơron tái sinh sẽ dần dần huấn luyện và dự đoán ý nghĩa của toàn bộ trình tự thay vì chỉ ý nghĩa của từng từ.

Một RNN chạy 4 lần để xử lý 4 từ đầu vào.

văn bản tham chiếu

#language
#generativeAI

Câu trả lời của chuyên gia cho một câu lệnh. Ví dụ: với câu lệnh sau:

Dịch câu hỏi "Bạn tên gì?" từ tiếng Anh sang tiếng Pháp.

Câu trả lời của chuyên gia có thể là:

Comment vous appelez-vous?

Nhiều chỉ số (chẳng hạn như ROUGE) đo lường mức độ phù hợp giữa văn bản tham chiếu với văn bản do mô hình học máy tạo.

mô hình hồi quy

#fundamentals

Nói một cách không chính thức, mô hình tạo ra dự đoán dạng số. (Ngược lại, mô hình phân loại sẽ tạo ra một dự đoán về lớp.) Ví dụ: sau đây là tất cả các mô hình hồi quy:

  • Mô hình dự đoán giá trị của một ngôi nhà nhất định bằng Euro, chẳng hạn như 423.000.
  • Mô hình dự đoán tuổi thọ của một cây nhất định tính bằng năm, chẳng hạn như 23,2.
  • Mô hình dự đoán lượng mưa tính bằng inch sẽ rơi ở một thành phố nhất định trong 6 giờ tới, chẳng hạn như 0,18.

Hai loại mô hình hồi quy phổ biến là:

Không phải mọi mô hình đưa ra kết quả dự đoán bằng số đều là mô hình hồi quy. Trong một số trường hợp, dự đoán dạng số thực sự chỉ là một mô hình phân loại có tên lớp dạng số. Ví dụ: mô hình dự đoán mã bưu chính dạng số là mô hình phân loại, chứ không phải mô hình hồi quy.

điều hoà

#fundamentals

Mọi cơ chế giúp giảm hiệu ứng nạp dữ liệu quá mức. Các loại quy tắc chuẩn hoá phổ biến bao gồm:

Bạn cũng có thể xác định quy trình chuẩn hoá là hình phạt đối với độ phức tạp của mô hình.

tốc độ điều hoà

#fundamentals

Một số chỉ định tầm quan trọng tương đối của việc điều chỉnh trong quá trình huấn luyện. Việc tăng tỷ lệ chuẩn hoá sẽ làm giảm hiệu ứng phù hợp quá mức nhưng có thể làm giảm khả năng dự đoán của mô hình. Ngược lại, việc giảm hoặc bỏ qua tỷ lệ chuẩn hoá sẽ làm tăng tình trạng thích ứng quá mức.

học tăng cường (RL)

#rl

Một nhóm thuật toán học được một chính sách tối ưu, mục tiêu của chính sách này là tối đa hoá lợi tức khi tương tác với một môi trường. Ví dụ: phần thưởng cuối cùng của hầu hết các trò chơi là chiến thắng. Hệ thống học tăng cường có thể trở thành chuyên gia chơi các trò chơi phức tạp bằng cách đánh giá các chuỗi các nước đi trước đó trong trò chơi, cuối cùng dẫn đến chiến thắng và các chuỗi dẫn đến thất bại.

Học tăng cường từ phản hồi của con người (RLHF)

#generativeAI
#rl

Sử dụng ý kiến phản hồi của nhân viên đánh giá để cải thiện chất lượng câu trả lời của mô hình. Ví dụ: cơ chế RLHF có thể yêu cầu người dùng đánh giá chất lượng phản hồi của một mô hình bằng biểu tượng cảm xúc 👍 hoặc 👎. Sau đó, hệ thống có thể điều chỉnh các phản hồi trong tương lai dựa trên ý kiến phản hồi đó.

ReLU

#fundamentals

Viết tắt của Rectified Linear Unit (Đơn vị tuyến tính được sửa đổi).

vùng đệm phát lại

#rl

Trong các thuật toán giống như DQN, bộ nhớ mà tác nhân sử dụng để lưu trữ các quá trình chuyển đổi trạng thái để sử dụng trong tái hiện trải nghiệm.

hàng nhái

Một bản sao của tập huấn luyện hoặc mô hình, thường là trên một máy khác. Ví dụ: một hệ thống có thể sử dụng chiến lược sau đây để triển khai song song dữ liệu:

  1. Đặt bản sao của một mô hình hiện có trên nhiều máy.
  2. Gửi các tập hợp con khác nhau của tập dữ liệu huấn luyện đến từng bản sao.
  3. Tổng hợp các nội dung cập nhật tham số.

thiên vị dựa trên báo cáo

#fairness

Tần suất mọi người viết về các hành động, kết quả hoặc thuộc tính không phản ánh tần suất thực tế của chúng hoặc mức độ một thuộc tính đặc trưng cho một lớp cá nhân. Sự thiên vị trong báo cáo có thể ảnh hưởng đến thành phần dữ liệu mà hệ thống học máy học hỏi.

Ví dụ: trong sách, từ cười phổ biến hơn từ thở. Mô hình học máy ước tính tần suất tương đối của tiếng cười và tiếng thở trong một tập hợp sách có thể xác định rằng tiếng cười phổ biến hơn tiếng thở.

đại diện

Quá trình liên kết dữ liệu với các tính năng hữu ích.

xếp hạng lại

#recsystems

Giai đoạn cuối cùng của một hệ thống đề xuất, trong đó các mục được tính điểm có thể được chấm lại theo một số thuật toán khác (thường là không phải thuật toán học máy). Việc xếp hạng lại sẽ đánh giá danh sách các mục do giai đoạn đánh giá tạo ra, thực hiện các hành động như:

  • Xoá những mặt hàng mà người dùng đã mua.
  • Tăng điểm số của các mục mới hơn.

tạo dữ liệu tăng cường khả năng truy xuất (RAG)

#fundamentals

Một kỹ thuật để cải thiện chất lượng đầu ra của mô hình ngôn ngữ lớn (LLM) bằng cách căn cứ vào các nguồn kiến thức được truy xuất sau khi mô hình được huấn luyện. RAG giúp cải thiện độ chính xác của câu trả lời của LLM bằng cách cung cấp cho LLM đã huấn luyện quyền truy cập vào thông tin được truy xuất từ các cơ sở tri thức hoặc tài liệu đáng tin cậy.

Sau đây là một số lý do phổ biến để sử dụng phương pháp tạo nội dung được tăng cường bằng tính năng truy xuất:

  • Tăng độ chính xác về mặt thực tế của các câu trả lời do mô hình tạo ra.
  • Cấp cho mô hình quyền truy cập vào kiến thức mà mô hình chưa được huấn luyện.
  • Thay đổi kiến thức mà mô hình sử dụng.
  • Cho phép mô hình trích dẫn nguồn.

Ví dụ: giả sử một ứng dụng hóa học sử dụng PaLM API để tạo bản tóm tắt liên quan đến các truy vấn của người dùng. Khi phần phụ trợ của ứng dụng nhận được một truy vấn, phần phụ trợ sẽ:

  1. Tìm kiếm ("truy xuất") dữ liệu liên quan đến cụm từ tìm kiếm của người dùng.
  2. Thêm ("mở rộng") dữ liệu hóa học có liên quan vào truy vấn của người dùng.
  3. Hướng dẫn LLM tạo bản tóm tắt dựa trên dữ liệu đã thêm.

phím return

#rl

Trong học tăng cường, với một chính sách và trạng thái nhất định, giá trị trả về là tổng của tất cả phần thưởngtác nhân dự kiến nhận được khi tuân theo chính sách từ trạng thái đến cuối giai đoạn. Tác nhân tính đến bản chất bị trì hoãn của phần thưởng dự kiến bằng cách chiết khấu phần thưởng theo các lượt chuyển đổi trạng thái cần thiết để nhận phần thưởng.

Do đó, nếu hệ số chiết khấu là \(\gamma\)và \(r_0, \ldots, r_{N}\) thể hiện phần thưởng cho đến khi kết thúc tập, thì cách tính lợi tức là như sau:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

phần thưởng

#rl

Trong học tăng cường, kết quả dạng số của việc thực hiện một hành động trong một trạng thái, như được xác định bởi môi trường.

điều hoà ridge

Từ đồng nghĩa với điều hoà L2. Thuật ngữ điều chỉnh hồi quy được sử dụng thường xuyên hơn trong ngữ cảnh thống kê thuần tuý, trong khi điều chỉnh L2 được sử dụng thường xuyên hơn trong học máy.

RNN

#seq

Viết tắt của mạng nơron tái sinh.

Đường cong ROC (đường cong đặc trưng hoạt động của bộ thu)

#fundamentals

Biểu đồ tỷ lệ dương tính thực sự so với tỷ lệ dương tính giả cho nhiều ngưỡng phân loại trong phân loại nhị phân.

Hình dạng của đường cong ROC cho biết khả năng của mô hình phân loại nhị phân trong việc tách các lớp dương tính khỏi các lớp âm tính. Ví dụ: giả sử một mô hình phân loại nhị phân tách biệt hoàn toàn tất cả các lớp âm tính với tất cả các lớp dương tính:

Một đường số có 8 ví dụ dương ở bên phải và
          7 ví dụ âm ở bên trái.

Đường cong ROC cho mô hình trước có dạng như sau:

Đường cong ROC. Trục x là Tỷ lệ dương tính giả và trục y là Tỷ lệ dương tính thật. Đường cong có hình chữ L ngược. Đường cong bắt đầu tại (0,0) và đi thẳng lên (0,1). Sau đó, đường cong sẽ đi từ (0,1) đến (1,1).

Ngược lại, hình minh hoạ sau đây biểu đồ các giá trị hồi quy logistic thô cho một mô hình tệ hại không thể tách biệt các lớp âm với các lớp dương:

Một đường số có các ví dụ dương và lớp âm lẫn lộn hoàn toàn.

Đường cong ROC cho mô hình này có dạng như sau:

Đường cong ROC, thực chất là một đường thẳng từ (0,0) đến (1,1).

Trong khi đó, trở lại thực tế, hầu hết các mô hình phân loại nhị phân đều tách các lớp dương và âm ở một mức độ nào đó, nhưng thường không hoàn hảo. Do đó, một đường cong ROC điển hình nằm ở đâu đó giữa hai điểm cực đoan:

Đường cong ROC. Trục x là Tỷ lệ dương tính giả và trục y là Tỷ lệ dương tính thật. Đường cong ROC gần giống với một vòng cung không ổn định
          đi qua các điểm la bàn từ Tây sang Bắc.

Theo lý thuyết, điểm trên đường cong ROC gần nhất với (0,0,1,0) sẽ xác định ngưỡng phân loại lý tưởng. Tuy nhiên, một số vấn đề thực tế khác ảnh hưởng đến việc lựa chọn ngưỡng phân loại lý tưởng. Ví dụ: có thể kết quả âm tính giả gây ra nhiều phiền toái hơn kết quả dương tính giả.

Một chỉ số dạng số có tên là AUC tóm tắt đường cong ROC thành một giá trị dấu phẩy động duy nhất.

lời nhắc về vai trò

#language
#generativeAI

Một phần không bắt buộc của câu lệnh giúp xác định đối tượng mục tiêu cho phản hồi của mô hình AI tạo sinh. Nếu không có câu lệnh về vai trò, mô hình ngôn ngữ lớn sẽ đưa ra câu trả lời có thể hữu ích hoặc không hữu ích cho người đặt câu hỏi. Với câu lệnh theo vai trò, mô hình ngôn ngữ lớn có thể trả lời theo cách phù hợp và hữu ích hơn cho một đối tượng mục tiêu cụ thể. Ví dụ: phần lời nhắc về vai trò của các lời nhắc sau đây được in đậm:

  • Tóm tắt bài viết này cho một tiến sĩ kinh tế.
  • Mô tả cách hoạt động của thủy triều cho trẻ 10 tuổi.
  • Giải thích về cuộc khủng hoảng tài chính năm 2008. Nói như khi bạn trò chuyện với một đứa trẻ hoặc một chú chó săn mồi.

gốc

#df

Điểm bắt đầu (điều kiện đầu tiên) trong cây quyết định. Theo quy ước, sơ đồ đặt phần gốc ở đầu cây quyết định. Ví dụ:

Cây quyết định có hai điều kiện và ba lá. Điều kiện bắt đầu (x > 2) là gốc.

thư mục gốc

#TensorFlow

Thư mục bạn chỉ định để lưu trữ các thư mục con của điểm kiểm tra TensorFlow và tệp sự kiện của nhiều mô hình.

Sai số trung bình bình phương (RMSE)

#fundamentals

Căn bậc hai của Sai số bình phương trung bình.

bất biến khi xoay

#image

Trong một vấn đề phân loại hình ảnh, khả năng của thuật toán để phân loại thành công hình ảnh ngay cả khi hướng của hình ảnh thay đổi. Ví dụ: Dù vợt tennis hướng lên, sang ngang hay hướng xuống, thuật toán vẫn có thể xác định được. Xin lưu ý rằng không phải lúc nào tính bất biến đối với phép xoay cũng là mong muốn; ví dụ: số 9 lộn ngược không được phân loại là số 9.

Xem thêm về bất biến theo phép dịchbất biến theo kích thước.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation – Mô hình đánh giá tóm tắt dựa trên khả năng gợi nhắc)

#language

Một nhóm chỉ số đánh giá các mô hình dịch máy và tóm tắt tự động. Chỉ số ROUGE xác định mức độ trùng lặp giữa văn bản tham chiếuvăn bản do mô hình học máy tạo. Mỗi thành viên trong gia đình ROUGE đo lường mức độ trùng lặp theo một cách khác nhau. Điểm ROUGE cao hơn cho biết mức độ tương đồng giữa văn bản tham chiếu và văn bản được tạo cao hơn so với điểm ROUGE thấp hơn.

Mỗi thành viên trong gia đình ROUGE thường tạo ra các chỉ số sau:

  • Chính xác
  • Nhớ lại
  • F1

Để biết thông tin chi tiết và ví dụ, hãy xem:

ROUGE-L

#language

Một thành viên của gia đình ROUGE tập trung vào độ dài của chuỗi con chung dài nhất trong văn bản tham chiếuvăn bản được tạo. Các công thức sau đây tính toán tỷ lệ thu hồi và độ chính xác cho ROUGE-L:

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$
$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

Sau đó, bạn có thể sử dụng F1 để cuộn lên độ thu hồi ROUGE-L và độ chính xác ROUGE-L thành một chỉ số duy nhất:

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

ROUGE-L bỏ qua mọi dòng mới trong văn bản tham chiếu và văn bản được tạo, vì vậy, trình tự con chung dài nhất có thể vượt qua nhiều câu. Khi văn bản tham chiếu và văn bản được tạo có nhiều câu, một biến thể của ROUGE-L có tên là ROUGE-Lsum thường là chỉ số tốt hơn. ROUGE-Lsum xác định trình tự con chung dài nhất cho mỗi câu trong một đoạn văn, sau đó tính trung bình của các trình tự con chung dài nhất đó.

ROUGE-N

#language

Một tập hợp các chỉ số trong nhóm ROUGE so sánh các N-gram dùng chung có kích thước nhất định trong văn bản tham chiếuvăn bản được tạo. Ví dụ:

  • ROUGE-1 đo lường số lượng mã thông báo được chia sẻ trong văn bản tham chiếu và văn bản được tạo.
  • ROUGE-2 đo lường số lượng từ kép (2-gram) được chia sẻ trong văn bản tham chiếu và văn bản được tạo.
  • ROUGE-3 đo lường số lượng bộ ba (3-gram) được chia sẻ trong văn bản đối chiếu và văn bản được tạo.

Bạn có thể sử dụng các công thức sau để tính toán độ thu hồi ROUGE-N và độ chính xác ROUGE-N cho bất kỳ thành viên nào trong gia đình ROUGE-N:

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$
$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

Sau đó, bạn có thể sử dụng F1 để tổng hợp giá trị gợi nhắc ROUGE-N và độ chính xác ROUGE-N thành một chỉ số duy nhất:

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

ROUGE-S

#language

Một dạng ROUGE-N dễ tính cho phép so khớp skip-gram. Tức là ROUGE-N chỉ tính N-gram khớp chính xác, nhưng ROUGE-S cũng tính N-gram được phân tách bằng một hoặc nhiều từ. Ví dụ: hãy cân nhắc những điều sau đây:

Khi tính toán ROUGE-N, cụm từ 2-gram White clouds (Mây trắng) không khớp với cụm từ White billowing clouds (Mây trắng cuồn cuộn). Tuy nhiên, khi tính toán ROUGE-S, Mây trắng khớp với Mây trắng cuồn cuộn.

R bình phương

Chỉ số biến hồi quy cho biết mức độ biến thiên trong một thẻ là do một tính năng riêng lẻ hay một tập hợp tính năng. R-squared là một giá trị nằm trong khoảng từ 0 đến 1. Bạn có thể diễn giải giá trị này như sau:

  • R-squared bằng 0 có nghĩa là không có biến thể nào của nhãn là do tập hợp tính năng.
  • R-squared bằng 1 có nghĩa là tất cả các biến thể của nhãn đều là do tập hợp tính năng.
  • R-squared từ 0 đến 1 cho biết mức độ biến thiên của nhãn có thể được dự đoán từ một tính năng cụ thể hoặc tập hợp tính năng. Ví dụ: R-squared bằng 0,10 có nghĩa là 10% phương sai trong nhãn là do tập hợp tính năng, R-squared bằng 0,20 có nghĩa là 20% là do tập hợp tính năng, v.v.

R-squared là bình phương của hệ số tương quan Pearson giữa các giá trị mà mô hình dự đoán và giá trị thực tế.

S

thiên vị do không lấy mẫu

#fairness

Xem phần thiên vị do cách chọn mẫu.

lấy mẫu có thay thế

#df

Một phương thức chọn các mục từ một tập hợp các mục đề xuất, trong đó có thể chọn cùng một mục nhiều lần. Cụm từ "có thay thế" có nghĩa là sau mỗi lần chọn, mục đã chọn sẽ được trả về nhóm các mục đề xuất. Phương thức nghịch đảo, lấy mẫu không thay thế, nghĩa là bạn chỉ có thể chọn một mục đề xuất một lần.

Ví dụ: hãy xem xét tập hợp các loại quả sau:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Giả sử hệ thống chọn ngẫu nhiên fig làm mục đầu tiên. Nếu sử dụng phương pháp lấy mẫu có thay thế, thì hệ thống sẽ chọn mục thứ hai trong tập hợp sau:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Có, đó là cùng một tập hợp như trước, vì vậy, hệ thống có thể chọn lại fig.

Nếu sử dụng phương pháp lấy mẫu không thay thế, sau khi chọn, bạn không thể chọn lại một mẫu. Ví dụ: nếu hệ thống chọn ngẫu nhiên fig làm mẫu đầu tiên, thì bạn không thể chọn lại fig. Do đó, hệ thống sẽ chọn mẫu thứ hai từ tập hợp (rút gọn) sau:

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

Định dạng được đề xuất để lưu và khôi phục các mô hình TensorFlow. SavedModel là một định dạng chuyển đổi tuần tự trung lập về ngôn ngữ, có thể khôi phục, cho phép các hệ thống và công cụ cấp cao hơn tạo, sử dụng và chuyển đổi các mô hình TensorFlow.

Hãy xem phần Lưu và khôi phục trong Hướng dẫn dành cho lập trình viên TensorFlow để biết toàn bộ thông tin chi tiết.

Vận chuyển hàng tiết kiệm

#TensorFlow

Một đối tượng TensorFlow chịu trách nhiệm lưu các điểm kiểm tra mô hình.

đại lượng vô hướng

Một số hoặc một chuỗi có thể được biểu thị dưới dạng một tensorhạng 0. Ví dụ: các dòng mã sau đây tạo ra một vectơ trong TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

mở rộng quy mô

Bất kỳ phép biến đổi toán học hoặc kỹ thuật nào làm thay đổi phạm vi của nhãn và/hoặc giá trị đặc điểm. Một số hình thức điều chỉnh theo tỷ lệ rất hữu ích cho các phép biến đổi như bình thường hoá.

Sau đây là một số hình thức mở rộng phổ biến hữu ích trong Học máy:

  • tỷ lệ tuyến tính, thường sử dụng tổ hợp phép trừ và phép chia để thay thế giá trị ban đầu bằng một số từ -1 đến +1 hoặc từ 0 đến 1.
  • tỷ lệ logarit, thay thế giá trị ban đầu bằng lôgarit của giá trị đó.
  • Chuẩn hoá điểm Z, thay thế giá trị ban đầu bằng một giá trị dấu phẩy động thể hiện số độ lệch chuẩn so với giá trị trung bình của đặc điểm đó.

scikit-learn

Một nền tảng học máy nguồn mở phổ biến. Xem scikit-learn.org.

tính điểm

#recsystems

Một phần của hệ thống đề xuất cung cấp giá trị hoặc thứ hạng cho từng mục do giai đoạn tạo đề xuất tạo ra.

thiên vị do cách chọn mẫu

#fairness

Lỗi trong kết luận rút ra từ dữ liệu được lấy mẫu do quy trình lựa chọn tạo ra sự khác biệt có hệ thống giữa các mẫu được quan sát trong dữ liệu và các mẫu không được quan sát. Có các dạng thiên kiến lựa chọn sau:

  • thành kiến về phạm vi: Tập hợp được thể hiện trong tập dữ liệu không khớp với tập hợp mà mô hình học máy đang dự đoán.
  • thiên vị khi lấy mẫu: Dữ liệu không được thu thập ngẫu nhiên từ nhóm mục tiêu.
  • Thiên vị không trả lời (còn gọi là thiên vị về mức độ tham gia): Người dùng thuộc một số nhóm nhất định chọn không tham gia cuộc khảo sát với tỷ lệ khác với người dùng thuộc các nhóm khác.

Ví dụ: giả sử bạn đang tạo một mô hình học máy để dự đoán mức độ hài lòng của mọi người về một bộ phim. Để thu thập dữ liệu huấn luyện, bạn phát một bản khảo sát cho tất cả mọi người ở hàng ghế đầu của một rạp chiếu phim đang chiếu bộ phim đó. Nghe có vẻ như đây là một cách hợp lý để thu thập tập dữ liệu; tuy nhiên, hình thức thu thập dữ liệu này có thể dẫn đến các dạng thiên vị lựa chọn sau:

  • thiên vị về phạm vi: Bằng cách lấy mẫu từ một nhóm người đã chọn xem phim, dự đoán của mô hình có thể không áp dụng cho những người chưa thể hiện mức độ quan tâm đó đến bộ phim.
  • thiên vị khi lấy mẫu: Thay vì lấy mẫu ngẫu nhiên từ tổng thể dự kiến (tất cả mọi người xem phim), bạn chỉ lấy mẫu những người ngồi ở hàng ghế trước. Có thể những người ngồi ở hàng ghế trước quan tâm đến bộ phim hơn những người ngồi ở các hàng ghế khác.
  • thiên vị không phản hồi: Nhìn chung, những người có quan điểm rõ ràng có xu hướng phản hồi các cuộc khảo sát không bắt buộc thường xuyên hơn những người có quan điểm không rõ ràng. Vì bản khảo sát về phim là không bắt buộc, nên các câu trả lời có nhiều khả năng tạo thành một phân phối hai đỉnh hơn là một phân phối chuẩn (hình chuông).

tự chú ý (còn gọi là lớp tự chú ý)

#language

Một lớp mạng nơron biến đổi một chuỗi các mục nhúng (ví dụ: các mục nhúng mã thông báo) thành một chuỗi các mục nhúng khác. Mỗi phần nhúng trong trình tự đầu ra được tạo bằng cách tích hợp thông tin từ các phần tử của trình tự đầu vào thông qua cơ chế chú ý.

Phần tự trong tự chú ý đề cập đến trình tự chú ý đến chính nó thay vì một ngữ cảnh nào đó. Tự chú ý là một trong những thành phần chính của Transformer và sử dụng thuật ngữ tra cứu từ điển, chẳng hạn như "truy vấn", "khoá" và "giá trị".

Lớp tự chú ý bắt đầu bằng một chuỗi đại diện đầu vào, một đại diện cho mỗi từ. Biểu diễn đầu vào cho một từ có thể là một tính năng nhúng đơn giản. Đối với mỗi từ trong một chuỗi đầu vào, mạng sẽ tính điểm mức độ liên quan của từ đó với mọi phần tử trong toàn bộ chuỗi từ. Điểm liên quan xác định mức độ biểu diễn cuối cùng của từ kết hợp với biểu diễn của các từ khác.

Ví dụ: hãy xem xét câu sau:

Con vật không băng qua đường vì quá mệt.

Hình minh hoạ sau đây (từ bài viết Transformer: A Novel Neural Network Architecture for Language Understanding (Biến đổi: Cấu trúc mạng nơron mới để hiểu ngôn ngữ)) cho thấy mẫu chú ý của lớp tự chú ý cho đại từ nhân xưng it, trong đó độ đậm của mỗi dòng cho biết mức độ đóng góp của mỗi từ vào việc thể hiện:

Câu sau đây xuất hiện hai lần: Con vật không băng qua đường vì quá mệt. Các dòng kết nối đại từ it trong một câu với 5 mã thông báo (The, animal, street, it và dấu chấm) trong câu còn lại.  Dòng giữa đại từ it và từ animal (động vật) là mạnh nhất.

Lớp tự chú ý làm nổi bật những từ có liên quan đến "it". Trong trường hợp này, lớp chú ý đã học cách làm nổi bật những từ mà lớp này có thể đề cập đến, gán trọng số cao nhất cho động vật.

Đối với một chuỗi n mã thông báo, tính năng tự chú ý sẽ biến đổi một chuỗi các mục nhúng n lần riêng biệt, một lần tại mỗi vị trí trong chuỗi.

Ngoài ra, hãy tham khảo tính năng chú ýtính năng tự chú ý nhiều đầu.

học tự giám sát

Một nhóm kỹ thuật để chuyển đổi vấn đề học máy không giám sát thành vấn đề học máy có giám sát bằng cách tạo nhãn thay thế từ ví dụ chưa được gắn nhãn.

Một số mô hình dựa trên Transformer như BERT sử dụng phương pháp tự giám sát.

Huấn luyện tự giám sát là một phương pháp học bán giám sát.

tự đào tạo

Một biến thể của công nghệ tự giám sát đặc biệt hữu ích khi tất cả các điều kiện sau đây đều đúng:

Tính năng tự huấn luyện hoạt động bằng cách lặp lại hai bước sau cho đến khi mô hình ngừng cải thiện:

  1. Sử dụng công nghệ học máy có giám sát để đào tạo mô hình trên các ví dụ được gắn nhãn.
  2. Sử dụng mô hình được tạo ở Bước 1 để tạo dự đoán (nhãn) trên các ví dụ chưa được gắn nhãn, di chuyển các ví dụ có độ tin cậy cao vào các ví dụ được gắn nhãn bằng nhãn dự đoán.

Lưu ý rằng mỗi lần lặp lại Bước 2 sẽ thêm các ví dụ được gắn nhãn khác để Bước 1 đào tạo.

học bán giám sát

Huấn luyện mô hình trên dữ liệu mà một số ví dụ huấn luyện có nhãn nhưng các ví dụ khác thì không. Một kỹ thuật để học bán giám sát là suy luận nhãn cho các ví dụ chưa được gắn nhãn, sau đó huấn luyện trên các nhãn được suy luận để tạo một mô hình mới. Phương pháp học bán giám sát có thể hữu ích nếu việc thu thập nhãn tốn kém nhưng có nhiều ví dụ chưa được gắn nhãn.

Tự huấn luyện là một kỹ thuật để học bán giám sát.

thuộc tính nhạy cảm

#fairness
Một thuộc tính của con người có thể được xem xét đặc biệt vì lý do pháp lý, đạo đức, xã hội hoặc cá nhân.

phân tích cảm xúc

#language

Sử dụng thuật toán thống kê hoặc học máy để xác định thái độ tổng thể của một nhóm (tích cực hay tiêu cực) đối với một dịch vụ, sản phẩm, tổ chức hoặc chủ đề. Ví dụ: bằng cách sử dụng tính năng hiểu ngôn ngữ tự nhiên, một thuật toán có thể phân tích cảm xúc trên phản hồi dạng văn bản của một khoá học đại học để xác định mức độ mà học viên thường thích hoặc không thích khoá học đó.

mô hình trình tự

#seq

Mô hình có dữ liệu đầu vào có sự phụ thuộc tuần tự. Ví dụ: dự đoán video tiếp theo được xem dựa trên trình tự các video đã xem trước đó.

tác vụ trình tự đến trình tự

#language

Một tác vụ chuyển đổi một chuỗi đầu vào gồm mã thông báo thành một chuỗi đầu ra gồm các mã thông báo. Ví dụ: hai loại tác vụ trình tự với trình tự phổ biến là:

  • Người dịch:
    • Trình tự đầu vào mẫu: "I love you" (Tôi yêu bạn).
    • Trình tự đầu ra mẫu: "Je t'aime".
  • Trả lời câu hỏi:
    • Trình tự đầu vào mẫu: "Tôi có cần xe ở Thành phố New York không?"
    • Trình tự đầu ra mẫu: "Không. Vui lòng để xe ở nhà."

đang phân phát

Quá trình cung cấp mô hình đã huấn luyện để đưa ra dự đoán thông qua quy trình suy luận trực tuyến hoặc quy trình suy luận ngoại tuyến.

shape (Tensor)

Số lượng phần tử trong mỗi phương diện của một vectơ. Hình dạng được biểu thị dưới dạng danh sách các số nguyên. Ví dụ: tensor hai chiều sau đây có hình dạng [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow sử dụng định dạng hàng chính (kiểu C) để biểu thị thứ tự của các kích thước. Đó là lý do hình dạng trong TensorFlow là [3,4] thay vì [4,3]. Nói cách khác, trong Tensor TensorFlow hai chiều, hình dạng là [số hàng, số cột].

Hình dạng tĩnh là hình dạng tensor được biết tại thời điểm biên dịch.

Hình dạng độngkhông xác định tại thời điểm biên dịch và do đó phụ thuộc vào dữ liệu thời gian chạy. Tensor này có thể được biểu thị bằng một kích thước phần giữ chỗ trong TensorFlow, như trong [3, ?].

mảnh

#TensorFlow
#GoogleCloud

Một phần hợp lý của tập huấn luyện hoặc mô hình. Thông thường, một số quy trình tạo phân mảnh bằng cách chia ví dụ hoặc tham số thành các phần có kích thước bằng nhau (thường là). Sau đó, mỗi phân mảnh sẽ được chỉ định cho một máy khác nhau.

Việc phân đoạn mô hình được gọi là song song mô hình; còn việc phân đoạn dữ liệu được gọi là song song dữ liệu.

co rút

#df

Một tham số siêu dữ liệu trong tăng cường độ dốc giúp kiểm soát hiệu ứng phù hợp quá mức. Sự co rút trong phương pháp tăng cường độ dốc tương tự như tốc độ học trong phương pháp giảm độ dốc. Độ co là một giá trị thập phân nằm trong khoảng từ 0,0 đến 1,0. Giá trị co rút thấp hơn sẽ làm giảm tình trạng phù hợp quá mức hơn so với giá trị co rút lớn hơn.

hàm sigmoid

#fundamentals

Một hàm toán học "nén" một giá trị đầu vào vào một phạm vi bị ràng buộc, thường là từ 0 đến 1 hoặc -1 đến +1. Tức là bạn có thể truyền bất kỳ số nào (2, 1 triệu, âm tỷ, bất kỳ) vào hàm sigmoid và kết quả vẫn nằm trong phạm vi ràng buộc. Biểu đồ của hàm kích hoạt sigmoid có dạng như sau:

Biểu đồ cong hai chiều với các giá trị x trải dài từ miền -vô cực đến +dương, trong khi các giá trị y trải dài từ gần 0 đến gần 1. Khi x là 0, y là 0,5. Độ dốc của đường cong luôn dương, với độ dốc cao nhất tại 0,0,5 và độ dốc giảm dần khi giá trị tuyệt đối của x tăng lên.

Hàm sigmoid có một số ứng dụng trong học máy, bao gồm:

chỉ số tương đồng

#clustering

Trong các thuật toán nhóm, chỉ số này dùng để xác định mức độ giống nhau (tương đồng) giữa hai ví dụ bất kỳ.

một chương trình / nhiều dữ liệu (SPMD)

Một kỹ thuật song song trong đó cùng một phép tính được chạy song song trên nhiều dữ liệu đầu vào trên các thiết bị khác nhau. Mục tiêu của SPMD là thu được kết quả nhanh hơn. Đây là kiểu lập trình song song phổ biến nhất.

bất biến khi thay đổi kích thước

#image

Trong một vấn đề phân loại hình ảnh, khả năng của thuật toán để phân loại thành công hình ảnh ngay cả khi kích thước của hình ảnh thay đổi. Ví dụ: Dù hình ảnh có tiêu thụ 2 triệu pixel hay 200 nghìn pixel, thuật toán vẫn có thể xác định được hình ảnh đó là một con mèo. Xin lưu ý rằng ngay cả các thuật toán phân loại hình ảnh tốt nhất vẫn có những giới hạn thực tế về tính bất biến về kích thước. Ví dụ: một thuật toán (hoặc con người) khó có thể phân loại chính xác một hình ảnh con mèo chỉ có 20 pixel.

Xem thêm bất biến theo phép dịchbất biến khi xoay.

phác thảo

#clustering

Trong công nghệ học máy không giám sát, một danh mục thuật toán thực hiện phân tích sơ bộ về mức độ tương đồng trên các ví dụ. Các thuật toán phác thảo sử dụng hàm băm nhạy cảm với vị trí để xác định các điểm có khả năng tương tự nhau, sau đó nhóm các điểm đó thành các bộ chứa.

Việc phác thảo sẽ làm giảm lượng tính toán cần thiết cho các phép tính tương đồng trên các tập dữ liệu lớn. Thay vì tính toán mức độ tương đồng cho từng cặp ví dụ trong tập dữ liệu, chúng ta chỉ tính toán mức độ tương đồng cho từng cặp điểm trong mỗi bộ chứa.

skip-gram

#language

N-gram có thể bỏ qua (hoặc "bỏ qua") các từ khỏi ngữ cảnh gốc, nghĩa là các từ N ban đầu có thể không liền kề nhau. Chính xác hơn, "k-skip-n-gram" là một n-gram mà có thể đã bỏ qua tối đa k từ.

Ví dụ: cụm từ "the quick brown fox" có thể có các cụm từ 2-gram sau:

  • "the quick"
  • "quick brown"
  • "chó sói nâu"

"1-skip-2-gram" là một cặp từ có tối đa 1 từ ở giữa. Do đó, cụm từ "the quick brown fox" có các từ 2-gram 1-bỏ qua sau đây:

  • "the brown"
  • "quick fox"

Ngoài ra, tất cả các từ 2 âm tiết cũng là từ 1 âm tiết bỏ qua 2 âm tiết, vì có thể bỏ qua ít hơn một từ.

Skip-gram rất hữu ích để hiểu rõ hơn về ngữ cảnh xung quanh của một từ. Trong ví dụ này, "fox" được liên kết trực tiếp với "quick" trong tập hợp 1-skip-2-gram, nhưng không có trong tập hợp 2-gram.

Skip-gram giúp huấn luyện các mô hình nhúng từ.

softmax

#fundamentals

Hàm xác định xác suất cho mỗi lớp có thể có trong một mô hình phân loại nhiều lớp. Các xác suất cộng lại chính xác là 1.0. Ví dụ: bảng sau đây cho thấy cách softmax phân phối các xác suất khác nhau:

Hình ảnh là... Xác suất
chó 0,85
mèo 0,13
con ngựa 0,02

Softmax còn được gọi là softmax đầy đủ.

Tương phản với lấy mẫu ứng viên.

điều chỉnh lời nhắc mềm

#language
#generativeAI

Một kỹ thuật để điều chỉnh mô hình ngôn ngữ lớn cho một tác vụ cụ thể mà không cần điều chỉnh tinh vi tốn nhiều tài nguyên. Thay vì huấn luyện lại tất cả trọng số trong mô hình, tính năng điều chỉnh lời nhắc mềm sẽ tự động điều chỉnh lời nhắc để đạt được cùng một mục tiêu.

Với một câu lệnh dạng văn bản, tính năng điều chỉnh câu lệnh mềm thường thêm các phần nhúng mã thông báo bổ sung vào câu lệnh và sử dụng tính năng hồi quy để tối ưu hoá dữ liệu đầu vào.

Lời nhắc "khó" chứa các mã thông báo thực tế thay vì mã thông báo nhúng.

tính năng thưa

#language
#fundamentals

Một tính năng có giá trị chủ yếu là 0 hoặc trống. Ví dụ: một đặc điểm chứa một giá trị 1 và một triệu giá trị 0 là thưa thớt. Ngược lại, tính năng dày đặc có các giá trị chủ yếu không phải là 0 hoặc trống.

Trong học máy, có một số lượng đáng ngạc nhiên các đặc điểm là đặc điểm thưa thớt. Các tính năng phân loại thường là các tính năng thưa. Ví dụ: trong số 300 loài cây có thể có trong một khu rừng, một ví dụ duy nhất có thể chỉ xác định được một cây phong. Hoặc trong số hàng triệu video có thể có trong thư viện video, một ví dụ duy nhất có thể chỉ xác định được "Casablanca".

Trong một mô hình, bạn thường biểu thị các tính năng thưa thớt bằng mã hoá one-hot. Nếu mã hoá one-hot có kích thước lớn, bạn có thể đặt lớp nhúng lên trên mã hoá one-hot để tăng hiệu quả.

biểu diễn thưa

#language
#fundamentals

Chỉ lưu trữ (các) vị trí của các phần tử khác 0 trong một đặc điểm thưa thớt.

Ví dụ: giả sử một đặc điểm phân loại có tên species xác định 36 loài cây trong một khu rừng cụ thể. Giả sử thêm rằng mỗi ví dụ chỉ xác định một loài.

Bạn có thể sử dụng một vectơ một chiều để biểu thị các loài cây trong mỗi ví dụ. Một vectơ một chiều sẽ chứa một 1 (để biểu thị một loài cây cụ thể trong ví dụ đó) và 35 0 (để biểu thị 35 loài cây không trong ví dụ đó). Vì vậy, cách biểu thị một nóng của maple có thể có dạng như sau:

Một vectơ trong đó các vị trí từ 0 đến 23 giữ giá trị 0, vị trí 24 giữ giá trị 1 và các vị trí từ 25 đến 35 giữ giá trị 0.

Ngoài ra, cách biểu diễn thưa thớt chỉ xác định vị trí của một loài cụ thể. Nếu maple ở vị trí 24, thì cách biểu diễn thưa của maple sẽ chỉ là:

24

Lưu ý rằng cách biểu diễn thưa thớt nhỏ gọn hơn nhiều so với cách biểu diễn một nóng.

vectơ thưa

#fundamentals

Một vectơ có các giá trị chủ yếu là 0. Xem thêm tính năng thưa thớtđộ thưa thớt.

độ thưa

Số phần tử được đặt thành 0 (hoặc rỗng) trong một vectơ hoặc ma trận chia cho tổng số mục nhập trong vectơ hoặc ma trận đó. Ví dụ: hãy xem xét một ma trận gồm 100 phần tử, trong đó 98 ô chứa số 0. Cách tính độ thưa thớt như sau:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Mức độ thưa thớt của đặc điểm đề cập đến mức độ thưa thớt của một vectơ đặc điểm; mức độ thưa thớt của mô hình đề cập đến mức độ thưa thớt của các trọng số mô hình.

gộp không gian

#image

Xem phần gộp.

tách

#df

Trong cây quyết định, tên khác của điều kiện.

bộ chia

#df

Trong khi huấn luyện cây quyết định, quy trình (và thuật toán) chịu trách nhiệm tìm điều kiện tốt nhất tại mỗi nút.

SPMD

Viết tắt của một chương trình / nhiều dữ liệu.

tổn thất khớp nối bình phương

Bình phương của tổn thất khớp nối. Mức hao tổn khớp nối bình phương sẽ phạt các giá trị ngoại lai nghiêm khắc hơn so với mức hao tổn khớp nối thông thường.

tổn thất bình phương

#fundamentals

Từ đồng nghĩa với tổn thất L2.

huấn luyện theo giai đoạn

#language

Một chiến thuật huấn luyện mô hình theo trình tự các giai đoạn riêng biệt. Mục tiêu có thể là đẩy nhanh quá trình huấn luyện hoặc đạt được chất lượng mô hình tốt hơn.

Dưới đây là hình minh hoạ phương pháp xếp chồng tiến bộ:

  • Giai đoạn 1 chứa 3 lớp ẩn, giai đoạn 2 chứa 6 lớp ẩn và giai đoạn 3 chứa 12 lớp ẩn.
  • Giai đoạn 2 bắt đầu huấn luyện bằng các trọng số đã học được trong 3 lớp ẩn của Giai đoạn 1. Giai đoạn 3 bắt đầu huấn luyện bằng các trọng số đã học được trong 6 lớp ẩn của Giai đoạn 2.

Ba giai đoạn được gắn nhãn Giai đoạn 1, Giai đoạn 2 và Giai đoạn 3.
          Mỗi giai đoạn chứa một số lớp khác nhau: Giai đoạn 1 chứa
          3 lớp, Giai đoạn 2 chứa 6 lớp và Giai đoạn 3 chứa 12 lớp.
          3 lớp từ Giai đoạn 1 trở thành 3 lớp đầu tiên của Giai đoạn 2.
          Tương tự, 6 lớp từ Giai đoạn 2 sẽ trở thành 6 lớp đầu tiên của
          Giai đoạn 3.

Xem thêm về quy trình tạo luồng.

tiểu bang

#rl

Trong học tăng cường, các giá trị thông số mô tả cấu hình hiện tại của môi trường mà tác nhân sử dụng để chọn một hành động.

hàm giá trị trạng thái-hành động

#rl

Đồng nghĩa với hàm Q.

tĩnh

#fundamentals

Một việc được thực hiện một lần thay vì liên tục. Các thuật ngữ tĩnhngoại tuyến là đồng nghĩa. Sau đây là các cách sử dụng phổ biến của dữ liệu tĩnhngoại tuyến trong học máy:

  • Mô hình tĩnh (hoặc mô hình ngoại tuyến) là mô hình được huấn luyện một lần rồi sử dụng trong một thời gian.
  • Huấn luyện tĩnh (hoặc huấn luyện ngoại tuyến) là quy trình huấn luyện một mô hình tĩnh.
  • Suy luận tĩnh (hoặc suy luận ngoại tuyến) là một quy trình trong đó mô hình tạo ra một loạt dự đoán cùng một lúc.

Tương phản với động.

suy luận tĩnh

#fundamentals

Đồng nghĩa với suy luận ngoại tuyến.

tính chất không đổi

#fundamentals

Một đặc điểm có giá trị không thay đổi trên một hoặc nhiều phương diện, thường là thời gian. Ví dụ: một đặc điểm có các giá trị gần giống nhau trong năm 2021 và năm 2023 cho thấy tính chất không đổi.

Trong thế giới thực, rất ít đặc điểm thể hiện tính chất không đổi. Ngay cả những đặc điểm đồng nghĩa với sự ổn định (như mực nước biển) cũng thay đổi theo thời gian.

Tương phản với tính không ổn định.

Nhấp vào bước tiếp theo.

Một lượt truyền dữ liệu tới và lui của một .

Xem phần truyền ngược để biết thêm thông tin về lượt truyền tới và lượt truyền lui.

kích thước bước

Từ đồng nghĩa với tốc độ học.

phương pháp giảm độ dốc ngẫu nhiên (SGD)

#fundamentals

Thuật toán xuống dốc theo độ dốc trong đó kích thước lô là một. Nói cách khác, SGD huấn luyện trên một ví dụ duy nhất được chọn ngẫu nhiên một cách đồng nhất từ một tập huấn luyện.

sải chân

#image

Trong một phép toán tích chập hoặc hợp nhất, delta trong mỗi phương diện của loạt lát cắt đầu vào tiếp theo. Ví dụ: ảnh động sau đây minh hoạ bước (1,1) trong một phép toán tích chập. Do đó, lát cắt đầu vào tiếp theo bắt đầu ở vị trí bên phải lát cắt đầu vào trước đó. Khi thao tác này đạt đến cạnh phải, lát cắt tiếp theo sẽ nằm ở bên trái nhưng thấp hơn một vị trí.

Một ma trận đầu vào 5x5 và một bộ lọc tích chập 3x3. Vì bước là (1,1), nên bộ lọc tích chập sẽ được áp dụng 9 lần. Lát cắt tích chập đầu tiên đánh giá ma trận con 3x3 ở trên cùng bên trái của ma trận đầu vào. Lát cắt thứ hai đánh giá ma trận con 3x3 ở giữa trên cùng. Lát cắt tích chập thứ ba đánh giá ma trận con 3x3 ở trên cùng bên phải.  Lát cắt thứ tư đánh giá ma trận con 3x3 ở giữa bên trái.
     Lát cắt thứ năm đánh giá ma trận con 3x3 ở giữa. Lát cắt thứ sáu đánh giá ma trận con 3x3 ở giữa bên phải. Lát cắt thứ bảy đánh giá ma trận con 3x3 ở dưới cùng bên trái.  Lát cắt thứ tám đánh giá ma trận con 3x3 ở giữa dưới cùng. Lát cắt thứ chín đánh giá ma trận con 3x3 ở dưới cùng bên phải.

Ví dụ trước minh hoạ một bước hai chiều. Nếu ma trận đầu vào là ba chiều, thì bước cũng sẽ là ba chiều.

giảm thiểu rủi ro theo cấu trúc (SRM)

Một thuật toán cân bằng hai mục tiêu:

  • Cần xây dựng mô hình dự đoán chính xác nhất (ví dụ: tổn thất thấp nhất).
  • Cần giữ cho mô hình càng đơn giản càng tốt (ví dụ: quy tắc chuẩn hoá mạnh).

Ví dụ: một hàm giúp giảm thiểu tổn thất + quy trình chuẩn hoá trên tập huấn luyện là thuật toán giảm thiểu rủi ro theo cấu trúc.

Tương phản với giảm thiểu rủi ro theo thực nghiệm.

lấy mẫu phụ

#image

Xem phần gộp.

mã thông báo từ phụ

#language

Trong mô hình ngôn ngữ, mã thông báo là một chuỗi con của một từ, có thể là toàn bộ từ.

Ví dụ: một từ như "itemize" có thể được chia thành các phần "item" (từ gốc) và "ize" (hậu tố), mỗi phần được biểu thị bằng một mã thông báo riêng. Việc chia các từ không phổ biến thành các phần như vậy (gọi là từ phụ) cho phép các mô hình ngôn ngữ hoạt động trên các thành phần phổ biến hơn của từ, chẳng hạn như tiền tố và hậu tố.

Ngược lại, các từ phổ biến như "going" (sẽ) có thể không bị chia nhỏ và có thể được biểu thị bằng một mã thông báo duy nhất.

tóm tắt

#TensorFlow

Trong TensorFlow, một giá trị hoặc tập hợp các giá trị được tính toán tại một bước cụ thể, thường được dùng để theo dõi các chỉ số của mô hình trong quá trình huấn luyện.

học máy có giám sát

#fundamentals

Huấn luyện mô hình từ các đặc điểmnhãn tương ứng. Học máy có giám sát tương tự như việc học một môn học bằng cách nghiên cứu một bộ câu hỏi và câu trả lời tương ứng. Sau khi nắm vững mối liên kết giữa câu hỏi và câu trả lời, học viên có thể đưa ra câu trả lời cho các câu hỏi mới (chưa từng thấy) về cùng một chủ đề.

So sánh với công nghệ học máy không giám sát.

tính năng tổng hợp

#fundamentals

Một tính năng không có trong các tính năng đầu vào, nhưng được tập hợp từ một hoặc nhiều tính năng đầu vào. Sau đây là các phương thức tạo tính năng tổng hợp:

  • Gộp nhóm một đặc điểm liên tục vào các nhóm phạm vi.
  • Tạo điểm giao nhau của tính năng.
  • Nhân (hoặc chia) một giá trị đặc điểm với(các) giá trị đặc điểm khác hoặc với chính giá trị đó. Ví dụ: nếu ab là các tính năng đầu vào, thì sau đây là ví dụ về các tính năng tổng hợp:
    • ab
    • a2
  • Áp dụng hàm siêu việt cho một giá trị đặc điểm. Ví dụ: nếu c là một đặc điểm đầu vào, thì sau đây là ví dụ về các đặc điểm tổng hợp:
    • sin(c)
    • ln(c)

Các tính năng được tạo bằng cách bình thường hoá hoặc điều chỉnh theo tỷ lệ thì không được coi là tính năng tổng hợp.

T

T5

#language

Mô hình học chuyển đổi văn bản sang văn bản do AI của Google ra mắt vào năm 2020. T5 là mô hình mã hoá-giải mã, dựa trên cấu trúc Transformer, được huấn luyện trên một tập dữ liệu cực lớn. Công nghệ này hiệu quả trong nhiều nhiệm vụ xử lý ngôn ngữ tự nhiên, chẳng hạn như tạo văn bản, dịch ngôn ngữ và trả lời câu hỏi theo cách trò chuyện.

T5 được đặt tên theo 5 chữ T trong cụm từ "Text-to-Text Transfer Transformer" (Chuyển đổi văn bản sang văn bản).

T5X

#language

Khung học máy nguồn mở được thiết kế để xây dựng và huấn luyện các mô hình xử lý ngôn ngữ tự nhiên (NLP) trên quy mô lớn. T5 được triển khai trên cơ sở mã T5X (được xây dựng trên JAXFlax).

học Q dạng bảng

#rl

Trong học tăng cường, hãy triển khai học Q bằng cách sử dụng bảng để lưu trữ hàm Q cho mọi tổ hợp trạng tháihành động.

mục tiêu

Từ đồng nghĩa với nhãn.

mạng mục tiêu

#rl

Trong Deep Q-learning, mạng nơron là một giá trị gần đúng ổn định của mạng nơron chính, trong đó mạng nơron chính triển khai hàm Q hoặc chính sách. Sau đó, bạn có thể huấn luyện mạng chính trên các giá trị Q do mạng mục tiêu dự đoán. Do đó, bạn sẽ ngăn vòng lặp phản hồi xảy ra khi mạng chính huấn luyện dựa trên các giá trị Q do chính mạng dự đoán. Bằng cách tránh phản hồi này, độ ổn định của quá trình huấn luyện sẽ tăng lên.

tác vụ

Một vấn đề có thể giải quyết bằng các kỹ thuật học máy, chẳng hạn như:

nhiệt độ

#language
#image
#generativeAI

Thông số siêu dữ liệu kiểm soát mức độ ngẫu nhiên của đầu ra của mô hình. Nhiệt độ càng cao thì đầu ra càng ngẫu nhiên, còn nhiệt độ càng thấp thì đầu ra càng ít ngẫu nhiên.

Việc chọn nhiệt độ tốt nhất phụ thuộc vào ứng dụng cụ thể và các thuộc tính ưu tiên của đầu ra của mô hình. Ví dụ: bạn có thể tăng nhiệt độ khi tạo một ứng dụng tạo ra đầu ra mẫu quảng cáo. Ngược lại, bạn có thể giảm nhiệt độ khi xây dựng mô hình phân loại hình ảnh hoặc văn bản để cải thiện độ chính xác và tính nhất quán của mô hình.

Nhiệt độ thường được sử dụng với softmax.

dữ liệu theo thời gian

Dữ liệu được ghi lại tại nhiều thời điểm. Ví dụ: doanh số bán áo khoác mùa đông được ghi lại cho mỗi ngày trong năm sẽ là dữ liệu theo thời gian.

Tensor

#TensorFlow

Cấu trúc dữ liệu chính trong các chương trình TensorFlow. Tensor là các cấu trúc dữ liệu N chiều (trong đó N có thể rất lớn), thường là các đại lượng vô hướng, vectơ hoặc ma trận. Các phần tử của Tensor có thể chứa giá trị số nguyên, dấu phẩy động hoặc chuỗi.

TensorBoard

#TensorFlow

Trang tổng quan hiển thị bản tóm tắt được lưu trong quá trình thực thi một hoặc nhiều chương trình TensorFlow.

TensorFlow

#TensorFlow

Một nền tảng học máy phân tán, quy mô lớn. Thuật ngữ này cũng đề cập đến lớp API cơ sở trong ngăn xếp TensorFlow, hỗ trợ tính toán chung trên biểu đồ luồng dữ liệu.

Mặc dù TensorFlow chủ yếu được dùng cho công nghệ học máy, nhưng bạn cũng có thể sử dụng TensorFlow cho các tác vụ không phải công nghệ học máy cần tính toán số học bằng cách sử dụng biểu đồ luồng dữ liệu.

TensorFlow Playground

#TensorFlow

Một chương trình trực quan hoá mức độ ảnh hưởng của các tham số siêu dữ liệu khác nhau đối với việc huấn luyện mô hình (chủ yếu là mạng nơron). Truy cập vào http://playground.tensorflow.org để thử nghiệm với TensorFlow Playground.

TensorFlow Serving

#TensorFlow

Một nền tảng để triển khai các mô hình đã huấn luyện trong môi trường thực tế.

Bộ xử lý tensor (TPU)

#TensorFlow
#GoogleCloud

Một mạch tích hợp (ASIC) dành riêng cho ứng dụng giúp tối ưu hoá hiệu suất của khối lượng công việc học máy. Các ASIC này được triển khai dưới dạng nhiều chip TPU trên một thiết bị TPU.

Hạng tensor

#TensorFlow

Xem phần hạng (Tensor).

Hình dạng tensor

#TensorFlow

Số lượng phần tử mà Tensor chứa trong nhiều phương diện. Ví dụ: Tensor [5, 10] có hình dạng 5 theo một chiều và 10 theo chiều khác.

Kích thước tensor

#TensorFlow

Tổng số đại lượng vô hướng mà Tensor chứa. Ví dụ: Tensor [5, 10] có kích thước là 50.

TensorStore

Một thư viện để đọc và ghi các mảng lớn nhiều chiều một cách hiệu quả.

điều kiện chấm dứt

#rl

Trong học tăng cường, các điều kiện xác định thời điểm kết thúc một tập, chẳng hạn như khi tác nhân đạt đến một trạng thái nhất định hoặc vượt quá số lượng chuyển đổi trạng thái ngưỡng. Ví dụ: trong trò tic-tac-toe (còn gọi là trò ô ăn quan), một ván chơi kết thúc khi người chơi đánh dấu 3 ô liên tiếp hoặc khi tất cả ô đều được đánh dấu.

thử nghiệm

#df

Trong cây quyết định, tên khác của điều kiện.

tổn thất kiểm thử

#fundamentals

Một chỉ số thể hiện mất mát của mô hình so với tập dữ liệu kiểm thử. Khi xây dựng một mô hình, bạn thường cố gắng giảm thiểu tổn thất thử nghiệm. Đó là do tổn thất kiểm thử thấp là một tín hiệu chất lượng mạnh hơn so với tổn thất huấn luyện hoặc tổn thất xác thực thấp.

Đôi khi, khoảng cách lớn giữa tổn thất kiểm thử và tổn thất huấn luyện hoặc tổn thất xác thực cho thấy rằng bạn cần tăng tỷ lệ chuẩn hoá.

tập kiểm thử

Một tập hợp con của tập dữ liệu được dành riêng để kiểm thử một mô hình đã huấn luyện.

Theo truyền thống, bạn chia các ví dụ trong tập dữ liệu thành 3 tập hợp con riêng biệt sau:

Mỗi ví dụ trong một tập dữ liệu chỉ được thuộc về một trong các tập con trước đó. Ví dụ: một ví dụ không được thuộc cả tập huấn luyện và tập kiểm thử.

Tập huấn luyện và tập xác thực đều liên quan chặt chẽ đến việc huấn luyện mô hình. Vì tập kiểm thử chỉ liên kết gián tiếp với quá trình huấn luyện, nên tổn thất kiểm thử là một chỉ số chất lượng cao hơn, ít thiên vị hơn so với tổn thất huấn luyện hoặc tổn thất xác thực.

span văn bản

#language

Phạm vi chỉ mục mảng được liên kết với một tiểu mục cụ thể của chuỗi văn bản. Ví dụ: từ good trong chuỗi Python s="Be good now" chiếm khoảng văn bản từ 3 đến 6.

tf.Example

#TensorFlow

Một vùng đệm giao thức tiêu chuẩn để mô tả dữ liệu đầu vào cho quá trình huấn luyện hoặc suy luận mô hình học máy.

tf.keras

#TensorFlow

Cách triển khai Keras được tích hợp vào TensorFlow.

ngưỡng (đối với cây quyết định)

#df

Trong điều kiện căn chỉnh theo trục, giá trị mà một tính năng đang được so sánh. Ví dụ: 75 là giá trị ngưỡng trong điều kiện sau:

grade >= 75

phân tích chuỗi thời gian

#clustering

Một lĩnh vực phụ của học máy và số liệu thống kê phân tích dữ liệu theo thời gian. Nhiều loại vấn đề về học máy yêu cầu phân tích chuỗi thời gian, bao gồm cả việc phân loại, phân cụm, dự đoán và phát hiện sự bất thường. Ví dụ: bạn có thể sử dụng tính năng phân tích chuỗi thời gian để dự đoán doanh số bán áo khoác mùa đông trong tương lai theo tháng dựa trên dữ liệu bán hàng trước đây.

bước thời gian

#seq

Một ô "đã mở ra" trong một mạng nơron tái sinh. Ví dụ: hình sau đây cho thấy ba bước thời gian (được gắn nhãn bằng các chỉ số dưới t-1, t và t+1):

Ba bước thời gian trong mạng nơron tái sinh. Đầu ra của bước thời gian đầu tiên sẽ trở thành đầu vào cho bước thời gian thứ hai. Đầu ra của bước thời gian thứ hai trở thành đầu vào cho bước thời gian thứ ba.

mã thông báo

#language

Trong mô hình ngôn ngữ, đơn vị nguyên tử mà mô hình đang đào tạo và đưa ra dự đoán. Mã thông báo thường là một trong những loại sau:

  • một từ – ví dụ: cụm từ "chó thích mèo" bao gồm 3 mã thông báo từ: "chó", "thích" và "mèo".
  • một ký tự – ví dụ: cụm từ "cá xe đạp" bao gồm 9 mã ký tự. (Lưu ý rằng khoảng trắng được tính là một trong các mã thông báo.)
  • từ phụ – trong đó một từ có thể là một mã thông báo hoặc nhiều mã thông báo. Từ phụ bao gồm một từ gốc, tiền tố hoặc hậu tố. Ví dụ: mô hình ngôn ngữ sử dụng từ phụ làm mã thông báo có thể xem từ "dogs" (chó) là hai mã thông báo (từ gốc "dog" (chó) và hậu tố số nhiều "s"). Cùng một mô hình ngôn ngữ đó có thể xem từ "taller" (cao hơn) là hai từ phụ (từ gốc "tall" (cao) và hậu tố "er").

Trong các miền bên ngoài mô hình ngôn ngữ, mã thông báo có thể đại diện cho các loại đơn vị nguyên tử khác. Ví dụ: trong thị giác máy tính, mã thông báo có thể là một tập hợp con của hình ảnh.

độ chính xác top-k

#language

Tỷ lệ phần trăm số lần "nhãn mục tiêu" xuất hiện trong k vị trí đầu tiên của danh sách được tạo. Danh sách có thể là các đề xuất được cá nhân hoá hoặc danh sách các mục được sắp xếp theo softmax.

Độ chính xác top-k còn được gọi là độ chính xác tại k.

tower

Một thành phần của mạng nơron sâu cũng chính là một mạng nơron sâu. Trong một số trường hợp, mỗi tháp đọc từ một nguồn dữ liệu độc lập và các tháp đó vẫn độc lập cho đến khi đầu ra của chúng được kết hợp trong một lớp cuối cùng. Trong các trường hợp khác (ví dụ: trong tháp mã hoágiải mã của nhiều Biến áp), các tháp có kết nối chéo với nhau.

nội dung độc hại

#language

Mức độ phản cảm, đe doạ hoặc lăng mạ của nội dung. Nhiều mô hình học máy có thể xác định và đo lường nội dung độc hại. Hầu hết các mô hình này xác định nội dung độc hại theo nhiều thông số, chẳng hạn như mức độ ngôn từ xúc phạm và mức độ ngôn từ đe doạ.

TPU

#TensorFlow
#GoogleCloud

Viết tắt của Bộ xử lý tensor.

Khối TPU

#TensorFlow
#GoogleCloud

Một bộ tăng tốc đại số tuyến tính có thể lập trình với bộ nhớ băng thông cao trên chip được tối ưu hoá cho khối lượng công việc học máy. Nhiều khối TPU được triển khai trên một thiết bị TPU.

Thiết bị TPU

#TensorFlow
#GoogleCloud

Một bảng mạch in (PCB) có nhiều chip TPU, giao diện mạng băng thông cao và phần cứng làm mát hệ thống.

TPU chính

#TensorFlow
#GoogleCloud

Quy trình điều phối trung tâm chạy trên máy chủ gửi và nhận dữ liệu, kết quả, chương trình, hiệu suất và thông tin về tình trạng hệ thống cho worker TPU. Máy chủ TPU cũng quản lý việc thiết lập và tắt thiết bị TPU.

Nút TPU

#TensorFlow
#GoogleCloud

Tài nguyên TPU trên Google Cloud có một loại TPU cụ thể. Nút TPU kết nối với Mạng VPC của bạn từ một mạng VPC ngang hàng. Nút TPU là một tài nguyên được xác định trong API Cloud TPU.

Viên TPU

#TensorFlow
#GoogleCloud

Cấu hình cụ thể của thiết bị TPU trong trung tâm dữ liệu của Google. Tất cả các thiết bị trong một Vùng chứa TPU đều kết nối với nhau qua một mạng tốc độ cao chuyên dụng. Vùng chứa TPU là cấu hình lớn nhất của thiết bị TPU có sẵn cho một phiên bản TPU cụ thể.

Tài nguyên TPU

#TensorFlow
#GoogleCloud

Một thực thể TPU trên Google Cloud mà bạn tạo, quản lý hoặc sử dụng. Ví dụ: các nút TPUcác loại TPU là tài nguyên TPU.

Lát TPU

#TensorFlow
#GoogleCloud

Lát cắt TPU là một phần nhỏ của thiết bị TPU trong một Vùng chứa TPU. Tất cả các thiết bị trong một lát cắt TPU đều được kết nối với nhau qua một mạng tốc độ cao chuyên dụng.

Loại TPU

#TensorFlow
#GoogleCloud

Cấu hình của một hoặc nhiều thiết bị TPU với một phiên bản phần cứng TPU cụ thể. Bạn chọn một loại TPU khi tạo nút TPU trên Google Cloud. Ví dụ: loại TPU v2-8 là một thiết bị TPU v2 đơn có 8 lõi. Loại TPU v3-2048 có 256 thiết bị TPU v3 nối mạng và tổng cộng 2048 lõi. Loại TPU là một tài nguyên được xác định trong API Cloud TPU.

Worker TPU

#TensorFlow
#GoogleCloud

Một quy trình chạy trên máy chủ và thực thi các chương trình học máy trên thiết bị TPU.

đào tạo

#fundamentals

Quá trình xác định các thông số lý tưởng (trọng số và độ lệch) bao gồm một mô hình. Trong quá trình huấn luyện, hệ thống sẽ đọc các ví dụ và dần điều chỉnh các tham số. Quá trình huấn luyện sử dụng mỗi ví dụ từ vài lần đến hàng tỷ lần.

tổn thất trong quá trình huấn luyện

#fundamentals

Một chỉ số thể hiện mất mát của mô hình trong một vòng lặp huấn luyện cụ thể. Ví dụ: giả sử hàm tổn thất là Sai số bình phương trung bình. Có thể tổn thất huấn luyện (Lỗi trung bình theo bình phương) cho lần lặp thứ 10 là 2,2 và tổn thất huấn luyện cho lần lặp thứ 100 là 1,9.

Đường cong tổn thất biểu thị tổn thất trong quá trình huấn luyện so với số lần lặp lại. Đường cong tổn thất cung cấp các gợi ý sau đây về quá trình huấn luyện:

  • Độ dốc hướng xuống cho biết mô hình đang cải thiện.
  • Độ dốc lên trên cho thấy mô hình đang trở nên tệ hơn.
  • Độ dốc phẳng ngụ ý rằng mô hình đã đạt đến trạng thái hội tụ.

Ví dụ: Đường cong tổn hao lý tưởng sau đây cho thấy:

  • Độ dốc giảm mạnh trong các lần lặp lại ban đầu, cho thấy mô hình được cải thiện nhanh chóng.
  • Độ dốc dần dần phẳng hơn (nhưng vẫn đi xuống) cho đến gần cuối quá trình huấn luyện, điều này có nghĩa là mô hình tiếp tục cải thiện ở tốc độ chậm hơn một chút so với trong các lần lặp lại ban đầu.
  • Độ dốc phẳng về cuối quá trình huấn luyện, cho thấy sự hội tụ.

Biểu đồ về tổn thất huấn luyện so với số lần lặp lại. Đường cong tổn thất này bắt đầu bằng một độ dốc giảm mạnh. Độ dốc dần dần trở nên phẳng cho đến khi độ dốc trở thành 0.

Mặc dù tổn thất trong quá trình huấn luyện là quan trọng, nhưng bạn cũng nên xem xét tính tổng quát.

độ lệch phân phối dữ liệu huấn luyện

#fundamentals

Sự khác biệt giữa hiệu suất của một mô hình trong quá trình huấn luyện và hiệu suất của cùng một mô hình đó trong quá trình phân phát.

tập huấn luyện

#fundamentals

Tập hợp con của tập dữ liệu dùng để huấn luyện mô hình.

Theo truyền thống, các ví dụ trong tập dữ liệu được chia thành 3 tập con riêng biệt sau:

Lý tưởng nhất là mỗi ví dụ trong tập dữ liệu chỉ thuộc về một trong các tập hợp con trước đó. Ví dụ: một ví dụ không được thuộc cả tập huấn luyện và tập xác thực.

quỹ đạo

#rl

Trong học tăng cường, một trình tự các bộ dữ liệu đại diện cho một trình tự chuyển đổi trạng thái của tác nhân, trong đó mỗi bộ dữ liệu tương ứng với trạng thái, hành động, phần thưởng và trạng thái tiếp theo cho một quá trình chuyển đổi trạng thái nhất định.

học chuyển giao

Chuyển thông tin từ một tác vụ học máy sang một tác vụ khác. Ví dụ: trong phương pháp học đa nhiệm, một mô hình duy nhất giải quyết nhiều nhiệm vụ, chẳng hạn như mô hình sâu có các nút đầu ra khác nhau cho các nhiệm vụ khác nhau. Học chuyển đổi có thể liên quan đến việc chuyển kiến thức từ giải pháp của một nhiệm vụ đơn giản hơn sang một nhiệm vụ phức tạp hơn, hoặc liên quan đến việc chuyển kiến thức từ một nhiệm vụ có nhiều dữ liệu sang một nhiệm vụ có ít dữ liệu hơn.

Hầu hết các hệ thống học máy đều giải quyết một tác vụ duy nhất. Học chuyển đổi là một bước nhỏ hướng tới trí tuệ nhân tạo, trong đó một chương trình duy nhất có thể giải quyết nhiều nhiệm vụ.

Biến áp

#language

Kiến trúc mạng nơron được phát triển tại Google dựa vào cơ chế tự chú ý để chuyển đổi một trình tự nhúng đầu vào thành một trình tự nhúng đầu ra mà không cần dựa vào lớp phủ hoặc mạng nơron tái sinh. Bạn có thể xem một Transformer là một ngăn xếp các lớp tự chú ý.

Một Biến đổi có thể bao gồm bất kỳ thành phần nào sau đây:

Bộ mã hoá chuyển đổi một chuỗi các phần nhúng thành một chuỗi mới có cùng độ dài. Bộ mã hoá bao gồm N lớp giống hệt nhau, mỗi lớp chứa hai lớp phụ. Hai lớp phụ này được áp dụng tại mỗi vị trí của trình tự nhúng đầu vào, biến đổi từng phần tử của trình tự thành một phần nhúng mới. Lớp con bộ mã hoá đầu tiên tổng hợp thông tin từ toàn bộ trình tự đầu vào. Lớp con bộ mã hoá thứ hai chuyển đổi thông tin tổng hợp thành một phần nhúng đầu ra.

Bộ giải mã biến đổi một chuỗi các mục nhúng đầu vào thành một chuỗi các mục nhúng đầu ra, có thể có độ dài khác. Bộ giải mã cũng bao gồm N lớp giống hệt nhau với 3 lớp con, trong đó 2 lớp con tương tự như các lớp con của bộ mã hoá. Lớp con giải mã thứ ba lấy đầu ra của bộ mã hoá và áp dụng cơ chế tự chú ý để thu thập thông tin từ đó.

Bài đăng trên blog Transformer: A Novel Neural Network Architecture for Language Understanding (Transformer: Cấu trúc mạng nơron mới để hiểu ngôn ngữ) cung cấp thông tin giới thiệu hữu ích về Transformer.

bất biến theo phép dịch

#image

Trong một vấn đề phân loại hình ảnh, khả năng của thuật toán để phân loại thành công hình ảnh ngay cả khi vị trí của các đối tượng trong hình ảnh thay đổi. Ví dụ: thuật toán vẫn có thể xác định một con chó, cho dù nó ở giữa khung hay ở cuối khung bên trái.

Xem thêm về bất biến theo kích thướcbất biến theo độ xoay.

ba ký tự

#seq
#language

N-gram trong đó N=3.

âm tính thật (TN)

#fundamentals

Ví dụ về trường hợp mô hình đã dự đoán chính xác lớp âm tính. Ví dụ: mô hình suy luận rằng một thư email cụ thể không phải là thư rác và thư email đó thực sự không phải là thư rác.

dương tính thật (TP)

#fundamentals

Ví dụ về trường hợp mô hình chính xác dự đoán lớp dương tính. Ví dụ: mô hình suy luận rằng một email cụ thể là thư rác và email đó thực sự là thư rác.

tỷ lệ dương tính thật (TPR)

#fundamentals

Từ đồng nghĩa với gợi nhắc. Đó là:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Tỷ lệ dương tính thật là trục y trong đường cong ROC.

U

không biết (về một thuộc tính nhạy cảm)

#fairness

Tình huống trong đó các thuộc tính nhạy cảm xuất hiện nhưng không có trong dữ liệu huấn luyện. Vì các thuộc tính nhạy cảm thường có mối tương quan với các thuộc tính khác trong dữ liệu của một người, nên một mô hình được huấn luyện mà không nhận biết được thuộc tính nhạy cảm vẫn có thể có tác động khác biệt đối với thuộc tính đó hoặc vi phạm các quy tắc ràng buộc về tính công bằng khác.

không đủ điều kiện

#fundamentals

Tạo một mô hình có khả năng dự đoán kém vì mô hình chưa nắm bắt đầy đủ độ phức tạp của dữ liệu huấn luyện. Có nhiều vấn đề có thể gây ra tình trạng không phù hợp, bao gồm:

lấy mẫu không đủ

Xoá ví dụ khỏi lớp đa số trong tập dữ liệu bất cân đối về loại để tạo tập huấn luyện cân bằng hơn.

Ví dụ: hãy xem xét một tập dữ liệu trong đó tỷ lệ của lớp đa số với lớp thiểu số là 20:1. Để khắc phục sự mất cân bằng lớp này, bạn có thể tạo một tập huấn luyện bao gồm tất cả ví dụ về lớp thiểu số nhưng chỉ một phần mười ví dụ về lớp đa số, điều này sẽ tạo ra tỷ lệ lớp tập huấn luyện là 2:1. Nhờ việc lấy mẫu không đủ, tập huấn luyện cân bằng hơn này có thể tạo ra một mô hình tốt hơn. Ngoài ra, tập huấn luyện cân bằng hơn này có thể chứa không đủ ví dụ để huấn luyện một mô hình hiệu quả.

Tương phản với quá lấy mẫu.

một chiều

#language

Một hệ thống chỉ đánh giá văn bản trước một phần văn bản mục tiêu. Ngược lại, hệ thống hai chiều đánh giá cả văn bản trướcsau một phần văn bản mục tiêu. Hãy xem phần hai chiều để biết thêm chi tiết.

mô hình ngôn ngữ một chiều

#language

Mô hình ngôn ngữ chỉ dựa trên xác suất của các mã thông báo xuất hiện trước, chứ không phải sau, (các) mã thông báo mục tiêu. Tương phản với mô hình ngôn ngữ hai chiều.

dữ liệu không nhãn

#fundamentals

Ví dụ chứa tính năng nhưng không có nhãn. Ví dụ: bảng sau đây cho thấy 3 ví dụ chưa được gắn nhãn của một mô hình định giá nhà, mỗi ví dụ có 3 đặc điểm nhưng không có giá trị nhà:

Số lượng phòng ngủ Số lượng phòng tắm Tuổi nhà
3 2 15
2 1 72
4 2 34

Trong công nghệ học máy có giám sát, các mô hình được huấn luyện dựa trên các ví dụ được gắn nhãn và đưa ra dự đoán dựa trên các ví dụ không được gắn nhãn.

Trong phương pháp học bán giám sátkhông giám sát, các ví dụ chưa được gắn nhãn sẽ được sử dụng trong quá trình huấn luyện.

So sánh ví dụ không có nhãn với ví dụ có nhãn.

học máy không giám sát

#clustering
#fundamentals

Huấn luyện mô hình để tìm các mẫu trong một tập dữ liệu, thường là một tập dữ liệu chưa được gắn nhãn.

Cách sử dụng phổ biến nhất của công nghệ học máy không giám sát là nhóm dữ liệu thành các nhóm ví dụ tương tự. Ví dụ: thuật toán học máy không giám sát có thể phân cụm các bài hát dựa trên nhiều thuộc tính của bản nhạc. Các cụm thu được có thể trở thành dữ liệu đầu vào cho các thuật toán học máy khác (ví dụ: cho một dịch vụ đề xuất nhạc). Tính năng cụm có thể hữu ích khi không có hoặc có rất ít nhãn hữu ích. Ví dụ: trong các lĩnh vực như chống hành vi sai trái và gian lận, cụm có thể giúp con người hiểu rõ hơn về dữ liệu.

Khác với công nghệ học máy có giám sát.

lập mô hình mức tăng

Một kỹ thuật lập mô hình, thường được dùng trong hoạt động tiếp thị, mô hình hoá "hiệu ứng nhân quả" (còn gọi là "tác động gia tăng") của "phương pháp điều trị" đối với "cá nhân". Dưới đây là hai ví dụ:

  • Bác sĩ có thể sử dụng mô hình mức tăng để dự đoán mức giảm tỷ lệ tử vong (hiệu ứng nhân quả) của một quy trình y tế (phương pháp điều trị) tuỳ thuộc vào độ tuổi và tiền sử bệnh tật của một bệnh nhân (cá nhân).
  • Nhà tiếp thị có thể sử dụng mô hình mức tăng để dự đoán mức tăng về khả năng mua hàng (hiệu ứng nhân quả) do một quảng cáo (phương pháp điều trị) tác động đến một người (cá nhân).

Mô hình mức tăng khác với phân loại hoặc biến hồi quy ở chỗ một số nhãn (ví dụ: một nửa số nhãn trong các phương pháp điều trị nhị phân) luôn bị thiếu trong mô hình mức tăng. Ví dụ: một bệnh nhân có thể được điều trị hoặc không được điều trị; do đó, chúng ta chỉ có thể quan sát xem bệnh nhân có khỏi bệnh hay không trong một trong hai trường hợp này (nhưng không bao giờ là cả hai). Ưu điểm chính của mô hình mức tăng là có thể tạo ra dự đoán cho tình huống không được quan sát (đối chứng) và sử dụng dự đoán đó để tính toán hiệu ứng nhân quả.

tăng trọng số

Áp dụng trọng số cho lớp đã giảm mẫu bằng hệ số mà bạn đã giảm mẫu.

ma trận người dùng

#recsystems

Trong hệ thống đề xuất, vectơ nhúng do phân tích ma trận tạo ra chứa các tín hiệu tiềm ẩn về lựa chọn ưu tiên của người dùng. Mỗi hàng của ma trận người dùng chứa thông tin về cường độ tương đối của nhiều tín hiệu tiềm ẩn cho một người dùng. Ví dụ: hãy xem xét một hệ thống đề xuất phim. Trong hệ thống này, các tín hiệu tiềm ẩn trong ma trận người dùng có thể thể hiện mối quan tâm của từng người dùng đối với các thể loại cụ thể, hoặc có thể là các tín hiệu khó diễn giải hơn liên quan đến các hoạt động tương tác phức tạp trên nhiều yếu tố.

Ma trận người dùng có một cột cho mỗi đặc điểm tiềm ẩn và một hàng cho mỗi người dùng. Tức là ma trận người dùng có cùng số hàng với ma trận mục tiêu đang được phân tích. Ví dụ: với một hệ thống đề xuất phim cho 1.000.000 người dùng, ma trận người dùng sẽ có 1.000.000 hàng.

V

xác thực

#fundamentals

Đánh giá ban đầu về chất lượng của một mô hình. Quy trình xác thực kiểm tra chất lượng của kết quả dự đoán của mô hình dựa trên tập hợp dữ liệu xác thực.

Vì tập hợp xác thực khác với tập hợp huấn luyện, nên việc xác thực giúp ngăn chặn hiệu ứng hồi quy quá mức.

Bạn có thể coi việc đánh giá mô hình dựa trên tập hợp dữ liệu xác thực là vòng kiểm thử đầu tiên và đánh giá mô hình dựa trên tập hợp dữ liệu kiểm thử là vòng kiểm thử thứ hai.

tổn thất xác thực

#fundamentals

Một chỉ số thể hiện mất mát của mô hình trên tập hợp dữ liệu xác thực trong một lặp lại cụ thể của quá trình huấn luyện.

Xem thêm đường cong tổng quát hoá.

tập hợp xác thực

#fundamentals

Tập hợp con của tập dữ liệu thực hiện đánh giá ban đầu dựa trên một mô hình đã huấn luyện. Thông thường, bạn sẽ đánh giá mô hình đã huấn luyện dựa trên tập dữ liệu xác thực nhiều lần trước khi đánh giá mô hình dựa trên tập dữ liệu kiểm thử.

Theo truyền thống, bạn chia các ví dụ trong tập dữ liệu thành 3 tập hợp con riêng biệt sau:

Lý tưởng nhất là mỗi ví dụ trong tập dữ liệu chỉ thuộc về một trong các tập hợp con trước đó. Ví dụ: một ví dụ không được thuộc cả tập huấn luyện và tập xác thực.

nội suy giá trị

Quá trình thay thế một giá trị bị thiếu bằng một giá trị thay thế được chấp nhận. Khi thiếu một giá trị, bạn có thể loại bỏ toàn bộ ví dụ hoặc sử dụng tính năng nội suy giá trị để khôi phục ví dụ.

Ví dụ: hãy xem xét một tập dữ liệu chứa một đặc điểm temperature được ghi lại mỗi giờ. Tuy nhiên, chỉ số nhiệt độ không có sẵn trong một giờ cụ thể. Dưới đây là một phần của tập dữ liệu:

Dấu thời gian Nhiệt độ
1680561000 10
1680564600 12
1680568200 bị thiếu
1680571800 20
1680575400 21
1680579000 21

Hệ thống có thể xoá ví dụ bị thiếu hoặc gán giá trị nhiệt độ bị thiếu là 12, 16, 18 hoặc 20, tuỳ thuộc vào thuật toán gán giá trị.

vấn đề về độ dốc biến mất

#seq

Xu hướng của độ dốc của các lớp ẩn ban đầu của một số mạng nơron sâu trở nên phẳng một cách đáng ngạc nhiên (thấp). Độ dốc ngày càng thấp dẫn đến các thay đổi ngày càng nhỏ đối với trọng số trên các nút trong mạng nơron sâu, dẫn đến việc học ít hoặc không học được. Các mô hình gặp phải vấn đề về độ dốc biến mất sẽ khó hoặc không thể huấn luyện. Các ô Bộ nhớ ngắn hạn dài sẽ giải quyết vấn đề này.

So sánh với vấn đề về độ dốc tăng vọt.

mức độ quan trọng của biến

#df

Một tập hợp điểm số cho biết mức độ quan trọng tương đối của từng tính năng đối với mô hình.

Ví dụ: hãy xem xét một cây quyết định giúp ước tính giá nhà. Giả sử cây quyết định này sử dụng 3 tính năng: kích thước, độ tuổi và kiểu dáng. Nếu một tập hợp các mức độ quan trọng của biến cho 3 đặc điểm được tính là {size=5.8, age=2.5, style=4.7}, thì kích thước sẽ quan trọng hơn đối với cây quyết định so với độ tuổi hoặc kiểu dáng.

Có nhiều chỉ số về tầm quan trọng của biến, có thể cung cấp thông tin cho các chuyên gia về học máy về nhiều khía cạnh của mô hình.

bộ tự động mã hoá biến thiên (VAE)

#language

Một loại tự động mã hoá tận dụng sự khác biệt giữa dữ liệu đầu vào và đầu ra để tạo các phiên bản sửa đổi của dữ liệu đầu vào. Bộ tự mã hoá biến thiên rất hữu ích cho AI tạo sinh.

VAE dựa trên suy luận biến thiên: một kỹ thuật để ước tính các tham số của mô hình xác suất.

vectơ

Thuật ngữ rất bị nạp chồng, có ý nghĩa khác nhau tuỳ theo các lĩnh vực toán học và khoa học. Trong học máy, một vectơ có hai thuộc tính:

  • Loại dữ liệu: Các vectơ trong máy học thường chứa số dấu phẩy động.
  • Số lượng phần tử: Đây là độ dài của vectơ hoặc phương diện của vectơ.

Ví dụ: hãy xem xét một vectơ đặc trưng chứa tám số dấu phẩy động. Vectơ đặc điểm này có chiều dài hoặc chiều là 8. Xin lưu ý rằng các vectơ học máy thường có rất nhiều phương diện.

Bạn có thể biểu thị nhiều loại thông tin dưới dạng vectơ. Ví dụ:

  • Bất kỳ vị trí nào trên bề mặt Trái đất đều có thể được biểu thị dưới dạng một vectơ 2 chiều, trong đó một chiều là vĩ độ và chiều còn lại là kinh độ.
  • Giá hiện tại của mỗi trong số 500 cổ phiếu có thể được biểu thị dưới dạng một vectơ 500 chiều.
  • Bạn có thể biểu thị một hàm phân phối xác suất trên một số lượng lớp hữu hạn dưới dạng một vectơ. Ví dụ: hệ thống phân loại nhiều lớp dự đoán một trong ba màu đầu ra (đỏ, xanh lục hoặc vàng) có thể xuất ra vectơ (0.3, 0.2, 0.5) có nghĩa là P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

Các vectơ có thể được nối với nhau; do đó, nhiều nội dung đa phương tiện có thể được biểu thị dưới dạng một vectơ duy nhất. Một số mô hình hoạt động trực tiếp trên việc nối nhiều mã hoá one-hot.

Bộ xử lý chuyên biệt như TPU được tối ưu hoá để thực hiện các phép toán trên vectơ.

Vectơ là một tensorhạng 1.

W

Hàm mất mát Wasserstein

Một trong những hàm tổn thất thường được dùng trong mạng đối kháng tạo sinh, dựa trên khoảng cách của máy di chuyển đất giữa việc phân phối dữ liệu được tạo và dữ liệu thực.

cân nặng

#fundamentals

Giá trị mà một mô hình nhân với một giá trị khác. Huấn luyện là quá trình xác định trọng số lý tưởng của mô hình; dự đoán là quá trình sử dụng các trọng số đã học đó để đưa ra dự đoán.

Phương pháp bình phương tối thiểu luân phiên có trọng số (WALS)

#recsystems

Thuật toán để giảm thiểu hàm mục tiêu trong quá trình phân tích ma trận trong hệ thống đề xuất, cho phép giảm trọng số của các ví dụ bị thiếu. WALS giảm thiểu lỗi bình phương có trọng số giữa ma trận ban đầu và ma trận được tái tạo bằng cách luân phiên giữa việc sửa đổi phép phân tích theo hàng và phép phân tích theo cột. Bạn có thể giải quyết từng phương pháp tối ưu hoá này bằng tối ưu hoá lồi theo phương pháp bình phương nhỏ nhất. Để biết thông tin chi tiết, hãy xem khoá học Hệ thống đề xuất.

tổng trọng số

#fundamentals

Tổng của tất cả các giá trị đầu vào có liên quan nhân với trọng số tương ứng. Ví dụ: giả sử dữ liệu đầu vào có liên quan bao gồm:

giá trị đầu vào trọng số đầu vào
2 -1,3
-1 0,6
3 0,4

Do đó, tổng trọng số là:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Tổng trọng số là đối số đầu vào của một hàm kích hoạt.

mô hình rộng

Mô hình tuyến tính thường có nhiều tính năng đầu vào thưa thớt. Chúng tôi gọi đó là "rộng" vì mô hình như vậy là một loại mạng nơron đặc biệt với một lượng lớn đầu vào kết nối trực tiếp với nút đầu ra. Các mô hình rộng thường dễ gỡ lỗi và kiểm tra hơn so với mô hình sâu. Mặc dù các mô hình rộng không thể biểu thị tính phi tuyến tính thông qua các lớp ẩn, nhưng các mô hình rộng có thể sử dụng các phép biến đổi như giao nhau của các đặc điểmnhóm để lập mô hình tính phi tuyến tính theo nhiều cách.

Tương phản với mô hình sâu.

chiều rộng

Số lượng neuron trong một lớp cụ thể của một mạng nơron.

trí tuệ của đám đông

#df

Ý tưởng về việc lấy trung bình các ý kiến hoặc ước tính của một nhóm lớn người ("đám đông") thường mang lại kết quả tốt đến bất ngờ. Ví dụ: hãy xem xét một trò chơi mà mọi người đoán số lượng đậu phộng được đóng gói vào một lọ lớn. Mặc dù hầu hết các dự đoán riêng lẻ sẽ không chính xác, nhưng trung bình của tất cả các dự đoán đã được chứng minh bằng kinh nghiệm là gần với số lượng đậu phộng thực tế trong lọ.

Ensembles là một phần mềm tương tự như trí tuệ của đám đông. Ngay cả khi các mô hình riêng lẻ đưa ra dự đoán không chính xác, việc lấy trung bình các dự đoán của nhiều mô hình thường tạo ra kết quả dự đoán tốt một cách đáng ngạc nhiên. Ví dụ: mặc dù một cây quyết định riêng lẻ có thể đưa ra dự đoán không chính xác, nhưng rừng quyết định thường đưa ra dự đoán rất chính xác.

nhúng từ

#language

Đại diện cho từng từ trong một tập hợp từ trong một vectơ nhúng; tức là đại diện cho từng từ dưới dạng một vectơ gồm các giá trị dấu phẩy động từ 0 đến 1. Những từ có nghĩa tương tự sẽ có cách biểu thị tương tự hơn so với những từ có nghĩa khác nhau. Ví dụ: cà rốt, rau cần tâydưa chuột đều có cách thể hiện tương đối giống nhau, rất khác với cách thể hiện máy bay, kính râmkem đánh răng.

X

XLA (Đại số tuyến tính tăng tốc)

Trình biên dịch học máy nguồn mở dành cho GPU, CPU và trình tăng tốc học máy.

Trình biên dịch XLA lấy các mô hình từ các khung máy học phổ biến như PyTorch, TensorFlowJAX, đồng thời tối ưu hoá các mô hình đó để thực thi hiệu suất cao trên nhiều nền tảng phần cứng, bao gồm cả GPU, CPU và bộ tăng tốc máy học.

Z

học không có ví dụ

Một loại huấn luyện học máy, trong đó mô hình suy luận một dự đoán cho một nhiệm vụ mà mô hình chưa được huấn luyện cụ thể. Nói cách khác, mô hình không được cung cấp ví dụ đào tạo cụ thể theo nhiệm vụ nhưng được yêu cầu xác định cho nhiệm vụ đó.

đặt câu lệnh dựa trên không có ví dụ

#language
#generativeAI

Lệnh gọi không cung cấp ví dụ về cách bạn muốn mô hình ngôn ngữ lớn phản hồi. Ví dụ:

Các phần của một câu lệnh Ghi chú
Đơn vị tiền tệ chính thức của quốc gia đã chỉ định là gì? Câu hỏi mà bạn muốn LLM trả lời.
Ấn Độ: Cụm từ tìm kiếm thực tế.

Mô hình ngôn ngữ lớn có thể trả lời bằng bất kỳ nội dung nào sau đây:

  • Rupee
  • INR
  • Đồng rupi Ấn Độ
  • Rupee
  • Đồng rupi Ấn Độ

Tất cả các câu trả lời đều đúng, mặc dù bạn có thể muốn một định dạng cụ thể.

So sánh và đối chiếu lệnh nhắc không có ví dụ với các thuật ngữ sau:

Chuẩn hoá điểm Z

#fundamentals

Một kỹ thuật điều chỉnh theo tỷ lệ thay thế giá trị tính năng thô bằng giá trị dấu phẩy động biểu thị số độ lệch chuẩn so với giá trị trung bình của tính năng đó. Ví dụ: hãy xem xét một đặc điểm có giá trị trung bình là 800 và độ lệch chuẩn là 100. Bảng sau đây cho thấy cách chuẩn hoá điểm Z sẽ liên kết giá trị thô với điểm Z:

Giá trị thô Điểm Z
800 0
950 +1,5
575 -2,25

Sau đó, mô hình học máy sẽ huấn luyện dựa trên điểm Z cho tính năng đó thay vì dựa trên giá trị thô.