Bảng thuật ngữ máy học

Bảng thuật ngữ này định nghĩa các thuật ngữ chung về máy học, cộng với các cụm từ dành riêng cho TensorFlow.

A

sự phá huỷ

Kỹ thuật đánh giá tầm quan trọng của một tính năng hoặc thành phần bằng cách tạm thời xoá nó khỏi mô hình. Sau đó bạn huấn luyện lại mô hình mà không có tính năng hoặc thành phần đó, cũng như nếu mô hình được huấn luyện lại hoạt động kém hơn đáng kể, thì tính năng hoặc thành phần bị xoá có thể quan trọng.

Ví dụ: giả sử bạn huấn luyện một mô hình phân loại cho 10 tính năng và đạt được độ chính xác 88% trên nhóm kiểm thử. Để kiểm tra tầm quan trọng của tính năng đầu tiên, bạn có thể huấn luyện lại mô hình chỉ bằng 9 các tính năng AI mới. Nếu mô hình được huấn luyện lại có hiệu suất kém hơn đáng kể (ví dụ: 55%), thì tính năng bị xoá có thể đóng vai trò quan trọng. Ngược lại, nếu mô hình được huấn luyện lại hoạt động hiệu quả như nhau, thì tính năng đó có thể không quan trọng lắm.

Việc loại bỏ cũng có thể giúp xác định tầm quan trọng của:

  • Các thành phần lớn hơn, chẳng hạn như toàn bộ hệ thống con của một hệ thống học máy lớn hơn
  • Các quy trình hoặc kỹ thuật, chẳng hạn như bước xử lý trước dữ liệu

Trong cả hai trường hợp, bạn sẽ quan sát cách hiệu suất của hệ thống thay đổi (hoặc không thay đổi) sau khi bạn đã xoá thành phần.

Thử nghiệm A/B

Một phương pháp thống kê để so sánh hai (hoặc nhiều) kỹ thuật – A và nút B. Thông thường, A là một kỹ thuật hiện có và B là một kỹ thuật mới. Thử nghiệm A/B không chỉ xác định kỹ thuật nào hoạt động hiệu quả hơn mà còn cho biết liệu sự khác biệt có ý nghĩa thống kê hay không.

Thử nghiệm A/B thường so sánh một chỉ số duy nhất trên hai kỹ thuật; Ví dụ: độ chính xác của mô hình so sánh với kỹ thuật? Tuy nhiên, thử nghiệm A/B cũng có thể so sánh số lượng hữu hạn chỉ số.

chip tăng tốc

#GoogleCloud

Một loại thành phần phần cứng chuyên dụng được thiết kế để thực hiện phím các phép tính cần thiết cho thuật toán học sâu.

Khối tăng tốc (hoặc gọi tắt là trình tăng tốc) có thể đáng kể tăng tốc độ và hiệu quả của các tác vụ huấn luyện và suy luận so với một CPU đa năng. Phù hợp để tập huấn mạng nơron và các công việc tính toán tương tự chuyên sâu.

Ví dụ về khối tăng tốc:

  • Đơn vị xử lý Tensor của Google (TPU) với phần cứng chuyên dụng cho công nghệ học sâu.
  • GPU của NVIDIA, mặc dù ban đầu được thiết kế để xử lý đồ hoạ, được thiết kế để cho phép xử lý song song, điều này có thể đáng kể để tăng tốc độ xử lý.

độ chính xác

#fundamentals

Số cụm từ gợi ý phân loại chính xác đã chia với tổng số lần dự đoán. Đó là:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ví dụ: một mô hình đưa ra 40 dự đoán chính xác và 10 dự đoán sai các dự đoán sẽ có độ chính xác như sau:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Phân loại nhị phân cung cấp các tên cụ thể cho các loại cụm từ gợi ý chính xáccụm từ gợi ý không chính xác. Vì vậy, công thức độ chính xác để phân loại nhị phân như sau:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

trong đó:

So sánh và đối chiếu độ chính xác với độ chính xácghi nhớ.

Xem phần Phân loại: Độ chính xác, mức độ gợi nhớ, độ chính xác và nội dung liên quan chỉ số trong Khoá học nhanh về máy học để biết thêm thông tin.

hành động

#rl

Trong quá trình học tăng cường, cơ chế mà tác nhân người dùng chuyển đổi giữa các trạng thái của môi trường. Nhân viên hỗ trợ chọn hành động bằng cách sử dụng chính sách của chúng tôi.

hàm kích hoạt

#fundamentals

Một hàm cho phép mạng nơron học Mối quan hệ nonlinear (phức tạp) giữa các đối tượng và nhãn.

Các hàm kích hoạt phổ biến bao gồm:

Biểu đồ của các hàm kích hoạt không bao giờ là các đường thẳng đơn. Ví dụ: biểu đồ của hàm kích hoạt ReLU bao gồm hai đường thẳng:

Biểu đồ Cartesian gồm hai dòng. Dòng đầu tiên có hằng số
          giá trị y bằng 0, chạy dọc theo trục x từ -vô cực,0 đến 0,-0.
          Dòng thứ hai bắt đầu từ 0,0. Đường này có hệ số góc +1, vì vậy
          nó chạy từ 0,0 đến +vô cùng,+vô cùng.

Biểu đồ của hàm kích hoạt sigmoid có dạng như sau:

Một biểu đồ cong hai chiều có các giá trị x bao phủ miền
          từ vô cực đến + dương, còn giá trị y nằm trong khoảng từ gần 0 đến
          gần 1. Khi x bằng 0, y là 0,5. Độ dốc của đường cong luôn luôn
          là số dương, có độ dốc cao nhất (0,0,5) và giảm dần
          hệ số góc khi giá trị tuyệt đối của x tăng.

Xem phần Mạng nơron: Kích hoạt hàm trong Khoá học nhanh về máy học để biết thêm thông tin.

học tập chủ động

Phương pháp đào tạo trong đó thuật toán chọn một số dữ liệu mà thuật toán đó học được. Chủ động học tập đặc biệt có giá trị khi các ví dụ được gắn nhãn hiếm có hoặc đắt đỏ. Thay vì tìm kiếm một cách mù quáng một loạt các ví dụ được gắn nhãn, một thuật toán học tập chủ động sẽ tìm kiếm một cách có chọn lọc nhiều ví dụ cụ thể cần thiết cho việc học.

AdaGrad

Một thuật toán giảm độ dốc tinh vi để điều chỉnh tỷ lệ độ dốc của từng tham số, cung cấp hiệu quả cho mỗi thông số tốc độ học tập độc lập. Để biết nội dung giải thích đầy đủ, hãy xem bài viết AdaGrad này.

nhân viên hỗ trợ

#rl

Trong quá trình học tăng cường, thực thể sử dụng chính sách để tối đa hoá lợi tức dự kiến thu được từ chuyển đổi giữa các trạng thái của môi trường.

Nói chung, tác nhân là một phần mềm có khả năng tự lập kế hoạch và thực hiện một loạt hành động để theo đuổi mục tiêu, với khả năng thích ứng với các thay đổi trong môi trường của nó. Ví dụ: một tác nhân dựa trên LLM có thể sử dụng LLM (mô hình ngôn ngữ lớn) để lập kế hoạch thay vì áp dụng chính sách học tăng cường.

cụm tổng hợp

#clustering

Hãy xem nội dung phân cụm phân cấp.

phát hiện hoạt động bất thường

Quá trình xác định các điểm ngoại lai. Ví dụ: nếu giá trị trung bình cho một tính năng nhất định là 100 với độ lệch chuẩn là 10, thì tính năng phát hiện hoạt động bất thường sẽ gắn cờ giá trị 200 là đáng ngờ.

Thực tế tăng cường (AR)

Từ viết tắt cho thực tế tăng cường.

diện tích dưới đường cong PR

Xem PR AUC (Vùng dưới đường cong PR).

diện tích dưới đường cong ROC

Xem AUC (Diện tích dưới đường cong ROC).

trí tuệ nhân tạo tổng quát

Một cơ chế không do con người thực hiện thể hiện nhiều phương pháp giải quyết vấn đề, khả năng sáng tạo và khả năng thích ứng. Ví dụ: chương trình minh hoạ trí tuệ thông minh có thể dịch văn bản, soạn bản giao hưởng chúng rất giỏi trò chơi chưa được phát minh.

trí tuệ nhân tạo

#fundamentals

Một mô hình hoặc chương trình không do con người thực hiện có thể giải quyết những công việc phức tạp. Ví dụ: một chương trình hoặc mô hình dịch văn bản, một chương trình hoặc mô hình xác định bệnh từ hình ảnh phóng xạ đều cho thấy trí tuệ nhân tạo.

Về chính thức, máy học là một trường phụ của thông minh. Tuy nhiên, trong những năm gần đây, một số tổ chức đã bắt đầu sử dụng thuật ngữ trí tuệ nhân tạohọc máy thay thế cho nhau.

chú ý

#language

Một cơ chế được sử dụng trong mạng nơron cho biết tầm quan trọng của một từ cụ thể hoặc một phần của từ. Nén sự chú ý lượng thông tin mà mô hình cần để dự đoán mã thông báo/từ tiếp theo. Một cơ chế chú ý điển hình có thể bao gồm tổng có trọng số trên một tập hợp các dữ liệu đầu vào, trong đó weight cho mỗi giá trị đầu vào được tính toán bởi một phần khác của mạng nơron.

Ngoài ra, hãy tham khảo bài viết tự chú ýtính năng tự chú ý nhiều đầu, vốn là thành phần Transformers.

Xem LLM: Ngôn ngữ lớn là gì mẫu? trong Khoá học nhanh về học máy để biết thêm thông tin về sự tự chú ý.

phân bổ

#fairness

Từ đồng nghĩa với tính năng.

Khi nói đến tính công bằng của công nghệ học máy, thuộc tính thường đề cập đến đặc điểm liên quan đến cá nhân.

lấy mẫu thuộc tính

#df

Một chiến thuật để huấn luyện một khu rừng quyết định trong đó mỗi cây quyết định chỉ xem xét một tập hợp con ngẫu nhiên trong số các giá trị có thể các tính năng khi tìm hiểu về tình trạng. Thông thường, một nhóm nhỏ tính năng khác nhau được lấy mẫu cho mỗi nút. Ngược lại, khi huấn luyện cây quyết định mà không lấy mẫu thuộc tính, tất cả các tính năng có thể có đều được xem xét cho mỗi nút.

AUC (Diện tích dưới đường cong ROC)

#fundamentals

Một số từ 0,0 đến 1,0 đại diện cho của mô hình phân loại nhị phân có thể tách các lớp tích cực khỏi lớp phủ định. AUC càng gần 1.0 thì khả năng phân tách của mô hình càng tốt lớp với nhau.

Ví dụ: hình minh hoạ sau đây cho thấy một mô hình thuật toán phân loại phân tách các lớp dương (hình bầu dục màu xanh lục) khỏi các lớp âm (hình chữ nhật màu tím) một cách hoàn hảo. Mô hình hoàn hảo đến phi thực tế này AUC là 1,0:

Dòng số có 8 ví dụ tích cực ở một bên và
          9 ví dụ tiêu cực.

Ngược lại, hình minh hoạ sau đây cho thấy kết quả của một thuật toán phân loại tạo ra kết quả ngẫu nhiên. Mô hình này có AUC là 0,5:

Một dòng số có 6 ví dụ khẳng định và 6 ví dụ phủ định.
          Chuỗi ví dụ là dương, âm,
          tích cực, tiêu cực, khẳng định, tiêu cực, khẳng định, tiêu cực, khẳng định
          phủ định, tích cực, tiêu cực.

Có, mô hình trước có AUC là 0, 5, không phải 0, 0.

Hầu hết các mô hình đều nằm đâu đó giữa hai cực trị. Ví dụ: mô hình sau đây sẽ tách biệt tích cực với phủ định phần nào, và do đó có AUC trong khoảng từ 0,5 đến 1,0:

Một dòng số có 6 ví dụ khẳng định và 6 ví dụ phủ định.
          Chuỗi ví dụ là phủ định, phủ định, phủ định, phủ định,
          tích cực, tiêu cực, tích cực, khẳng định, tiêu cực, tích cực, tích cực,
          tích cực.

AUC bỏ qua mọi giá trị mà bạn đặt ngưỡng phân loại. Thay vào đó, AUC sẽ xem xét tất cả các ngưỡng phân loại có thể đạt được.

Xem phần Phân loại: ROC và AUC trong Khoá học nhanh về máy học để biết thêm thông tin.

thực tế tăng cường

#image

Công nghệ xếp chồng hình ảnh do máy tính tạo lên góc nhìn của người dùng thế giới thực, do đó cung cấp chế độ xem tổng hợp.

bộ mã hoá tự động

#language
#image

Một hệ thống học cách trích xuất thông tin quan trọng nhất từ đầu vào. Bộ mã hoá tự động là sự kết hợp giữa bộ mã hoábộ giải mã. Bộ tự động mã hoá hoạt động theo quy trình hai bước sau đây:

  1. Bộ mã hoá ánh xạ đầu vào tới chiều thấp có tổn hao (thường) (trung gian).
  2. Bộ giải mã tạo ra phiên bản có tổn hao của đầu vào ban đầu bằng cách ánh xạ định dạng chiều thấp thành định dạng chiều cao ban đầu định dạng đầu vào.

Bộ mã hoá tự động được huấn luyện từ đầu đến cuối bằng cách yêu cầu bộ giải mã cố gắng xây dựng lại dữ liệu đầu vào ban đầu từ định dạng trung gian của bộ mã hoá chính xác nhất có thể. Vì định dạng trung gian nhỏ hơn (chiều thấp hơn) so với định dạng ban đầu, bộ mã hoá tự động bắt buộc để tìm hiểu xem thông tin nào trong đầu vào là thiết yếu và đầu ra sẽ không hoàn toàn giống với dữ liệu đầu vào.

Ví dụ:

  • Nếu dữ liệu đầu vào là hình ảnh đồ hoạ, thì bản sao không chính xác sẽ tương tự như hình ảnh gốc nhưng đã được sửa đổi đôi chút. Có thể bản sao không chính xác sẽ loại bỏ tạp âm khỏi thành phần đồ hoạ gốc hoặc điền vào một số pixel bị thiếu.
  • Nếu dữ liệu đầu vào là văn bản, bộ mã hoá tự động sẽ tạo văn bản mới bắt chước (nhưng không giống với) văn bản gốc.

Hãy xem thêm về bộ mã hoá tự động đa dạng.

thiên kiến tự động

#fairness

Khi người ra quyết định là con người ưu tiên những đề xuất của của hệ thống đưa ra quyết định đối với thông tin được tạo ra mà không có sự tự động hoá, thậm chí khi hệ thống ra quyết định tự động mắc lỗi.

Hãy xem bài viết Công bằng: Các loại thiên kiến trong Khoá học nhanh về máy học để biết thêm thông tin.

AutoML

Mọi quy trình tự động để xây dựng công nghệ học máy mô hình. AutoML có thể tự động thực hiện những việc như sau:

AutoML rất hữu ích cho các nhà khoa học dữ liệu vì nó có thể giúp họ tiết kiệm thời gian và nỗ lực phát triển quy trình học máy và cải thiện khả năng dự đoán sự chính xác. Phương pháp này cũng hữu ích cho những người không phải chuyên gia vì làm cho phức tạp công việc học máy dễ tiếp cận hơn.

Xem Máy tự động Học tập (AutoML) trong Khoá học nhanh về máy học để biết thêm thông tin.

mô hình hồi quy tự động

#language
#image
#generativeAI

Mô hình dự đoán thông tin dự đoán dựa vào thông tin gợi ý trước đó dự đoán. Ví dụ: các mô hình ngôn ngữ tự động hồi quy dự đoán biến thể tiếp theo mã thông báo dựa trên mã thông báo được dự đoán trước đó. Tất cả dựa trên Transformer các mô hình ngôn ngữ lớn có tính tự động hồi quy.

Ngược lại, các mô hình hình ảnh dựa trên GAN thường không tự động hồi quy vì chúng tạo ra hình ảnh theo một lần chuyển tiếp chứ không phải lặp lại theo bước. Tuy nhiên, một số mô hình tạo hình ảnh nhất định tính năng tự động hồi quy vì chúng tạo ra hình ảnh theo các bước.

tổn thất phụ trợ

Hàm mất – dùng cùng với Chính của mạng nơron (mô hình) hàm mất – giúp đẩy nhanh tốc độ huấn luyện trong quá trình các vòng lặp sớm khi trọng số được khởi tạo ngẫu nhiên.

Các hàm suy hao phụ trợ đẩy độ dốc hiệu quả sang các lớp trước đó. Việc này giúp sự hội tụ trong quá trình đào tạo bằng cách giải quyết vấn đề về độ dốc biến mất.

độ chính xác trung bình

Chỉ số để tóm tắt hiệu suất của một chuỗi kết quả được xếp hạng. Độ chính xác trung bình được tính bằng cách lấy giá trị trung bình của Giá trị precision cho từng kết quả liên quan (mỗi kết quả trong danh sách xếp hạng, trong đó lượt thu hồi tăng so với kết quả trước đó).

Xem thêm Khu vực dưới đường cong PR.

điều kiện căn chỉnh theo trục

#df

Trong cây quyết định, một điều kiện chỉ liên quan đến một tính năng. Ví dụ: nếu khu vực là một đối tượng, thì sau đây là điều kiện căn chỉnh theo trục:

area > 200

Tương phản với điều kiện xiên.

B

lan truyền ngược

#fundamentals

Thuật toán triển khai giảm độ dốc trong mạng nơron.

Việc huấn luyện mạng nơron cần nhiều vòng lặp của chu kỳ hai vòng sau:

  1. Trong lượt chuyển tiếp, hệ thống sẽ xử lý một gói gồm ví dụ để nhận được(các) thông tin dự đoán. Hệ thống so sánh từng thông tin dự đoán cho từng giá trị label. Sự khác biệt giữa thông tin dự đoán và giá trị nhãn là mất cho ví dụ đó. Hệ thống sẽ tổng hợp các tổn thất cho tất cả ví dụ để tính tổng mức hao tổn tổn thất cho lô hiện tại.
  2. Trong quá trình truyền ngược (backpropagation), hệ thống sẽ giảm tổn thất bằng cách điều chỉnh trọng số của tất cả nơ-ron trong tất cả (các) lớp ẩn.

Mạng nơron thường chứa nhiều nơron trong nhiều lớp ẩn. Mỗi nơron này góp phần gây ra tình trạng mất mát tổng thể theo những cách khác nhau. Tính năng lan truyền ngược xác định xem nên tăng hay giảm trọng số áp dụng cho các nơron cụ thể.

Tốc độ học là một hệ số kiểm soát độ mà mỗi lượt lùi sẽ tăng hoặc giảm từng trọng số. Tốc độ học tập cao sẽ làm tăng hoặc giảm mỗi trọng số hơn một tốc độ học tập nhỏ.

Về mặt giải tích, kỹ thuật lan truyền ngược triển khai quy tắc chuỗi. của đại số. Tức là kỹ thuật lan truyền ngược tính toán đạo hàm một phần của lỗi với cho từng thông số.

Nhiều năm trước, các chuyên viên công nghệ học máy phải viết mã để triển khai kỹ thuật lan truyền ngược. Giờ đây, các API học máy hiện đại như Keras sẽ triển khai kỹ thuật lan truyền ngược cho bạn. Chà!

Xem phần Mạng nơron trong Khoá học nhanh về máy học để biết thêm thông tin.

hành lý

#df

Phương thức huấn luyện một nhóm trong đó mỗi mô hình cấu thành huấn luyện trên một tập con ngẫu nhiên huấn luyện các ví dụ về được lấy mẫu có thay thế. Ví dụ: khu rừng ngẫu nhiên là tập hợp cây quyết định được huấn luyện bằng cách đóng bao.

Thuật ngữ bagging là viết tắt của bootstrap aggregating.

Xem Khu rừng ngẫu nhiên trong khoá học Rừng quyết định để biết thêm thông tin.

túi từ

#language

Biểu thị các từ trong một cụm từ hoặc đoạn văn, bất kể thứ tự. Ví dụ: túi từ biểu thị sau đây là 3 cụm từ giống hệt nhau:

  • chú chó nhảy lên
  • nhảy chó
  • chú chó nhảy

Mỗi từ được liên kết với một chỉ mục trong vectơ thưa, trong đó vectơ có một chỉ mục cho mỗi từ trong từ vựng. Ví dụ: cụm từ chó nhảy được ánh xạ thành vectơ đặc trưng có giá trị khác 0 giá trị ở ba chỉ số tương ứng với các từ the (cái), dog (chó) và nhảy. Giá trị khác 0 có thể là bất kỳ giá trị nào sau đây:

  • Số 1 để cho biết một từ đã có mặt.
  • Số lần một từ xuất hiện trong túi. Ví dụ: nếu cụm từ chó nâu sẫm là chó có bộ lông màu nâu sẫm, thì cả hai maroondog sẽ được biểu thị là 2, trong khi các từ khác sẽ được biểu diễn dưới dạng 1.
  • Một số giá trị khác, chẳng hạn như lôgarit của số đếm số số lần một từ xuất hiện trong túi.

đường cơ sở

Mô hình được dùng làm điểm tham chiếu để so sánh hiệu quả của (thường là một mô hình phức tạp hơn) đang hoạt động hiệu quả. Ví dụ: một mô hình hồi quy logistic có thể đóng vai trò là đường cơ sở phù hợp cho mô hình sâu.

Đối với một vấn đề cụ thể, đường cơ sở giúp nhà phát triển mô hình định lượng hiệu suất dự kiến tối thiểu mà một mô hình mới phải đạt được để trở nên hữu ích.

#fundamentals

Tập hợp ví dụ được sử dụng trong một huấn luyện vòng lặp. Kích thước lô xác định số lượng ví dụ trong một lô.

Xem phần epoch (thời gian bắt đầu của hệ thống) để biết nội dung giải thích về mối liên hệ của một lô một khoảng thời gian bắt đầu của hệ thống.

Xem Hồi quy tuyến tính: Siêu tham số trong Khoá học nhanh về máy học để biết thêm thông tin.

suy luận theo lô

#TensorFlow
#GoogleCloud

Quá trình suy luận các dự đoán về nhiều các ví dụ không có nhãn chia thành các phần nhỏ hơn các tập hợp con ("lô sản phẩm").

Suy luận theo lô có thể tận dụng tính năng song song hoá của khối tăng tốc. Tức là có nhiều trình tăng tốc có thể đồng thời dự đoán các dự đoán về nhiều lô không được gắn nhãn khác nhau làm tăng đáng kể số lượng suy luận mỗi giây.

Xem bài viết Hệ thống học máy sản xuất: Tĩnh so với động suy luận trong Khoá học nhanh về máy học để biết thêm thông tin.

chuẩn hoá theo lô

Chuẩn hoá đầu vào hoặc đầu ra của hàm kích hoạt trong một lớp ẩn. Việc chuẩn hoá theo lô có thể mang lại các lợi ích sau:

kích thước lô

#fundamentals

Số lượng ví dụ trong một gói. Ví dụ: nếu kích thước lô là 100 thì mô hình sẽ xử lý 100 ví dụ cho mỗi vòng lặp.

Sau đây là các chiến lược kích thước lô phổ biến:

  • Xuống dốc chuyển màu ngẫu nhiên (SGD), trong đó kích thước lô là 1.
  • Toàn bộ lô, trong đó kích thước lô là số lượng ví dụ trong toàn bộ nhóm huấn luyện. Ví dụ: nếu tập hợp huấn luyện chứa hàng triệu ví dụ, thì kích thước lô sẽ là một triệu ví dụ ví dụ. Toàn bộ lô thường là một chiến lược không hiệu quả.
  • gói nhỏ, trong đó kích thước lô thường nằm trong khoảng 10 và 1000. Lô nhỏ thường là chiến lược hiệu quả nhất.

Hãy xem phần dưới đây để biết thêm thông tin:

Mạng nơron Bayes

Mạng nơron có khả năng chiếm độ không chắc chắn trong trọng số và đầu ra. Mạng nơron chuẩn mô hình hồi quy thường dự đoán một giá trị vô hướng; ví dụ: mô hình chuẩn dự đoán giá nhà là 853.000. Ngược lại, mạng nơron Bayes dự đoán sự phân phối của giá trị; ví dụ: mô hình Bayes dự đoán giá nhà là 853.000 với độ lệch chuẩn 67.200.

Mạng nơron Bayes phụ thuộc vào Tiếng Bayes Định lý để tính toán độ không chắc chắn về trọng số và dự đoán. Mạng nơron Bayes có thể hữu ích khi cần định lượng độ không chắc chắn, chẳng hạn như liên quan đến dược phẩm. Mạng nơron Bayes cũng có thể giúp ngăn chặn tình trạng quá tải.

Tối ưu hoá Bayes

Mô hình hồi quy xác suất kỹ thuật tối ưu hoá chi phí tính toán hàm mục tiêu bằng cách tối ưu hoá giá trị thay thế để định lượng độ không chắc chắn bằng cách sử dụng kỹ thuật học của Bayes. Từ Phương pháp tối ưu hoá Bayes rất tốn kém, phương pháp này thường được dùng để tối ưu hoá công việc tốn kém để đánh giá công việc có một số ít tham số, chẳng hạn như chọn hyperparameters.

Phương trình Bellman

#rl

Trong học tăng cường, đẳng thức sau đây sẽ được thoả mãn bởi phương thức tối ưu Hàm Q:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Thuật toán Học tăng cường áp dụng mô hình này danh tính để tạo Q-learning thông qua quy tắc cập nhật sau đây:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Ngoài phương pháp học tăng cường, phương trình Bellman có các ứng dụng để lập trình động. Xem Mục nhập trên Wikipedia về phương trình Bellman.

BERT (Bộ mã hoá hai chiều Thông tin đại diện từ Transformers)

#language

Cấu trúc mô hình cho phần trình bày văn bản. Một Mô hình BERT có thể hoạt động như một phần của một mô hình lớn hơn để phân loại văn bản hoặc các nhiệm vụ học máy khác.

BERT có các đặc điểm sau:

Các biến thể của BERT bao gồm:

  • ALBERT! là từ viết tắt của A Light BERT.
  • LaBSE.

Xem Mở nguồn cung cấp BERT: Chương trình đào tạo trước tiên phong về ngôn ngữ tự nhiên Đang xử lý để xem thông tin tổng quan về BERT.

thiên kiến (đạo đức/công bằng)

#fairness
#fundamentals

1. Định kiến, định kiến hoặc thiên vị đối với một số thứ, con người, hoặc nhóm nhiều hơn các dịch vụ khác. Những thiên kiến này có thể ảnh hưởng đến việc thu thập và diễn giải dữ liệu, thiết kế hệ thống và cách người dùng tương tác thông qua một hệ thống. Các hình thức của loại thiên vị này bao gồm:

2. Lỗi hệ thống do quy trình lấy mẫu hoặc báo cáo gây ra. Các hình thức của loại thiên vị này bao gồm:

Đừng nhầm lẫn với thuật ngữ độ lệch trong các mô hình học máy hoặc thiên kiến dự đoán.

Hãy xem bài viết Công bằng: Các loại thiên kiến về Khoá học nhanh về học máy để biết thêm thông tin.

thiên kiến (toán) hoặc thuật ngữ thiên kiến

#fundamentals

Giao điểm hoặc bù trừ so với một nguồn gốc. Độ lệch là một tham số trong các mô hình học máy được ký hiệu bằng một trong sau:

  • b
  • t0

Ví dụ: độ lệch là b trong công thức sau:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Trong một đường hai chiều đơn giản, độ lệch chỉ có nghĩa là "giao điểm y". Ví dụ: độ lệch của đường trong hình minh hoạ sau là 2.

Đồ thị của một đường thẳng có hệ số góc bằng 0,5 và độ chệch (giao điểm y) bằng 2.

Độ lệch tồn tại vì không phải mọi mô hình đều bắt đầu từ nguồn gốc (0,0). Ví dụ: giả sử một công viên giải trí có giá vé vào cửa là 2 Euro và phí thêm 0,5 Euro cho mỗi giờ khách hàng lưu trú. Do đó, một mô hình ánh xạ tổng chi phí có độ lệch là 2 vì chi phí thấp nhất là 2 Euro.

Không nên nhầm lẫn giữa thiên vị với thiên vị trong đạo đức và công bằng hoặc thiên kiến dự đoán.

Xem phần Hồi quy tuyến tính trong Khoá học nhanh về máy học để biết thêm thông tin.

hai chiều

#language

Một thuật ngữ dùng để mô tả hệ thống đánh giá văn bản cả trướctheo một phần văn bản mục tiêu. Ngược lại, một chỉ hệ thống một chiều đánh giá văn bản trước một phần văn bản đích.

Ví dụ: hãy xem xét một mô hình ngôn ngữ được che giấu phải xác định xác suất của từ hoặc từ biểu thị dấu gạch dưới trong câu hỏi sau:

Bạn _____ ở đâu?

Mô hình ngôn ngữ một chiều sẽ chỉ dựa trên xác suất vào ngữ cảnh được cung cấp qua các từ "What", "is" và "the". Ngược lại, một mô hình ngôn ngữ hai chiều cũng có thể nhận được ngữ cảnh từ "with" và "bạn", điều này có thể giúp mô hình này đưa ra các dự đoán chính xác hơn.

mô hình ngôn ngữ hai chiều

#language

Mô hình ngôn ngữ xác định xác suất mà một mã thông báo đã cho hiện diện tại một vị trí nhất định trong phần trích dẫn của văn bản dựa trên văn bản trướcsau.

Bigram

#seq
#language

N-gram trong đó N=2.

phân loại nhị phân

#fundamentals

Loại tác vụ phân loại dự đoán một trong hai lớp loại trừ lẫn nhau:

Ví dụ: hai mô hình học máy sau đây đều hoạt động phân loại nhị phân:

  • Một mô hình giúp xác định liệu email spam (lớp khẳng định) hoặc không phải spam (lớp phủ định).
  • Một mô hình đánh giá các triệu chứng y tế để xác định xem một người có bị mắc một bệnh cụ thể (nhóm dương tính) hoặc không mắc bệnh này bệnh (nhóm tiêu cực).

Trái ngược với phương thức phân loại nhiều lớp.

Xem thêm mục hồi quy logisticngưỡng phân loại.

Xem phần Phân loại trong Khoá học nhanh về máy học để biết thêm thông tin.

điều kiện nhị phân

#df

Trong cây quyết định, một điều kiện chỉ có hai kết quả có thể xảy ra, thường là hoặc không. Ví dụ: sau đây là điều kiện nhị phân:

temperature >= 100

Tương phản với tình trạng phi nhị giới.

Xem Các loại điều kiện trong khoá học Rừng quyết định để biết thêm thông tin.

phân thùng

Từ đồng nghĩa với phân giỏ hàng.

BLEU (Nghiên cứu đánh giá song ngữ)

#language

Điểm nằm trong khoảng từ 0,0 đến 1,0, thể hiện chất lượng của bản dịch giữa hai ngôn ngữ của con người (ví dụ: giữa tiếng Anh và tiếng Nga). BLEU (BLEU) điểm 1.0 cho biết bản dịch hoàn hảo; điểm BLEU là 0.0 cho thấy bản dịch rất tệ.

tăng cường

Một kỹ thuật học máy kết hợp lặp lại một nhóm gồm các không chính xác lắm (được gọi là thuật toán phân loại "yếu") thành một bộ lọc thuật toán phân loại với độ chính xác cao (một thuật toán phân loại "mạnh") bằng cách tăng trọng số cho các ví dụ mà mô hình hiện đang phân loại sai.

Xem Quyết định được tăng cường độ dốc Cây cối? trong khoá học Rừng quyết định để biết thêm thông tin.

hộp giới hạn

#image

Trong một hình ảnh, toạ độ (x, y) của một hình chữ nhật xung quanh diện tích sở thích, chẳng hạn như chú chó trong hình ảnh dưới đây.

Ảnh chụp một chú chó đang ngồi trên ghế sofa. Hộp giới hạn màu xanh lục
          có toạ độ trên cùng bên trái là (275, 1271) và dưới cùng bên phải
          toạ độ (2954, 2761) bao quanh cơ thể chú chó

đang phát sóng

Mở rộng hình dạng của một toán hạng trong phép toán ma trận thành phương diện tương thích với toán tử đó. Ví dụ: đại số tuyến tính đòi hỏi hai toán hạng trong phép cộng ma trận phải có cùng phương diện. Do đó, bạn không thể thêm ma trận hình dạng (m, n) thành vectơ có độ dài n. Tính năng truyền tin cho phép thao tác này bằng cách mở rộng ảo vectơ có độ dài n thành ma trận có hình (m, n) bằng cách sao chép cùng các giá trị xuống mỗi cột.

Ví dụ: với các định nghĩa sau đây, đại số tuyến tính cấm A+B vì A và B có phương diện khác nhau:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Tuy nhiên, tính năng phát sóng cho phép hoạt động A+B bằng cách mở rộng ảo B thành:

 [[2, 2, 2],
  [2, 2, 2]]

Do đó, A+B hiện là một toán tử hợp lệ:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Xem mô tả sau đây về phát sóng trong NumPy để biết thêm chi tiết.

phân giỏ

#fundamentals

Chuyển đổi một tính năng duy nhất thành nhiều đối tượng nhị phân được gọi là ô hoặc thùng, thường dựa trên phạm vi giá trị. Đặc điểm được cắt nhỏ thường là tính năng liên tục.

Ví dụ: thay vì biểu thị nhiệt độ dưới dạng một giá trị duy nhất dấu phẩy động liên tục, bạn có thể xác định các khoảng nhiệt độ vào các nhóm riêng biệt, chẳng hạn như:

  • <= 10 độ C sẽ là nhiệt độ "lạnh" bộ chứa.
  • 11 - 24 độ C sẽ là "ôn hoà" bộ chứa.
  • >= 25 độ C sẽ là nhiệt độ "ấm" bộ chứa.

Mô hình này sẽ xử lý giống nhau mọi giá trị trong cùng một bộ chứa. Cho Ví dụ: giá trị 1322 đều nằm trong bộ chứa ôn hoà, do đó mô hình xử lý hai giá trị giống hệt nhau.

Xem Dữ liệu số: Kết hợp trong Khoá học nhanh về máy học để biết thêm thông tin.

C

tầng hiệu chỉnh

Giá trị điều chỉnh sau khi dự đoán, thường tính đến thiên vị dự đoán. Các dự đoán được điều chỉnh và xác suất phải khớp với phân phối của tập hợp nhãn quan sát được.

tạo ứng viên

#recsystems

Bộ đề xuất ban đầu do hệ thống đề xuất. Ví dụ: hãy cân nhắc hiệu sách cung cấp 100.000 đầu sách. Giai đoạn tạo ứng viên tạo một danh sách nhỏ hơn nhiều gồm các sách phù hợp cho một người dùng cụ thể, chẳng hạn như 500. Nhưng ngay cả khi 500 cuốn sách là quá nhiều để giới thiệu cho người dùng. Sau đó, đắt hơn, các giai đoạn của hệ thống đề xuất (chẳng hạn như tính điểmxếp hạng lại), hãy giảm 500 thành phần đó xuống bộ đề xuất hữu ích hơn.

Xem bài viết Tạo ứng viên tổng quan trong khoá học Hệ thống đề xuất để biết thêm thông tin.

lấy mẫu ứng viên

Tối ưu hoá tại thời gian huấn luyện để tính xác suất cho tất cả tích cực, chẳng hạn như softmax, nhưng chỉ dành cho người dùng ngẫu nhiên mẫu nhãn âm. Ví dụ: trong một ví dụ có gắn nhãn beagledog, việc lấy mẫu đề xuất sẽ tính toán các xác suất dự đoán và điều khoản tổn thất tương ứng đối với:

  • beagle
  • chó
  • một tập hợp con ngẫu nhiên các lớp phủ định còn lại (ví dụ: mèo, lollipop, hàng rào).

Ý tưởng là các lớp phủ định có thể học hỏi từ những lớp học ít thường xuyên hơn tăng cường âm, miễn là các lớp tích cực luôn nhận được kết quả tích cực đúng và điều này thực sự được quan sát theo kinh nghiệm.

Việc lấy mẫu ứng viên có hiệu quả tính toán hơn so với thuật toán huấn luyện để tính toán các dự đoán cho tất cả các lớp phủ định, đặc biệt là khi số lượng lớp phủ định là rất lớn.

dữ liệu phân loại

#fundamentals

Các tính năng có một tập hợp cụ thể các giá trị có thể có. Ví dụ: hãy xem xét một đối tượng phân loại có tên là traffic-light-state. Tính năng này chỉ có thể có một trong ba giá trị sau:

  • red
  • yellow
  • green

Bằng cách biểu thị traffic-light-state dưới dạng một đối tượng phân loại, một mô hình có thể học những tác động khác nhau của red, greenyellow đối với hành vi của người lái xe.

Các đối tượng phân loại đôi khi được gọi là các tính năng tách biệt.

Trái ngược với dữ liệu số.

Xem Làm việc với danh mục phân loại bằng nhiều dữ liệu trong Khoá học nhanh về máy học để biết thêm thông tin.

mô hình ngôn ngữ nhân quả

#language

Từ đồng nghĩa với mô hình ngôn ngữ một chiều.

Xem mô hình ngôn ngữ hai chiều để đối chiếu các cách tiếp cận định hướng khác nhau trong mô hình ngôn ngữ.

tâm

#clustering

Tâm của cụm được xác định bằng k-means hoặc Thuật toán k-median. Ví dụ: nếu k là 3, thì thuật toán k trung bình hoặc k trung vị sẽ tìm 3 tâm.

Xem Thuật toán phân cụm trong khoá học Phân cụm để biết thêm thông tin.

phân cụm dựa trên tâm

#clustering

Một danh mục thuật toán cụm giúp sắp xếp dữ liệu thành các cụm không phân cấp. k-means là phương thức phổ biến nhất đã sử dụng thuật toán phân cụm dựa trên trọng tâm.

Trái ngược với tính năng phân cụm phân cấp các thuật toán.

Xem Thuật toán phân cụm trong khoá học Phân cụm để biết thêm thông tin.

gợi nhắc chuỗi suy nghĩ

#language
#generativeAI

Kỹ thuật kỹ thuật câu lệnh khuyến khích một mô hình ngôn ngữ lớn (LLM) để giải thích suy luận theo từng bước. Ví dụ: hãy xem xét lời nhắc sau đây, thanh toán đặc biệt chú ý đến câu thứ hai:

Người lái xe có bao nhiêu lực g trong một chiếc ô tô đi từ 0 đến 60 số dặm trên một giờ trong 7 giây? Trong câu trả lời, hãy trình bày tất cả phép tính có liên quan.

Câu trả lời của LLM có thể là:

  • Hiển thị một chuỗi các công thức vật lý với các giá trị 0, 60 và 7 ở các vị trí thích hợp.
  • Giải thích lý do chọn công thức đó và ý nghĩa của các biến.

Việc nhắc chuỗi suy nghĩ buộc LLM thực hiện tất cả các phép tính, để có thể đưa ra câu trả lời chính xác hơn. Ngoài ra, chuỗi suy nghĩ Tính năng nhắc cho phép người dùng kiểm tra các bước của LLM để xác định xem hay không thì câu trả lời đều có ý nghĩa.

trò chuyện

#language
#generativeAI

Nội dung của cuộc đối thoại qua lại với hệ thống học máy, thường là mô hình ngôn ngữ lớn. Lượt tương tác trước đó trong một cuộc trò chuyện (nội dung bạn đã nhập và cách mô hình ngôn ngữ lớn phản hồi) trở thành cho các phần tiếp theo của cuộc trò chuyện.

Chatbot là một ứng dụng của mô hình ngôn ngữ lớn.

chốt kiểm tra

Dữ liệu ghi lại trạng thái tham số của mô hình trong khi đào tạo hoặc sau khi đào tạo xong. Ví dụ: trong quá trình đào tạo, bạn có thể:

  1. Ngừng đào tạo, có thể là do cố ý hoặc do một số lỗi nhất định.
  2. Ghi lại điểm kiểm tra.
  3. Sau đó, hãy tải lại điểm kiểm tra, có thể là trên phần cứng khác.
  4. Bắt đầu lại quá trình huấn luyện.

lớp

#fundamentals

Danh mục có thể thuộc về nhãn. Ví dụ:

  • Trong mô hình phân loại nhị phân phát hiện thư rác thì hai loại này có thể là thư ráckhông phải thư rác.
  • Trong mô hình phân loại nhiều lớp giúp xác định các giống chó, các lớp có thể là poodle, beagle, pug, và cứ tiếp tục như vậy.

Mô hình phân loại dự đoán một lớp. Ngược lại, mô hình hồi quy dự đoán số lượng thay vì một lớp.

Xem phần Phân loại trong Khoá học nhanh về máy học để biết thêm thông tin.

mô hình phân loại

#fundamentals

Một mô hình có dự đoán là một lớp. Ví dụ: sau đây là tất cả các mô hình phân loại:

  • Mô hình dự đoán ngôn ngữ của câu nhập (tiếng Pháp? Tiếng Tây Ban Nha? Tiếng Ý?).
  • Một mô hình dự đoán các loài cây (Maple? Cây sồi? Baobab?).
  • Mô hình dự đoán lớp dương hoặc lớp âm cho một giá trị cụ thể tình trạng bệnh lý.

Ngược lại, mô hình hồi quy dự đoán số liệu thay vì lớp.

Hai loại mô hình phân loại phổ biến là:

ngưỡng phân loại

#fundamentals

Trong phân loại nhị phân, từ 0 đến 1 để chuyển đổi đầu ra thô của Mô hình hồi quy logistic thành một thông tin dự đoán cho nhóm giá trị dương hoặc lớp phủ định. Xin lưu ý rằng ngưỡng phân loại là một giá trị do con người chọn, không phải là giá trị được chọn bởi quá trình huấn luyện mô hình.

Mô hình hồi quy logistic đưa ra giá trị thô trong khoảng từ 0 đến 1. Sau đó:

  • Nếu giá trị thô này lớn hơn ngưỡng phân loại, thì lớp dương sẽ được dự đoán.
  • Nếu giá trị thô này nhỏ hơn ngưỡng phân loại, thì lớp âm được dự đoán.

Ví dụ: giả sử ngưỡng phân loại là 0, 8. Nếu giá trị thô là 0,9, thì mô hình dự đoán lớp dương. Nếu giá trị thô là 0, 7 thì mô hình dự đoán lớp âm.

Việc lựa chọn ngưỡng phân loại ảnh hưởng mạnh đến số lượng dương tính giảâm tính giả.

Xem Ngưỡng và sự nhầm lẫn ma trận trong Khoá học nhanh về máy học để biết thêm thông tin.

tập dữ liệu bất cân bằng về lớp

#fundamentals

Tập dữ liệu cho một bài toán phân loại trong đó tổng số nhãn của mỗi lớp khác nhau đáng kể. Ví dụ: hãy xem xét một tập dữ liệu phân loại nhị phân có hai nhãn được chia như sau:

  • 1.000.000 nhãn âm
  • 10 nhãn khẳng định

Tỉ số giữa nhãn âm và dương là 100.000 trên 1, do đó là tập dữ liệu không cân bằng về lớp.

Ngược lại, tập dữ liệu sau đây không bị mất cân bằng về lớp vì tỷ lệ giữa số nhãn âm so với số nhãn dương tương đối gần bằng 1:

  • 517 nhãn phủ định
  • 483 nhãn dương

Tập dữ liệu nhiều lớp cũng có thể không cân bằng về lớp. Ví dụ: như sau tập dữ liệu phân loại nhiều lớp cũng không cân bằng về lớp do một nhãn có nhiều ví dụ hơn so với hai ví dụ còn lại:

  • 1.000.000 nhãn có phân loại "xanh"
  • 200 nhãn có lớp "màu tím"
  • 350 nhãn có loại "cam"

Hãy xem thêm về entropy, lớp đa số, và lớp thiểu số.

cắt đoạn

#fundamentals

Một kỹ thuật để xử lý các điểm ngoại lai bằng cách thực hiện một hoặc cả hai tuỳ chọn sau:

  • Giảm các giá trị feature lớn hơn giá trị tối đa xuống đến ngưỡng tối đa đó.
  • Tăng giá trị tính năng nhỏ hơn ngưỡng tối thiểu lên đến ngưỡng đó ngưỡng tối thiểu.

Ví dụ: giả sử rằng có <0, 5% giá trị cho một tính năng cụ thể rơi vào nằm ngoài phạm vi 40–60. Trong trường hợp này, bạn có thể làm như sau:

  • Cắt tất cả các giá trị trên 60 (ngưỡng tối đa) thành chính xác 60.
  • Cắt tất cả các giá trị dưới 40 (ngưỡng tối thiểu) thành chính xác 40.

Các giá trị ngoại lai có thể làm hỏng mô hình, đôi khi gây ra trọng số tràn trong quá trình huấn luyện. Một số điểm ngoại lai cũng có thể làm hỏng đáng kể như độ chính xác. Cắt đoạn là một kỹ thuật phổ biến để hạn chế thiệt hại.

Lực cắt độ dốc Các giá trị gradient trong phạm vi được chỉ định trong quá trình huấn luyện.

Xem Dữ liệu số: Chuẩn hoá trong Khoá học nhanh về máy học để biết thêm thông tin.

Cloud TPU

#TensorFlow
#GoogleCloud

Một trình tăng tốc phần cứng chuyên dụng được thiết kế để tăng tốc máy tải công việc học tập trên Google Cloud.

phân cụm

#clustering

Nhóm các ví dụ có liên quan, đặc biệt là trong học không giám sát. Sau khi tất cả các ví dụ được nhóm lại, người dùng có thể tuỳ ý cung cấp ý nghĩa cho mỗi cụm.

Hiện có nhiều thuật toán phân cụm. Ví dụ: k-means thuật toán tập hợp các ví dụ dựa trên độ gần của chúng đến trọng tâm, như trong sơ đồ sau:

Biểu đồ hai chiều trong đó trục x được gắn nhãn chiều rộng cây,
          và trục y được gắn nhãn chiều cao của cây. Biểu đồ chứa hai
          tâm và hàng chục điểm dữ liệu. Các điểm dữ liệu này
          được phân loại dựa trên khoảng cách gần chúng. Tức là các điểm dữ liệu
          gần với một trọng tâm nhất được phân loại là cụm 1, trong khi các tâm đó
          gần trọng tâm khác nhất được phân loại là cụm 2.

Sau đó, một nhà nghiên cứu có thể xem xét những cụm đó và, ví dụ: gắn nhãn cụm 1 là "cây lùn" và cụm 2 là "cây kích thước đầy đủ".

Một ví dụ khác là xem xét thuật toán phân cụm dựa trên khoảng cách của ví dụ tính từ điểm giữa, được minh hoạ như sau:

Hàng chục điểm dữ liệu được sắp xếp trong các vòng tròn đồng tâm, gần như
          giống như các lỗ xung quanh tâm của bảng phi tiêu. Nhẫn trong cùng
          điểm dữ liệu được phân loại là cụm 1, vòng giữa
          được phân loại là quần tinh 2 và vòng ngoài cùng là
          cụm 3.

Xem khoá học về Phân cụm để biết thêm thông tin.

thích ứng

Khi nơ-ron dự đoán các mẫu trong dữ liệu huấn luyện bằng cách dựa vào hầu như chỉ dựa vào đầu ra của các nơron cụ thể khác thay vì dựa vào về hành vi của mạng nói chung. Trường hợp các mẫu gây ra hiện tượng đồng thích ứng không có trong dữ liệu xác thực, thì quá trình đồng thích ứng sẽ gây ra hiện tượng quá mức. Điều chỉnh tỷ lệ bỏ ngang giúp giảm khả năng đồng thích ứng vì sự sụt giảm đảm bảo các nơron không thể chỉ dựa vào các nơron cụ thể khác.

lọc cộng tác

#recsystems

Đưa ra dự đoán về mối quan tâm của một người dùng dựa trên sở thích của nhiều người dùng khác. Lọc cộng tác thường được dùng trong hệ thống đề xuất.

Xem phần Cộng tác lọc trong khoá học Hệ thống đề xuất để biết thêm thông tin.

sự trôi dạt khái niệm

Thay đổi trong mối quan hệ giữa các tính năng và nhãn. Theo thời gian, sự trôi dạt về khái niệm sẽ làm giảm chất lượng của mô hình.

Trong quá trình huấn luyện, mô hình sẽ tìm hiểu mối quan hệ giữa các tính năng và nhãn của họ trong tập huấn luyện. Nếu các nhãn trong tập huấn luyện là các proxy hiệu quả cho thế giới thực, thì mô hình đó sẽ tạo điều kiện các dự đoán trong thế giới thực. Tuy nhiên, do sự trôi dạt khái niệm, nên khả năng dự đoán có xu hướng suy giảm theo thời gian.

Ví dụ: hãy xem xét phân loại nhị phân mô hình dự đoán liệu một mẫu ô tô nhất định có "tiết kiệm nhiên liệu" hay không. Tức là các tính năng có thể:

  • trọng lượng ô tô
  • nén động cơ
  • loại truyền dữ liệu

trong khi nhãn đang:

  • tiết kiệm nhiên liệu
  • không tiết kiệm nhiên liệu

Tuy nhiên, khái niệm "ô tô tiết kiệm nhiên liệu" giữ đang thay đổi. Một mẫu xe được gắn nhãn tiết kiệm nhiên liệu vào năm 1994 gần như chắc chắn sẽ được gắn nhãn không tiết kiệm nhiên liệu vào năm 2024. Một mô hình bị ảnh hưởng bởi sự trôi dạt khái niệm có xu hướng đưa ra các dự đoán ít hữu ích và ít hữu ích hơn theo thời gian.

So sánh và đối chiếu với tính không ổn định.

điều kiện

#df

Trong cây quyết định, mọi nút đánh giá một biểu thức. Ví dụ: phần sau của cây quyết định chứa hai điều kiện:

Cây quyết định bao gồm hai điều kiện: (x > 0) và
          (y > 0).

Một điều kiện còn được gọi là phân tách hoặc kiểm thử.

Điều kiện tương phản với leaf.

Xem thêm:

Xem Các loại điều kiện trong khoá học Rừng quyết định để biết thêm thông tin.

nói chuyện phiếm

#language

Từ đồng nghĩa với ảo giác.

Phỏng đoán có lẽ là thuật ngữ chính xác hơn về mặt kỹ thuật chứ không phải ảo tưởng. Tuy nhiên, ảo giác trở nên phổ biến trước.

cấu hình

Quá trình chỉ định giá trị thuộc tính ban đầu được dùng để huấn luyện một mô hình, bao gồm:

Trong các dự án học máy, việc định cấu hình có thể được thực hiện thông qua một hoặc sử dụng các thư viện cấu hình như sau:

thiên kiến xác nhận

#fairness

Xu hướng tìm kiếm, diễn giải, ưu tiên và nhớ lại thông tin trong xác nhận niềm tin hoặc giả thuyết có sẵn của một người. Nhà phát triển công nghệ học máy có thể vô tình thu thập hoặc gắn nhãn theo những cách ảnh hưởng đến kết quả hỗ trợ kết quả hiện có niềm tin của mình. Thiên kiến xác nhận là một dạng thiên kiến ngầm.

Thành kiến của người thử nghiệm là một dạng thiên kiến xác nhận trong đó một người thử nghiệm tiếp tục các mô hình huấn luyện cho đến khi có sẵn một mô hình giả thuyết được xác nhận.

ma trận nhầm lẫn

#fundamentals

Bảng NxN tóm tắt số lượng dự đoán chính xác và không chính xác mà mô hình phân loại tạo ra. Ví dụ: hãy xem xét ma trận nhầm lẫn sau đây cho một mô hình phân loại nhị phân:

Khối u (dự đoán) Không phải khối u (dự đoán)
Khối u (dữ liệu thực tế) 18 (TP) 1 (FN)
Không phải khối u (sự thật) 6 (FP) 452 (TN)

Ma trận nhầm lẫn trước đó cho thấy những điều sau:

  • Trong số 19 dự đoán mà thông tin thực tế là Tumor, mô hình được phân loại chính xác 18 và phân loại không chính xác 1.
  • Trong số 458 dự đoán mà theo đó sự thật thực tế là Không phải khối u, mô hình phân loại chính xác 452 và phân loại không chính xác 6.

Ma trận nhầm lẫn cho phân loại nhiều lớp có thể giúp bạn xác định các quy luật sai lầm. Ví dụ: hãy xem xét ma trận nhầm lẫn sau cho lớp 3 mô hình phân loại nhiều lớp phân loại 3 loại mống mắt khác nhau (Virginica, Versicolor và Setosa). Khi sự thật là Virginica, ma trận nhầm lẫn cho thấy mô hình có nhiều khả năng nhầm lẫn dự đoán Versicolor hơn Setosa:

  Setosa (dự đoán) Versicolor (dự đoán) Virginica (dự đoán)
Setosa (sự thật trên mặt đất) 88 12 0
Versicolor (thực tế) 6 141 7
Virginica (sự thật) 2 27 109

Một ví dụ khác là ma trận nhầm lẫn có thể cho biết rằng một mô hình đã được huấn luyện nhận ra các chữ số viết tay có xu hướng dự đoán nhầm số 9 thay vì 4, hoặc dự đoán nhầm 1 thay vì 7.

Ma trận nhầm lẫn chứa đủ thông tin để tính toán nhiều chỉ số hiệu suất, bao gồm cả độ chính xácghi nhớ.

phân tích cú pháp khu vực bầu cử

#language

Chia một câu thành các cấu trúc ngữ pháp nhỏ hơn ("thành phần"). Phần sau của hệ thống ML, chẳng hạn như mô hình hiểu ngôn ngữ tự nhiên, có thể phân tích cú pháp các thành phần dễ dàng hơn câu gốc. Ví dụ: hãy xem xét câu sau:

Bạn tôi nuôi hai con mèo.

Một trình phân tích cú pháp khu vực bầu cử có thể chia câu này thành như sau hai thành phần:

  • Bạn của tôi là một cụm danh từ.
  • ta nuôi hai con mèo là một cụm động từ.

Các thành phần này có thể được chia nhỏ hơn nữa thành các thành phần nhỏ hơn. Ví dụ: cụm động từ

nhận nuôi hai chú mèo

có thể được chia nhỏ hơn nữa thành:

  • đã cho phép là một động từ.
  • hai con mèo là một cụm danh từ khác.

nhúng ngôn ngữ theo ngữ cảnh

#language
#generativeAI

Nội dung nhúng đến gần "hiểu biết" các từ và cụm từ theo cách mà người bản địa có thể. Ngôn ngữ theo ngữ cảnh thì tính năng nhúng có thể hiểu được cú pháp, ngữ nghĩa và ngữ cảnh phức tạp.

Ví dụ: hãy xem xét việc nhúng từ tiếng Anh cow. Các mục nhúng cũ hơn chẳng hạn như word2vec có thể biểu thị tiếng Anh sao cho khoảng cách trong không gian nhúng từ đến bò cái tương tự như khoảng cách từ bò cái (cừu cái) đến cừu đực (cừu đực) hoặc từ cựu cái sang con đực. Ngôn ngữ theo ngữ cảnh các tính năng nhúng có thể tiến xa hơn nữa bằng cách nhận ra rằng đôi khi, người nói tiếng Anh ngẫu nhiên dùng từ để chỉ con bò hoặc bò đực.

cửa sổ ngữ cảnh

#language
#generativeAI

Số lượng mã thông báo mà một mô hình có thể xử lý trong một dữ liệu cụ thể lời nhắc. Cửa sổ ngữ cảnh càng lớn, thì thông tin càng nhiều mà mô hình đó có thể dùng để đưa ra câu trả lời mạch lạc và nhất quán vào lời nhắc.

tính chất liên tục

#fundamentals

Tính năng dấu phẩy động với phạm vi vô hạn có thể các giá trị, chẳng hạn như nhiệt độ hoặc trọng lượng.

Tương phản với tính năng tách biệt.

lấy mẫu tiện lợi

Sử dụng tập dữ liệu không được thu thập một cách khoa học để chạy nhanh thử nghiệm. Sau này, bạn cần phải chuyển sang tập dữ liệu.

sự hội tụ

#fundamentals

Trạng thái đạt khi các giá trị giảm thay đổi rất ít hoặc không hề đơn giản với từng vòng lặp. Ví dụ: như sau đường cong mất cho thấy sự hội tụ ở khoảng 700 lần lặp:

Cốt truyện Descartes. Trục X biểu thị sự mất mát. Trục Y là số chương trình huấn luyện
          lặp lại. Tỷ lệ mất mát rất cao trong vài lần lặp lại đầu tiên, nhưng
          giảm mạnh. Sau khoảng 100 lần lặp lại, lượng mất mát vẫn là
          giảm dần nhưng lại dần dần. Sau khoảng 700 lần lặp lại,
          mức tổn thất vẫn không thay đổi.

Một mô hình sẽ hội tụ khi quá trình huấn luyện bổ sung không diễn ra để cải thiện mô hình này.

Trong học sâu, giá trị tổn hao đôi khi không đổi hoặc gần như vậy cho nhiều lần lặp lại trước khi giảm dần. Trong một khoảng thời gian dài của giá trị tổn hao không đổi, bạn có thể tạm thời hiểu nhầm về sự hội tụ.

Hãy xem thêm mục dừng sớm.

Xem phần Hội tụ và mất mô hình đường cong trong Khoá học nhanh về máy học để biết thêm thông tin.

hàm lồi

Một hàm số mà trong đó vùng phía trên đồ thị của hàm số là tập con rối. Hàm lồi nguyên mẫu là có hình dạng giống như chữ cái U. Ví dụ: như sau đều là hàm lồi:

Đường cong hình chữ U, mỗi đường cong có một điểm tối thiểu duy nhất.

Ngược lại, hàm sau không lồi. Hãy lưu ý cách vùng phía trên biểu đồ không phải là một tập lồi:

Một đường cong hình chữ W có hai điểm tối thiểu cục bộ khác nhau.

Một hàm lồi nghiêm ngặt có đúng một điểm tối thiểu cục bộ, cũng là điểm tối thiểu toàn cầu. Các hàm hình chữ U cổ điển là hàm lồi. Tuy nhiên, một số hàm lồi (ví dụ: các đường thẳng) không phải là hình chữ U.

Xem Chuyển đổi và lồi hàm trong Khoá học nhanh về máy học để biết thêm thông tin.

tối ưu hoá lồi

Quá trình sử dụng các kỹ thuật toán học như hiệu ứng giảm độ dốc để tìm giá trị nhỏ nhất của hàm lồi. Rất nhiều nghiên cứu trong lĩnh vực học máy đã tập trung vào việc tạo bài tập tối ưu hoá lồi và khi giải các bài toán đó một cách hiệu quả.

Để biết toàn bộ thông tin chi tiết, vui lòng xem Boyd và Vandenberghe, Convex Tối ưu hoá.

tập lồi

Một tập con của không gian Euclide sao cho một đường thẳng được vẽ giữa hai điểm bất kỳ trong là tập hợp con hoàn toàn nằm trong tập hợp con. Ví dụ: hai quảng cáo sau đây hình dạng là các tập lồi:

Một hình minh hoạ một hình chữ nhật. Một hình minh hoạ khác về hình bầu dục.

Ngược lại, hai hình dạng sau đây không phải là tập hợp lồi:

Một hình minh hoạ biểu đồ hình tròn bị thiếu một lát cắt.
          Hình minh hoạ khác về một đa giác không đều đặn.

tích chập

#image

Trong toán học, nói một cách đơn giản, đó là sự kết hợp của hai hàm. Trong máy học tập, một tích chập kết hợp thuật toán tích chập bộ lọc và ma trận đầu vào để huấn luyện trọng số.

Thuật ngữ "tích chập" trong công nghệ học máy thường là cách viết tắt để tham chiếu đến phép tích chập hoặc lớp tích chập.

Nếu không có tích chập, thuật toán học máy sẽ phải học một trọng số riêng cho mỗi ô trong một tensor lớn. Ví dụ: thuật toán học máy đào tạo hình ảnh 2K x 2K sẽ buộc phải tìm 4M trọng số riêng biệt. Nhờ có tích chập, một công nghệ học máy thuật toán chỉ phải tìm trọng số cho mỗi ô trong bộ lọc tích chập, giúp giảm đáng kể bộ nhớ cần thiết để huấn luyện mô hình. Khi bộ lọc tích chập là nó chỉ được sao chép trên các ô sao cho mỗi ô được nhân theo bộ lọc.

Xem phần Giới thiệu về mạng nơron tích chập Mạng trong khoá học Phân loại hình ảnh để biết thêm thông tin.

bộ lọc tích chập

#image

Một trong hai diễn viên trong một phép tích chập. (Diễn viên còn lại là một lát cắt của ma trận đầu vào.) Bộ lọc tích chập là một ma trận có có cùng xếp hạng như ma trận đầu vào nhưng có hình dạng nhỏ hơn. Ví dụ: với ma trận đầu vào 28x28, bộ lọc có thể là ma trận 2D bất kỳ nhỏ hơn 28x28.

Trong thao tác chụp ảnh, tất cả các ô trong bộ lọc tích chập đều thường được thiết lập thành một mẫu không đổi gồm hai số là 0 và 0. Trong công nghệ học máy, bộ lọc tích chập thường được khởi đầu với các số ngẫu nhiên và sau đó là đào tạo các giá trị lý tưởng.

Xem bài viết Tích chập trong khoá học Phân loại hình ảnh để biết thêm thông tin.

lớp tích chập

#image

Một lớp của mạng nơron sâu trong đó bộ lọc tích chập truyền một giá trị đầu vào ma trận. Ví dụ: hãy xem xét các định dạng 3x3 sau bộ lọc tích chập:

Ma trận 3x3 với các giá trị sau: [[0,1,0], [1,0,1], [0,1,0]]

Ảnh động sau đây minh hoạ một lớp tích chập gồm 9 phép tích chập liên quan đến ma trận đầu vào 5x5. Lưu ý rằng mỗi phép tích chập hoạt động trên một lát cắt 3x3 khác của ma trận đầu vào. Ma trận 3x3 thu được (ở bên phải) bao gồm kết quả của 9 phép tích chập:

Ảnh động minh hoạ 2 ma trận. Ma trận đầu tiên là ma trận 5x5
          ma trận: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].
          Ma trận thứ hai là ma trận 3x3:
          [[181.303.618], [115.338.605], [169.351.560]].
          Ma trận thứ hai được tính bằng cách áp dụng phép tích chập
          lọc [[0, 1, 0], [1, 0, 1], [0, 1, 0]] qua
          Các tập con 3x3 khác nhau của ma trận 5x5.

Xem phần Đã kết nối hoàn toàn Lớp trong khoá học Phân loại hình ảnh để biết thêm thông tin.

mạng nơron tích chập

#image

Mạng nơron trong đó có ít nhất một lớp là một lớp lớp tích chập. Tích chập điển hình mạng nơron bao gồm một số tổ hợp của các lớp sau:

Mạng nơron tích chập đã thành công lớn ở một số loại sự cố, chẳng hạn như nhận dạng hình ảnh.

phép tích chập

#image

Phép toán hai bước sau đây:

  1. Phép nhân trên các phần tử của bộ lọc tích chập và một phần của ma trận đầu vào. (Lát cắt của ma trận đầu vào có cùng hạng và làm bộ lọc tích chập).
  2. Tổng của tất cả các giá trị trong ma trận tích thu được.

Ví dụ: hãy xem xét ma trận đầu vào 5x5 sau:

Ma trận 5x5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

Giờ hãy tưởng tượng bộ lọc tích chập 2x2 sau đây:

Ma trận 2x2: [[1, 0], [0, 1]]

Mỗi toán tử tích chập liên quan đến một lát cắt 2x2 của ma trận đầu vào. Ví dụ: giả sử chúng ta sử dụng lát cắt 2x2 ở trên cùng bên trái của ma trận đầu vào. Do đó, phép tích chập trên lát cắt này có dạng như sau:

Áp dụng bộ lọc tích chập [[1, 0], [0, 1]] lên trên cùng bên trái
          2x2 của ma trận đầu vào, đó là [[128,97], [35,22]].
          Bộ lọc tích chập giữ nguyên số 128 và 22, nhưng giá trị bằng 0
          giữa các số 97 và 35. Do đó, phép toán tích chập mang lại
          giá trị 150 (128+22).

Lớp tích chập bao gồm một một chuỗi phép tính tích chập, mỗi phép toán hoạt động trên một lát cắt khác nhau của ma trận đầu vào.

chi phí

Từ đồng nghĩa với mất.

đồng đào tạo

Phương pháp học bán có giám sát đặc biệt hữu ích khi tất cả các điều kiện sau đây đều đúng:

Việc cùng huấn luyện về cơ bản sẽ khuếch đại các tín hiệu độc lập thành tín hiệu mạnh hơn. Ví dụ: hãy xem xét mô hình phân loại phân loại từng chiếc ô tô đã qua sử dụng là Tốt hoặc Kém. Một nhóm các tính năng dự đoán có thể tập trung vào các đặc điểm tổng hợp như năm, nhà sản xuất và mẫu xe; có thể tập trung vào một nhóm tính năng dự đoán khác hồ sơ lái xe của chủ sở hữu trước và nhật ký bảo dưỡng ô tô.

Bài viết quan trọng về chương trình hợp tác đào tạo là Kết hợp dữ liệu có gắn nhãn và không được gắn nhãn với Bên cùng đào tạo Blum và Mike.

tính công bằng phản thực tế

#fairness

Chỉ số về tính công bằng kiểm tra xem thuật toán phân loại có tạo ra cùng một kết quả cho một cá nhân như cho một cá nhân khác giống hệt với quy tắc đầu tiên, ngoại trừ một hoặc nhiều thuộc tính nhạy cảm. Đánh giá một thuật toán phân loại cho công bằng phản thực tế là một phương pháp để hiển thị các nguồn sai lệch trong một mô hình.

Hãy xem một trong hai phần sau để biết thêm thông tin:

thiên kiến về phạm vi bao phủ

#fairness

Hãy xem phần thiên vị lựa chọn.

hoa va chạm

#language

Câu hoặc cụm từ có nghĩa mơ hồ. Hoa tai nạn là một vấn đề đáng kể về tự nhiên hiểu ngôn ngữ. Ví dụ: dòng tiêu đề Băng đỏ giữ tòa nhà chọc trời là xảy ra sự cố vì mô hình NLU có thể diễn giải tiêu đề theo nghĩa đen hoặc theo nghĩa bóng.

nhà phê bình

#rl

Từ đồng nghĩa với Deep Q-Network.

đồng entropy

Thông tin chung về tình trạng Mất nhật ký đối với bài toán phân loại nhiều lớp. Entropy chéo định lượng sự khác biệt giữa hai phân phối xác suất. Xem thêm sự phức tạp.

xác thực chéo

Cơ chế để ước tính mức độ tổng quát của một mô hình dữ liệu mới bằng cách kiểm tra mô hình với một hoặc nhiều tập hợp con dữ liệu không chồng chéo được khấu lưu từ nhóm huấn luyện.

hàm phân phối tích lũy (CDF)

Một hàm xác định tần suất của các mẫu nhỏ hơn hoặc bằng một giá trị mục tiêu. Ví dụ: hãy xem xét hàm phân phối chuẩn của các giá trị liên tục. CDF cho bạn biết rằng khoảng 50% mẫu có thể nhỏ hơn hoặc bằng trung bình và khoảng 84% mẫu có thể nhỏ hơn hoặc bằng thành một độ lệch chuẩn trên giá trị trung bình.

D

phân tích dữ liệu

Có được sự hiểu biết về dữ liệu bằng cách xem xét mẫu, đo lường, và trực quan hoá thông tin. Phân tích dữ liệu có thể đặc biệt hữu ích khi nhận được tập dữ liệu đầu tiên, trước khi người dùng tạo mô hình đầu tiên. Điều này cũng rất quan trọng trong việc hiểu rõ các thử nghiệm và gỡ lỗi sự cố với hệ thống.

tăng cường dữ liệu

#image

Tăng cường giả tạo phạm vi và số lượng Ví dụ về đào tạo bằng cách chuyển đổi tài sản hiện có ví dụ để tạo thêm ví dụ. Ví dụ: giả sử hình ảnh là một trong những tính năng, nhưng tập dữ liệu của bạn thì không chứa đủ các ví dụ về hình ảnh để mô hình tìm hiểu các liên kết hữu ích. Tốt nhất là bạn nên thêm đủ hình ảnh được gắn nhãn vào tập dữ liệu của bạn để để mô hình của bạn được huấn luyện đúng cách. Nếu không thể, hãy tăng cường dữ liệu có thể xoay, kéo giãn và phản ánh từng hình ảnh để tạo ra nhiều biến thể của bức ảnh ban đầu, có thể mang lại đủ dữ liệu được gắn nhãn để có thể huấn luyện.

DataFrame

#fundamentals

Loại dữ liệu gấu trúc phổ biến để biểu thị tập dữ liệu trong bộ nhớ.

DataFrame tương tự như một bảng hoặc một bảng tính. Mỗi cột của DataFrame có tên (tiêu đề) và mỗi hàng được xác định bằng số duy nhất.

Mỗi cột trong DataFrame có cấu trúc như một mảng 2D, ngoại trừ việc mỗi cột có thể được chỉ định một loại dữ liệu riêng.

Xem thêm Thông tin tham khảo về pandas.DataFrame .

tính song song dữ liệu

Cách mở rộng quy mô huấn luyện hoặc suy luận sao chép toàn bộ mô hình lên nhiều thiết bị rồi truyền một tập hợp con dữ liệu đầu vào đến mỗi thiết bị. Tính song song dữ liệu có thể cho phép huấn luyện và suy luận trên kích thước lô; tuy nhiên, tính song song dữ liệu đòi hỏi mô hình đủ nhỏ để vừa với mọi thiết bị.

Tính song song dữ liệu thường tăng tốc độ huấn luyện và suy luận.

Xem thêm về mô hình song song.

tập dữ liệu hoặc tập dữ liệu

#fundamentals

Một tập hợp dữ liệu thô, thường (nhưng không chỉ gồm) được sắp xếp trong một trong các định dạng sau:

  • một bảng tính
  • tệp ở định dạng CSV (giá trị được phân tách bằng dấu phẩy)

API Tập dữ liệu (tf.data)

#TensorFlow

Một API TensorFlow cấp cao để đọc dữ liệu và biến đổi dữ liệu đó thành một dạng thức mà thuật toán học máy yêu cầu. Đối tượng tf.data.Dataset đại diện cho một chuỗi các phần tử, trong đó mỗi phần tử chứa một hoặc nhiều Tensor. Một tf.data.Iterator đối tượng này cung cấp quyền truy cập vào các phần tử của Dataset.

ranh giới quyết định

Dấu phân cách giữa các lớp học được bằng mô hình theo lớp học nhị phân hoặc bài toán về phân loại nhiều lớp. Ví dụ: trong hình sau thể hiện bài toán phân loại nhị phân, ranh giới quyết định là ranh giới giữa lớp màu cam và lớp màu xanh dương:

Ranh giới được xác định rõ ràng giữa lớp này và lớp khác.

rừng quyết định

#df

Mô hình được tạo từ nhiều cây quyết định. Nhóm rừng quyết định đưa ra dự đoán bằng cách tổng hợp các dự đoán của cây quyết định. Các loại rừng quyết định phổ biến bao gồm khu rừng ngẫu nhiêncây được tăng cường độ dốc.

Xem phần Quyết định Rừng trong khoá học Rừng quyết định để biết thêm thông tin.

ngưỡng quyết định

Từ đồng nghĩa với ngưỡng phân loại.

cây quyết định

#df

Mô hình học tập có giám sát bao gồm tập hợp điều kiệnrời khỏi được sắp xếp theo hệ thống phân cấp. Ví dụ: sau đây là cây quyết định:

Cây quyết định bao gồm 4 điều kiện được sắp xếp
          phân cấp, dẫn đến 5 lá.

bộ giải mã

#language

Nhìn chung, bất kỳ hệ thống học máy nào chuyển đổi từ một hệ thống đã xử lý, dày đặc hoặc bản trình bày nội bộ thành bản trình bày thô, thưa thớt hoặc bên ngoài hơn.

Bộ giải mã thường là một thành phần của mô hình lớn hơn, trong đó chúng thường xuất hiện ghép nối với bộ mã hoá.

Trong tác vụ theo trình tự, bộ giải mã bắt đầu với trạng thái nội bộ do bộ mã hoá tạo ra để dự đoán trạng thái tiếp theo trình tự.

Tham khảo Transformer để biết định nghĩa về bộ giải mã trong cấu trúc Transformer.

Xem phần Các mô hình ngôn ngữ lớn trong Khoá học nhanh về máy học để biết thêm thông tin.

mô hình sâu

#fundamentals

Một mạng nơron chứa nhiều hơn một lớp ẩn.

Mô hình sâu còn được gọi là mạng nơron sâu.

Tương phản với mô hình rộng.

mạng nơron sâu

Từ đồng nghĩa với mô hình sâu.

Mạng Q sâu (DQN)

#rl

Trong Q-learning, một Q-learning sâu dự đoán hàm Q.

Phê bình là từ đồng nghĩa với Mạng Q-S sâu.

sự tương đồng về nhân khẩu học

#fairness

Chỉ số về tính công bằng được đáp ứng nếu kết quả phân loại mô hình không phụ thuộc vào được cung cấp thuộc tính nhạy cảm.

Ví dụ: nếu cả người Lilliputian và Brobdingnagian đều áp dụng cho Đại học Glraffdubdrib, mức độ tương đương về nhân khẩu học sẽ đạt được nếu tỷ lệ phần trăm tỷ lệ người Lilliputian được chấp nhận là bằng với tỷ lệ phần trăm người dân Brobdingnagian được chấp nhận, bất kể một nhóm có đủ tiêu chuẩn hơn trung bình hay không đơn vị quảng cáo khác.

Trái ngược với tỷ lệ chênh lệch bằngcơ hội bình đẳng, trong đó cho phép kết quả phân loại tổng hợp để phụ thuộc vào các thuộc tính nhạy cảm, nhưng không cho phép kết quả phân loại cho một số Nhãn thông tin thực tế để phụ thuộc vào các thuộc tính nhạy cảm. Xem "Tấn công bằng công nghệ học máy thông minh hơn" để có một hình ảnh trực quan khám phá các ưu điểm, khuyết điểm khi tối ưu hoá sự tương đồng về nhân khẩu học.

Xem bài viết Sự công bằng: thông tin nhân khẩu học ngang hàng trong Khoá học nhanh về máy học để biết thêm thông tin.

khử nhiễu

#language

Phương pháp phổ biến đối với phương pháp học tự giám sát trong đó:

  1. Tiếng ồn được thêm một cách giả tạo vào tập dữ liệu.
  2. Mô hình sẽ cố gắng loại bỏ tiếng ồn.

Tính năng khử nhiễu giúp bạn học hỏi từ các ví dụ chưa được gắn nhãn. Tập dữ liệu ban đầu đóng vai trò là mục tiêu hoặc label và dữ liệu nhiễu làm đầu vào.

Một số mô hình ngôn ngữ được che giấu sử dụng tính năng khử nhiễu như sau:

  1. Tiếng ồn được thêm một cách giả tạo vào một câu không được gắn nhãn bằng cách che một số mã thông báo.
  2. Mô hình sẽ cố gắng dự đoán mã thông báo ban đầu.

tính chất mật độ cao

#fundamentals

Một tính năng trong đó hầu hết hoặc tất cả giá trị khác 0, thường là một Tensor gồm các giá trị dấu phẩy động. Ví dụ: như sau Tensor có 10 nguyên tố dày đặc vì 9 giá trị của nó khác 0:

8 3 7 5 2 4 0 4 9 6

Tương phản với tính năng thưa thớt.

lớp dày đặc

Từ đồng nghĩa với lớp được kết nối hoàn toàn.

chiều sâu

#fundamentals

Tổng của những giá trị sau trong mạng nơron:

Ví dụ: một mạng nơron có 5 lớp ẩn và 1 lớp đầu ra có độ sâu là 6.

Lưu ý rằng lớp đầu vào không chiều sâu ảnh hưởng.

mạng nơron tích chập phân tách theo chiều sâu (sepCNN)

#image

Mạng nơron tích chập cấu trúc dựa trên Sự khởi đầu, nhưng trong đó các mô-đun Inception được thay thế bằng depthwise có thể phân tách tích chập. Còn được gọi là Xception.

Tích chập tách rời theo chiều sâu (còn được viết tắt là tích chập tách biệt) đưa một tích chập 3D chuẩn thành hai phép tích chập riêng biệt hiệu quả hơn về mặt tính toán: trước tiên là tích chập theo chiều sâu, với độ sâu là 1 (n ° n ° 1), và sau đó là tích chập điểm, có chiều dài và chiều rộng là 1 (1 Đường 1 Đường n 1 ).

Để tìm hiểu thêm, hãy xem bài viết Xception: Deep Learning with depthwise Separable Tích chập.

nhãn phái sinh

Từ đồng nghĩa với nhãn proxy.

thiết bị

#TensorFlow
#GoogleCloud

Thuật ngữ quá tải có thể có hai định nghĩa sau đây:

  1. Một loại phần cứng có thể chạy phiên TensorFlow, bao gồm CPU, GPU và TPU.
  2. Khi huấn luyện một mô hình học máy trên khối tăng tốc (GPU hoặc TPU), một phần của hệ thống thực sự thao tác tensortính năng nhúng. Thiết bị chạy trên vi mạch trình tăng tốc. Ngược lại, máy chủ lưu trữ thường chạy trên CPU.

sự riêng tư biệt lập

Trong công nghệ học máy, một phương pháp ẩn danh để bảo vệ mọi dữ liệu nhạy cảm (ví dụ: thông tin cá nhân của một cá nhân) có trong bộ huấn luyện không bị tiết lộ. Phương pháp này đảm bảo mô hình không tìm hiểu hoặc nhớ nhiều về một cá nhân. Việc này được thực hiện bằng cách lấy mẫu và thêm nhiễu trong quá trình lập mô hình nhằm che giấu các điểm dữ liệu riêng lẻ, giảm thiểu nguy cơ làm lộ dữ liệu huấn luyện nhạy cảm.

Sự riêng tư biệt lập cũng được dùng bên ngoài công nghệ học máy. Ví dụ: đôi khi, nhà khoa học dữ liệu sử dụng sự riêng tư biệt lập để bảo vệ quyền riêng tư khi tính số liệu thống kê sử dụng sản phẩm cho các nhóm nhân khẩu học khác nhau.

giảm kích thước

Giảm số lượng phương diện được sử dụng để đại diện cho một đối tượng cụ thể trong một vectơ đối tượng, thường là chuyển đổi thành vectơ nhúng.

phương diện

Thuật ngữ quá tải có bất kỳ định nghĩa nào sau đây:

  • Số lượng toạ độ trong Tensor. Ví dụ:

    • Một đại lượng vô hướng có chiều bằng 0; ví dụ: ["Hello"].
    • Vectơ có một chiều; ví dụ: [3, 5, 7, 11].
    • Ma trận có hai chiều; ví dụ: [[2, 4, 18], [5, 7, 14]]. Bạn có thể chỉ định duy nhất một ô cụ thể trong vectơ một chiều với một toạ độ; bạn cần hai toạ độ để chỉ định duy nhất một ô cụ thể trong ma trận hai chiều.
  • Số phần tử trong vectơ đối tượng.

  • Số lượng phần tử trong một lớp nhúng.

nhắc trực tiếp

#language
#generativeAI

Từ đồng nghĩa với lời nhắc thực hiện bằng 0.

tính chất rời rạc

#fundamentals

Một tính năng có một tập hợp hữu hạn các giá trị có thể có. Ví dụ: một đối tượng có giá trị chỉ có thể là động vật, rau hoặc khoáng sản là riêng biệt (hoặc phân loại).

Tương phản với tính năng liên tục.

mô hình phân biệt đối xử

Mô hình dự đoán nhãn từ một tập hợp một hoặc tính năng khác. Một cách chính thức hơn, các mô hình phân biệt đối xử xác định xác suất có điều kiện của một đầu ra dựa trên các tính năng và weights; đó là:

p(output | features, weights)

Ví dụ: một mô hình dự đoán liệu một email có phải là thư rác từ các tính năng hay không và trọng số là mô hình phân biệt đối xử.

Phần lớn mô hình học tập có giám sát, bao gồm cả tính năng phân loại và mô hình hồi quy đều là các mô hình phân biệt đối xử.

Trái ngược với mô hình tạo sinh.

giá trị phân biệt

Hệ thống xác định xem ví dụ là thật hay giả.

Ngoài ra, hệ thống con trong môi trường đối nghịch tạo sinh mạng để xác định xem các ví dụ do trình tạo tạo là thật hay giả.

Xem phần Đối tượng phân biệt trong khoá học GAN để biết thêm thông tin.

tác động riêng lẻ

#fairness

Đưa ra quyết định về những người có tác động đến các nhóm dân số khác nhau các nhóm con một cách không cân xứng. Điều này thường đề cập đến các tình huống khi quy trình đưa ra quyết định dựa trên thuật toán gây hại hoặc mang lại lợi ích một số nhóm con nhiều hơn các nhóm khác.

Ví dụ: giả sử một thuật toán xác định tham số của Lilliputian thì khả năng được phân loại là có nhiều khả năng đủ điều kiện để vay tiền để mua nhà thu nhỏ chúng là "không đủ điều kiện" Nếu địa chỉ gửi thư của họ chứa mã bưu chính. Nếu Big-Endian Lilliputians có nhiều khả năng có địa chỉ gửi thư có mã bưu chính này so với Little-Endian Lilliputians, thì thuật toán này có thể dẫn đến tác động khác nhau.

Ngược lại với phương pháp xử lý khác, Tập trung vào sự khác biệt xảy ra khi các đặc điểm của nhóm con là thông tin đầu vào rõ ràng cho quá trình đưa ra quyết định dựa trên thuật toán.

đối xử tách biệt

#fairness

Phân tích đối tượng thuộc tính nhạy cảm vào quá trình đưa ra quyết định dựa trên thuật toán sao cho các nhóm con khác nhau được đối xử khác nhau.

Ví dụ: hãy xem xét một thuật toán xác định tiếng Lilliputians đủ điều kiện để được vay tiền mua nhà thu nhỏ dựa trên dữ liệu mà họ cung cấp trong hồ sơ vay vốn. Nếu thuật toán sử dụng Việc liên kết của Lilliputian như Big-Endian hoặc Little-Endian là một đầu vào, đang thực hiện cách xử lý khác nhau cùng với chiều đó.

Tương phản với tác động khác biệt, tập trung vào về sự khác biệt trong tác động xã hội của các quyết định dựa trên thuật toán đối với các nhóm con, bất kể các nhóm con đó có phải là dữ liệu đầu vào cho mô hình hay không.

chưng cất

#generativeAI

Quá trình giảm kích thước của một mô hình (được gọi là giáo viên) vào một mô hình nhỏ hơn (gọi là học viên) mô phỏng các dự đoán của mô hình ban đầu một cách trung thực nhất có thể. Chưng cất là rất hữu ích vì mô hình nhỏ hơn có hai lợi ích chính so với mô hình lớn mô hình (giáo viên):

  • Thời gian suy luận nhanh hơn
  • Giảm mức sử dụng bộ nhớ và năng lượng

Tuy nhiên, dự đoán của học sinh thường không chính xác bằng những dự đoán của giáo viên.

Tính năng chưng cất giúp đào tạo mô hình học sinh để giảm thiểu hàm mất dựa trên sự chênh lệch giữa các kết quả đầu ra dự đoán của các mô hình học sinh và giáo viên.

So sánh và đối chiếu quá trình chưng cất với các thuật ngữ sau:

Xem các LLM: Tinh chỉnh, chưng cất và câu lệnh kỹ thuật trong Khoá học nhanh về máy học để biết thêm thông tin.

Phân phối

Tần suất và phạm vi của các giá trị khác nhau cho một giá trị cụ thể feature hoặc label. Phân phối ghi lại khả năng xảy ra một giá trị cụ thể.

Hình ảnh sau đây cho thấy biểu đồ của hai mức phân phối khác nhau:

  • Ở bên trái là sự phân bố theo luật năng lượng của sự giàu có so với số người đang sở hữu sự giàu có đó.
  • Ở bên phải là mức phân bổ chuẩn của chiều cao so với số người sở hữu chiều cao đó.

Hai biểu đồ. Một biểu đồ thể hiện sự phân phối định luật công suất với
          sự giàu có trên trục x và số người giàu có
          trục y. Đa số mọi người rất ít giàu, chỉ một vài người có
          rất nhiều của cải. Biểu đồ khác cho thấy mức phân phối chuẩn
          có chiều cao trên trục x và số người có chiều cao đó
          trên trục y. Hầu hết mọi người tập trung ở một nơi nào đó gần mức trung bình.

Hiểu rõ cách phân phối của từng tính năng và hãng nhạc có thể giúp bạn xác định cách để chuẩn hoá các giá trị và phát hiện các điểm ngoại lai.

Cụm từ ngoài phạm vi phân phối dùng để chỉ một giá trị không xuất hiện trong hoặc rất hiếm khi xảy ra. Ví dụ: hình ảnh của hành tinh Sao Thổ sẽ là được xem là không phân phối cho một tập dữ liệu bao gồm hình ảnh mèo.

phân cụm phân cụm

#clustering

Hãy xem nội dung phân cụm phân cấp.

giảm tần số lấy mẫu

#image

Thuật ngữ quá tải có thể có nghĩa là một trong những trường hợp sau:

  • Giảm lượng thông tin trong một tính năng trong để huấn luyện một mô hình hiệu quả hơn. Ví dụ: trước khi huấn luyện mô hình nhận dạng hình ảnh, giảm tần số lấy mẫu ở độ phân giải cao sang định dạng có độ phân giải thấp hơn.
  • Được đào tạo về tỷ lệ thấp, không tương xứng lớp ví dụ để cải thiện quy trình huấn luyện mô hình đối với những lớp có ít người tham gia. Ví dụ: trong tình huống thiếu cân bằng về tầng lớp , các mô hình có xu hướng tìm hiểu nhiều về đa số và không đủ để lớp thiểu số. Giúp giảm tần số lấy mẫu cân bằng lượng đào tạo dành cho tầng lớp đa số và thiểu số.

Xem Tập dữ liệu: Không cân bằng tập dữ liệu trong Khoá học nhanh về máy học để biết thêm thông tin.

DQN

#rl

Từ viết tắt của Deep Q-Network.

điều chỉnh tỷ lệ bỏ ngang

Một hình thức chính quy hữu ích trong quá trình huấn luyện mạng nơron. Điều chỉnh tỷ lệ bỏ ngang xoá lựa chọn ngẫu nhiên một số đơn vị cố định trong mạng cho một bước chuyển màu. Hạ càng nhiều đơn vị càng mạnh quy trình điều chỉnh. Việc này tương tự như việc huấn luyện mạng để mô phỏng một tập hợp lớn theo cấp số nhân gồm các mạng nhỏ hơn. Để biết toàn bộ thông tin chi tiết, hãy xem Bỏ qua mạng: Một cách đơn giản để ngăn chặn mạng nơron Giao diện quá mức.

linh động

#fundamentals

Việc nào đó được thực hiện thường xuyên hoặc liên tục. Các cụm từ độngtrực tuyến là các từ đồng nghĩa với công nghệ học máy. Sau đây là những cách sử dụng phổ biến của tính năng độngtrực tuyến trong máy đang học:

  • Mô hình động (hoặc mô hình trực tuyến) là một mô hình được đào tạo lại thường xuyên hoặc liên tục.
  • Đào tạo động (hoặc đào tạo trực tuyến) là quá trình đào tạo một cách thường xuyên hoặc liên tục.
  • Suy luận động (hoặc suy luận trực tuyến) là quá trình tạo thông tin dự đoán theo yêu cầu.

mô hình linh động

#fundamentals

Một mô hình diễn ra thường xuyên (thậm chí có thể liên tục) được đào tạo lại. Mô hình linh động là "học viên suốt đời" để liên tục thích ứng với dữ liệu không ngừng thay đổi. Mô hình động còn được gọi là mô hình trực tuyến.

Tương phản với mô hình tĩnh.

E

thực thi háo hức

#TensorFlow

Môi trường lập trình TensorFlow trong đó hoạt động chạy ngay lập tức. Ngược lại, các toán tử được gọi trong quá trình thực thi biểu đồ không chạy cho đến khi chúng được nêu rõ ràng đánh giá. Thực thi háo hức là một giao diện bắt buộc, nhiều chẳng hạn như mã trong hầu hết các ngôn ngữ lập trình. Các chương trình thực thi hào hứng thường dễ gỡ lỗi hơn nhiều so với các chương trình thực thi biểu đồ.

dừng sớm

#fundamentals

Phương pháp chính thức liên quan đến việc kết thúc huấn luyện trước khi ngừng huấn luyện kết thúc đang giảm. Khi dừng sớm, bạn chủ ý ngừng huấn luyện mô hình khi tổn thất trên tập dữ liệu xác thực bắt đầu xảy ra increase; tức là, khi hiệu suất tổng quát hoá kém hơn.

khoảng cách động đất (EMD)

Đo lường mức độ tương đối tương đối của hai phân phối. Quãng đường di chuyển của trái đất càng thấp thì sự phân bố càng giống nhau.

chỉnh sửa khoảng cách

#language

Phép đo mức độ tương tự của hai chuỗi văn bản với nhau. Trong công nghệ học máy, việc chỉnh sửa khoảng cách rất hữu ích vì có thể và một cách hiệu quả để so sánh hai chuỗi được biết là tương tự hoặc để tìm các chuỗi tương tự với một chuỗi đã cho.

Có một số định nghĩa về khoảng cách chỉnh sửa, mỗi định nghĩa lại sử dụng một chuỗi khác nhau các toán tử. Ví dụ: Quãng đường từ Levenshtein xem xét phép toán xoá, chèn và thay thế ít nhất.

Ví dụ: khoảng cách Levenshtein giữa các từ "tim" và "phi tiêu" là 3 vì 3 nội dung chỉnh sửa sau đây là ít thay đổi nhất để biến một từ vào dữ liệu khác:

  1. trái tim → dấu móc (thay "h" bằng "d")
  2. deart → phi tiêu (xoá "e")
  3. phi tiêu → phi tiêu (chèn "s")

Ký hiệu Einsum

Một ký hiệu hiệu quả để mô tả cách hoạt động của hai tensor kết hợp. Các tensor được kết hợp bằng cách nhân các phần tử của một tensor theo các phần tử của tensor khác rồi tính tổng của các tích. Ký hiệu Einsum sử dụng các ký hiệu để xác định trục của mỗi tensor và các trục đó các ký hiệu tương tự được sắp xếp lại để chỉ định hình dạng của tensor thu được mới.

NumPy cung cấp cách triển khai Einsum phổ biến.

lớp nhúng

#language
#fundamentals

Một lớp ẩn đặc biệt huấn luyện trên tính năng phân loại chiều cao để tìm hiểu dần vectơ nhúng chiều dưới. Một tầng nhúng cho phép mạng nơron huấn luyện hiệu quả hơn hiệu quả hơn so với việc chỉ đào tạo về tính năng phân loại chiều cao.

Ví dụ, Trái đất hiện hỗ trợ khoảng 73.000 loài cây. Giả sử loài cây là một tính năng trong mô hình của bạn, do đó, lớp đầu vào bao gồm vectơ một nóng 73.000 dài. Ví dụ: có thể baobab sẽ được biểu thị như sau:

Một mảng có 73.000 phần tử. 6.232 phần tử đầu tiên chứa giá trị
     0. Phần tử tiếp theo chứa giá trị 1. 66.767 nguyên tố cuối cùng giữ
     giá trị bằng 0.

Mảng 73.000 phần tử là rất dài. Nếu bạn không thêm lớp nhúng vào mô hình, việc huấn luyện sẽ tốn rất nhiều thời gian do nhân 72.999 số không. Có thể bạn nên chọn lớp nhúng để đưa vào gồm 12 phương diện. Do đó, lớp nhúng sẽ dần học một vectơ nhúng mới cho mỗi loài cây.

Trong một số trường hợp nhất định, thao tác băm là giải pháp thay thế hợp lý vào lớp nhúng.

Xem phần Nhúng trong Khoá học nhanh về máy học để biết thêm thông tin.

không gian nhúng

#language

Không gian vectơ d chiều đặc trưng từ một chiều cao hơn không gian vectơ được ánh xạ tới. Lý tưởng nhất là không gian nhúng chứa cấu trúc mang lại kết quả toán học có ý nghĩa; ví dụ: trong một không gian nhúng lý tưởng, phép cộng và trừ các phần nhúng có thể giải quyết nhiệm vụ tương tự từ.

Sản phẩm chấm của hai nhúng là thước đo mức độ tương đồng của chúng.

vectơ nhúng

#language

Nói chung, một mảng số dấu phẩy động được lấy từ bất kỳ lớp ẩn mô tả dữ liệu đầu vào cho lớp ẩn đó. Thông thường, vectơ nhúng là một mảng gồm các số dấu phẩy động được huấn luyện theo một lớp nhúng. Ví dụ: giả sử một lớp nhúng phải tìm hiểu vectơ nhúng cho mỗi loại trong số 73.000 loài cây trên Trái đất. Có thể mảng sau đây là vectơ nhúng của một cây bao báp:

Một mảng gồm 12 phần tử, mỗi phần tử chứa một số dấu phẩy động
          từ 0.0 đến 1.0.

Vectơ nhúng không phải là một loạt các số ngẫu nhiên. Lớp nhúng xác định các giá trị này thông qua quá trình huấn luyện, tương tự như cách mạng nơron sẽ học các trọng số khác trong quá trình huấn luyện. Mỗi phần tử của mảng là xếp hạng theo một số đặc điểm của một loài cây. Mục nào đại diện cho loài cây nào đặc điểm của mình? Rất khó để con người xác định.

Phần đáng chú ý về mặt toán học của vectơ nhúng là tương tự các mục có bộ số dấu phẩy động tương tự nhau. Ví dụ: tương tự các loài cây có tập hợp số dấu phẩy động giống nhau hơn so với những loài cây không giống nhau. Cây hồng sam và cây cự sam là các loài cây có họ liên quan, nên chúng sẽ có tập hợp số dấu phẩy động giống nhau hơn cây gỗ đỏ và cây cọ dừa. Các số trong vectơ nhúng sẽ thay đổi mỗi lần huấn luyện lại mô hình, ngay cả khi bạn đào tạo lại mô hình có dữ liệu đầu vào giống hệt nhau.

hàm phân phối tích lũy theo kinh nghiệm (eCDF hoặc EDF)

Hàm phân phối tích luỹ dựa trên phép đo thực nghiệm từ một tập dữ liệu thực. Giá trị của thuộc tính hàm tại bất kỳ điểm nào dọc theo trục x là phân số của giá trị quan sát trong tập dữ liệu nhỏ hơn hoặc bằng giá trị đã chỉ định.

giảm thiểu rủi ro theo thực nghiệm (ERM)

Chọn hàm giảm thiểu tổn thất trên tập huấn luyện. Độ tương phản bằng giảm thiểu rủi ro theo cấu trúc.

bộ mã hóa

#language

Nhìn chung, mọi hệ thống học máy chuyển đổi từ dữ liệu thô, thưa thớt hoặc bên ngoài thành cách trình bày được xử lý nhiều hơn, dày đặc hơn hoặc nội bộ hơn.

Bộ mã hoá thường là một thành phần của mô hình lớn hơn, trong đó bộ mã hoá thường xuất hiện ghép nối với bộ giải mã. Một số máy biến áp ghép nối bộ mã hóa với bộ giải mã, mặc dù các Bộ chuyển đổi khác chỉ sử dụng bộ mã hóa hoặc chỉ bộ giải mã.

Một số hệ thống sử dụng đầu ra của bộ mã hoá làm dữ liệu đầu vào để phân loại hoặc mạng hồi quy.

Trong các nhiệm vụ theo trình tự, một bộ mã hoá nhận một chuỗi đầu vào và trả về trạng thái bên trong (một vectơ). Sau đó, bộ giải mã sử dụng trạng thái nội bộ đó để dự đoán trình tự tiếp theo.

Tham khảo bài viết Transformer để biết định nghĩa về một bộ mã hoá trong cấu trúc Transformer.

Xem LLM: Ngôn ngữ lớn là gì mô hình trong Khoá học nhanh về máy học để biết thêm thông tin.

quần áo

Một tập hợp mô hình được huấn luyện độc lập có dự đoán được tính trung bình hoặc tổng hợp. Trong nhiều trường hợp, bản tổng hợp mang lại kết quả tốt hơn so với một mô hình đơn lẻ. Ví dụ: một khu rừng ngẫu nhiên là một quần thể được xây dựng từ nhiều cây quyết định. Lưu ý rằng không phải tất cả rừng quyết định là tập hợp.

Xem Ngẫu nhiên Rừng trong Khoá học nhanh về máy học để biết thêm thông tin.

entropy

#df

Ngang bằng lý thuyết thông tin, nội dung mô tả về khả năng dự đoán của một xác suất là bao nhiêu. Ngoài ra, entropy còn được định nghĩa là giá trị thông tin mà mỗi ví dụ có. Phân phối có entropy cao nhất có thể khi tất cả các giá trị của một biến ngẫu nhiên là khả năng tương đương.

Entropy của một tập hợp với hai giá trị có thể có là "0" và "1" (ví dụ: các nhãn trong bài toán phân loại nhị phân) có công thức như sau:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

trong đó:

  • H là entropy.
  • p là phân số của "1" ví dụ.
  • q là phân số của "0" ví dụ. Lưu ý rằng q = (1 - p)
  • nhật ký thường là nhật ký2. Trong trường hợp này, entropy là một bit.

Ví dụ: giả sử như sau:

  • 100 ví dụ chứa giá trị "1"
  • 300 ví dụ chứa giá trị "0"

Do đó, giá trị entropy là:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)nhật ký2(0,25) - (0,75)nhật ký2(0,75) = 0,81 bit cho mỗi ví dụ

Một tập hợp hoàn toàn cân bằng (ví dụ: 200 "0"s và 200 "1"s) sẽ có entropy là 1,0 bit cho mỗi ví dụ. Khi tập hợp trở nên nhiều hơn không cân bằng thì entropy của nó dịch chuyển về 0.0.

Trong cây quyết định, entropy giúp lập công thức thu thập thông tin để giúp bộ chia chọn điều kiện trong quá trình phát triển cây quyết định phân loại.

So sánh entropy với:

Entropy thường được gọi là entropy của Shannon.

Xem phần Bộ chia chính xác để phân loại nhị phân bằng số tính năng trong khoá học Rừng quyết định để biết thêm thông tin.

môi trường

#rl

Trong học tăng cường, thế giới chứa tác nhân người dùng và cho phép tác nhân quan sát trạng thái của thế giới đó. Ví dụ: thế giới được mô phỏng có thể là một trò chơi như cờ, hoặc một thế giới thực như mê cung. Khi tác nhân áp dụng một thao tác cho môi trường, thì môi trường sẽ chuyển đổi giữa các trạng thái.

tập

#rl

Trong học tăng cường, mỗi lần thử lặp đi lặp lại của agent để tìm hiểu một môi trường.

thời gian bắt đầu của hệ thống

#fundamentals

Một lượt huấn luyện đầy đủ cho toàn bộ nhóm huấn luyện sao cho mỗi ví dụ đã được xử lý một lần.

Một thời gian bắt đầu của hệ thống đại diện cho N/kích thước lô huấn luyện vòng lặp, trong đó N là tổng số ví dụ.

Ví dụ: giả sử như sau:

  • Tập dữ liệu này có 1.000 ví dụ.
  • Kích thước lô là 50 ví dụ.

Do đó, một thời gian bắt đầu của hệ thống sẽ yêu cầu 20 lần lặp lại:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Xem Hồi quy tuyến tính: Siêu tham số trong Khoá học nhanh về máy học để biết thêm thông tin.

chính sách tham lam của epsilon

#rl

Trong học tăng cường, một chính sách tuân thủ một chính sách ngẫu nhiên có xác suất epsilon hoặc chính sách tham lam. Ví dụ: nếu epsilon là 0.9, thì chính sách tuân theo một chính sách ngẫu nhiên 90% thời gian và tham lam 10% thời gian chính sách.

Qua các tập liên tiếp, thuật toán sẽ giảm giá trị epsilon theo thứ tự chuyển từ việc tuân theo một chính sách ngẫu nhiên sang tuân theo một chính sách tham lam. Theo thay đổi chính sách, trước tiên tác nhân sẽ khám phá ngẫu nhiên môi trường và rồi tham lam khai thác kết quả khám phá ngẫu nhiên.

bình đẳng về cơ hội

#fairness

Chỉ số về tính công bằng để đánh giá xem một mô hình có dự đoán kết quả mong muốn như nhau cho tất cả giá trị của thuộc tính nhạy cảm. Nói cách khác, nếu kết quả mong muốn cho một mô hình là nhóm dương, mục tiêu là có tỷ lệ dương thực sự như nhau cho tất cả các nhóm.

Bình đẳng về cơ hội liên quan đến tỷ lệ chênh lệch bằng, hệ thống này yêu cầu cả tỷ lệ dương tính thực và tỷ lệ dương tính giả là như nhau đối với tất cả các nhóm.

Giả sử Đại học Glrudubdrib chấp nhận cả người Lilliputian và Brobdingnagian sang một chương trình toán nghiêm ngặt. Tiếng Lilliputian trường trung học cung cấp chương trình giảng dạy môn toán mạnh mẽ, và phần lớn học sinh đều đủ điều kiện tham gia chương trình đại học. Tiếng Brobdingnagian trường trung học thì không cung cấp lớp toán, nên số học sinh của họ ít hơn rất nhiều đủ điều kiện. Thoả mãn bằng nhãn hiệu ưu tiên về cơ hội "đã cho phép" quốc tịch (Lilliputian hoặc Brobdingnagian) nếu sinh viên đủ điều kiện có khả năng được nhận bằng như nhau, bất kể họ là người Lilliputian hoặc người Broddingnagian.

Ví dụ: giả sử 100 Lilliputian và 100 Brobdingnagian áp dụng cho và quyết định tuyển sinh được đưa ra như sau:

Bảng 1. Ứng viên người Lilliput (90% là đủ điều kiện)

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Đã cho phép 45 3
Bị từ chối 45 7
Tổng 90 10
Tỷ lệ phần trăm sinh viên đủ điều kiện được nhận: 45/90 = 50%
Tỷ lệ phần trăm học viên không đủ điều kiện bị từ chối: 7/10 = 70%
Tổng tỷ lệ phần trăm sinh viên Lilliputian được chấp nhận: (45 + 3)/100 = 48%

 

Bảng 2. Ứng viên Bỉ (10% đủ điều kiện):

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Đã cho phép 5 9
Bị từ chối 5 81
Tổng 10 90
Tỷ lệ phần trăm sinh viên đủ điều kiện được nhận: 5/10 = 50%
Tỷ lệ học viên không đủ điều kiện bị từ chối: 81/90 = 90%
Tổng tỷ lệ phần trăm sinh viên Brobdingnagian được chấp nhận: (5 + 9)/100 = 14%

Các ví dụ trước thỏa mãn sự bình đẳng về cơ hội được chấp nhận sinh viên đủ điều kiện vì cả người Lilliputian và người Brobdingnagian đủ điều kiện có 50% cơ hội được nhận.

Mặc dù mức độ cân bằng về cơ hội được thoả mãn, nhưng hai chỉ số sau về mức độ công bằng không hài lòng:

  • điểm tương đồng về nhân khẩu học: người Lilliputian và Người dân Brobya được nhận vào trường đại học theo các tỷ lệ khác nhau; 48% sinh viên Lilliputian được nhận, nhưng chỉ có 14% Nhận học sinh viên Brobdingnagian.
  • tỷ lệ cược bằng: Mặc dù người Lilliputian đủ tiêu chuẩn sinh viên và sinh viên ở Brobdingnagian đều có cơ hội được nhận như nhau, quy tắc ràng buộc bổ sung khiến các Lilliputian và Cả hai người Brobdingnagian đều có khả năng bị từ chối như nhau? hài lòng. Người đưa ra vấn đề không đủ tiêu chuẩn có tỷ lệ bị từ chối là 70%, trong khi đó người dân bản địa không đủ điều kiện có tỷ lệ bị từ chối là 90%.

Xem Tính công bằng: Bình đẳng về cơ hội trong Khoá học nhanh về máy học để biết thêm thông tin.

tỷ lệ cược cân bằng

#fairness

Chỉ số công bằng để đánh giá xem một mô hình có dự đoán kết quả một cách công bằng hay không phù hợp với tất cả các giá trị của thuộc tính nhạy cảm bằng đối với cả lớp tích cựclớp phủ định – không chỉ một lớp hay một lớp khác . Nói cách khác, cả tỷ lệ dương thực sựtỷ lệ âm tính giả phải bằng nhau đối với tất cả các nhóm.

Tỷ lệ chênh lệch có liên quan đến cơ hội bình đẳng, tức là chỉ tập trung vào đối với tỷ lệ lỗi của một lớp (dương hoặc âm).

Ví dụ: giả sử Đại học Glraffdubdrib chấp nhận cả Lilliputian và Broddingnagian tham gia một chương trình toán học nghiêm ngặt. Tiếng Lilliputian phụ trường học cung cấp một chương trình giảng dạy phong phú gồm các lớp toán, và phần lớn sinh viên đủ điều kiện vào chương trình đại học. Tiếng Brobdingnagian phụ các trường học không hề cung cấp lớp toán, nên kết quả là số lượng sinh viên của mình đủ điều kiện. Tỷ lệ chênh lệch được thoả mãn miễn là không quan trọng là người đăng ký là người Lilliputian hay người Brobdingnagian, nếu họ đều đủ điều kiện, họ đều có khả năng được nhận vào chương trình đồng đều, và nếu không đủ tiêu chuẩn, thì khả năng bị từ chối của họ cũng bằng nhau.

Giả sử 100 Lilliputian và 100 Broddingnagian áp dụng cho Glraffdubdrib Các quyết định về việc nhập học và đại học được đưa ra như sau:

Bảng 3. Ứng viên người Lilliput (90% là đủ điều kiện)

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Đã cho phép 45 2
Bị từ chối 45 8
Tổng 90 10
Tỷ lệ phần trăm sinh viên đủ điều kiện được nhận: 45/90 = 50%
Tỷ lệ học viên không đủ điều kiện bị từ chối: 8/10 = 80%
Tổng tỷ lệ phần trăm sinh viên Lilliputian được chấp nhận: (45 + 2)/100 = 47%

 

Bảng 4. Ứng viên Bỉ (10% đủ điều kiện):

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Đã cho phép 5 18
Bị từ chối 5 72
Tổng 10 90
Tỷ lệ phần trăm sinh viên đủ điều kiện được nhận: 5/10 = 50%
Tỷ lệ phần trăm học viên không đủ điều kiện bị từ chối: 72/90 = 80%
Tổng tỷ lệ phần trăm sinh viên Brobdingnagian được chấp nhận: (5 + 18)/100 = 23%

Tỷ lệ chênh lệch được hài lòng vì người Lilliputian và Brobdingnagian đủ điều kiện cả hai đều có 50% cơ hội được nhận vào và cả hai đều không đủ tiêu chuẩn. xác suất quảng cáo của họ bị từ chối là 80%.

Tỷ lệ cá cược cân bằng được xác định chính thức trong "Bằng Cơ hội trong chế độ Học có giám sát" như sau: "trình dự đoán khía đáp ứng tỷ lệ chênh lệch tương đương đối với thuộc tính A được bảo vệ và kết quả Y nếu khía và A là độc lập, có điều kiện đối với Y."

Công cụ ước tính

#TensorFlow

Một API TensorFlow không dùng nữa. Thay vào đó, hãy sử dụng tf.keras Công cụ ước tính.

giáng sinh

#language
#generativeAI

Chủ yếu được dùng làm tên viết tắt cho các hoạt động đánh giá mô hình ngôn ngữ lớn (LLM). Nói rộng hơn, evals là cách viết tắt của mọi dạng đánh giá.

đánh giá

#language
#generativeAI

Quá trình đo lường chất lượng của mô hình hoặc so sánh các mô hình khác nhau với nhau.

Cách đánh giá công nghệ học máy có giám sát bạn thường đánh giá dựa trên một tập hợp xác thực và một tập kiểm thử. Đánh giá một mô hình ngôn ngữ lớn (LLM) thường bao gồm quy trình đánh giá rộng hơn về chất lượng và an toàn.

ví dụ

#fundamentals

Giá trị của một hàng features và có thể là một nhãn. Ví dụ ở học có giám sát có hai loại danh mục chung:

  • Một ví dụ có gắn nhãn bao gồm một hoặc nhiều tính năng và một nhãn. Các ví dụ có gắn nhãn sẽ được dùng trong quá trình huấn luyện.
  • Một ví dụ chưa được gắn nhãn bao gồm một hoặc nhiều tính năng hơn nhưng không có nhãn. Các ví dụ không được gắn nhãn sẽ được sử dụng trong quá trình suy luận.

Ví dụ: giả sử bạn đang huấn luyện một mô hình để xác định mức độ ảnh hưởng về điều kiện thời tiết tại điểm kiểm tra của học sinh. Dưới đây là ba ví dụ có gắn nhãn:

Tính năng Hãng nhạc
Nhiệt độ Độ ẩm Áp lực Điểm kiểm tra
15 47 998 Tốt
19 34 1020 Rất tốt
18 92 1012 Kém

Dưới đây là ba ví dụ chưa gắn nhãn:

Nhiệt độ Độ ẩm Áp lực  
12 62 1014  
21 47 1017  
19 41 1021  

Hàng của một tập dữ liệu thường là nguồn thô để lấy ví dụ. Tức là một ví dụ thường bao gồm một tập hợp con các cột trong tập dữ liệu. Ngoài ra, các tính năng trong một ví dụ cũng có thể bao gồm tính năng tổng hợp, chẳng hạn như sử dụng nhiều tính năng.

Xem phần Học tập có giám sát trong khoá học Giới thiệu về công nghệ học máy để biết thêm thông tin.

phát lại trải nghiệm

#rl

Trong học tăng cường, kỹ thuật DQN dùng để giảm mối tương quan về thời gian trong dữ liệu huấn luyện. Tác nhân lưu trữ các chuyển đổi trạng thái trong vùng đệm phát lại, sau đó chuyển đổi mẫu từ vùng đệm phát lại để tạo dữ liệu huấn luyện.

thiên kiến của người thử nghiệm

#fairness

Hãy xem phần xu hướng xác nhận.

bài toán độ dốc bùng nổ

#seq

Xu hướng độ dốcmạng nơron sâu (đặc biệt là mạng nơron lặp lại) trở thành dốc (cao) một cách đáng ngạc nhiên. Độ dốc đứng thường dẫn đến cập nhật rất lớn vào trọng số của mỗi nút trong mạng nơron sâu.

Các mô hình gặp phải vấn đề độ dốc bùng nổ trở nên khó khăn hoặc không thể huấn luyện. Cắt dần có thể giảm thiểu vấn đề này.

So sánh với bài toán biến mất độ dốc.

F

F1

"Tổng hợp" phân loại nhị phân phụ thuộc vào cả độ chính xácđộ thu hồi. Dưới đây là công thức:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Ví dụ như sau:

  • độ chính xác = 0,6
  • thu hồi = 0,4
$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Khi độ chính xác và độ thu hồi tương đối giống nhau (như trong ví dụ trước), F1 gần bằng với giá trị trung bình của họ. Khi độ chính xác và độ thu hồi khác nhau đáng kể, F1 gần với giá trị thấp hơn. Ví dụ:

  • độ chính xác = 0,9
  • thu hồi = 0,1
$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

quy tắc ràng buộc về tính công bằng

#fairness
Áp dụng một quy tắc ràng buộc cho thuật toán để đảm bảo một hoặc nhiều định nghĩa về sự công bằng. Sau đây là một số ví dụ về những hạn chế liên quan đến sự công bằng:

chỉ số về tính công bằng

#fairness

Một định nghĩa trong toán học về "sự công bằng" có thể đo lường. Sau đây là một số chỉ số thường dùng về mức độ công bằng:

Có nhiều chỉ số về sự công bằng loại trừ lẫn nhau; xem không tương thích của các chỉ số về tính công bằng.

âm tính giả (FN)

#fundamentals

Một ví dụ trong đó mô hình dự đoán nhầm lớp phủ định. Ví dụ: mô hình dự đoán rằng một email cụ thể không phải là spam (lớp phủ định), nhưng email đó thực sự là thư rác.

tỷ lệ âm tính giả

Tỷ lệ các ví dụ thực tế dương tính với mô hình bị nhầm lẫn đã dự đoán là lớp phủ định. Công thức sau đây tính giá trị sai tỷ lệ âm:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Xem Ngưỡng và sự nhầm lẫn ma trận trong Khoá học nhanh về máy học để biết thêm thông tin.

dương tính giả (FP)

#fundamentals

Một ví dụ trong đó mô hình dự đoán nhầm lớp học tích cực. Ví dụ: mô hình này dự đoán một email cụ thể là thư rác (loại email tích cực), nhưng email thực ra không phải là thư rác.

Xem Ngưỡng và sự nhầm lẫn ma trận trong Khoá học nhanh về máy học để biết thêm thông tin.

tỷ lệ dương tính giả (FPR)

#fundamentals

Tỷ lệ các ví dụ phủ định thực tế mà mô hình gặp phải đã dự đoán cho nhóm có giá trị dương. Công thức sau đây tính giá trị sai tỷ lệ dương:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Tỷ lệ dương tính giả là trục x trong đường cong ROC.

Xem phần Phân loại: ROC và AUC trong Khoá học nhanh về máy học để biết thêm thông tin.

đối tượng

#fundamentals

Biến đầu vào cho mô hình học máy. Ví dụ bao gồm một hoặc nhiều tính năng. Ví dụ: giả sử bạn đang huấn luyện một để xác định ảnh hưởng của điều kiện thời tiết đến điểm bài kiểm tra của học sinh. Bảng sau đây trình bày ba ví dụ, mỗi ví dụ có chứa 3 tính năng và 1 nhãn:

Tính năng Hãng nhạc
Nhiệt độ Độ ẩm Áp lực Điểm kiểm tra
15 47 998 92
19 34 1020 84
18 92 1012 87

Tương phản với nhãn.

Xem phần Học tập có giám sát trong khoá học Giới thiệu về công nghệ học máy để biết thêm thông tin.

hình chữ thập

#fundamentals

Một tính năng tổng hợp hình thành bằng cách "kết hợp" Các tính năng phân loại hoặc phân loại.

Ví dụ: cân nhắc "dự báo tâm trạng" mô hình biểu thị nhiệt độ bằng một trong bốn nhóm sau:

  • freezing
  • chilly
  • temperate
  • warm

Và biểu thị tốc độ gió ở một trong ba nhóm sau:

  • still
  • light
  • windy

Khi không có đối tượng giao cắt, mô hình tuyến tính sẽ huấn luyện độc lập trên mỗi trước 7 nhóm khác nhau. Vì vậy, mô hình sẽ huấn luyện trên, chẳng hạn như freezing độc lập với quá trình huấn luyện về, chẳng hạn như windy.

Ngoài ra, bạn có thể tạo một đường chéo đặc trưng của nhiệt độ và tốc độ gió. Tính năng tổng hợp này sẽ có 12 khả năng sau giá trị:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Nhờ có các hình chữ thập, mô hình có thể học được điểm khác biệt về tâm trạng trong khoảng từ freezing-windy ngày đến freezing-still ngày.

Nếu bạn tạo một tính năng tổng hợp từ hai tính năng mà mỗi tính năng đều có rất nhiều nhiều nhóm khác nhau, thì kết quả của tính năng này sẽ có số lượng các tổ hợp có thể có. Ví dụ: nếu một đối tượng có 1.000 nhóm và tính năng khác có 2.000 bộ chứa, kết quả tính năng chéo có 2.000.000 .

Về mặt chính thức, chữ thập là một Sản phẩm của Cartesian.

Các kết hợp đối tượng chủ yếu được sử dụng với mô hình tuyến tính và hiếm khi được sử dụng nhờ mạng nơron.

Xem phần Dữ liệu phân loại: Tính năng hình chữ thập trong Khoá học nhanh về máy học để biết thêm thông tin.

kỹ thuật trích xuất tính chất

#fundamentals
#TensorFlow

Một quy trình bao gồm các bước sau:

  1. Xác định tính năng nào có thể hữu ích trong việc huấn luyện một mô hình.
  2. Chuyển đổi dữ liệu thô từ tập dữ liệu thành các phiên bản hiệu quả của các tính năng đó.

Ví dụ: bạn có thể xác định rằng temperature có thể hữu ích của chúng tôi. Sau đó, bạn có thể thử nghiệm với cách phân nhóm để tối ưu hoá những gì mô hình có thể học từ các phạm vi temperature khác nhau.

Kỹ thuật tính năng đôi khi được gọi là trích xuất tính năng hoặc kết hợp.

Xem Dữ liệu số: Cách mô hình nhập dữ liệu bằng tính năng vectơ trong Khoá học nhanh về máy học để biết thêm thông tin.

trích xuất tính năng

Thuật ngữ quá tải có một trong các định nghĩa sau:

tầm quan trọng của tính năng

#df

Từ đồng nghĩa với tầm quan trọng thay đổi.

bộ tính năng

#fundamentals

Nhóm tính năng mà công nghệ học máy của bạn cung cấp model sẽ được huấn luyện. Ví dụ: mã bưu chính, quy mô tài sản và tình trạng của tài sản có thể bao gồm một bộ tính năng đơn giản cho một mô hình dự đoán giá nhà ở.

thông số tính năng

#TensorFlow

Mô tả thông tin cần thiết để trích xuất dữ liệu về tính năng từ vùng đệm giao thức tf.Example. Vì Vùng đệm giao thức tf.Example chỉ là một vùng chứa dữ liệu, bạn phải chỉ định như sau:

  • Dữ liệu cần trích xuất (tức là các khoá cho các tính năng)
  • Loại dữ liệu (ví dụ: số thực có độ chính xác đơn hoặc số nguyên)
  • Độ dài (cố định hoặc thay đổi)

vectơ đối tượng

#fundamentals

Mảng các giá trị feature bao gồm ví dụ. Vectơ đối tượng được nhập vào trong khoảng thời gian đào tạo và trong quá trình suy luận. Ví dụ: vectơ đặc trưng của một mô hình có hai đối tượng riêng biệt có thể là:

[0.92, 0.56]

Bốn lớp: một lớp đầu vào, hai lớp ẩn và một lớp đầu ra.
          Lớp đầu vào chứa hai nút, một nút chứa giá trị
          0,92 và mục kia chứa giá trị 0,56.

Mỗi ví dụ cung cấp các giá trị khác nhau cho vectơ đối tượng, do đó giá trị vectơ đối tượng cho ví dụ tiếp theo có thể như:

[0.73, 0.49]

Kỹ thuật tính năng xác định cách thể hiện các đối tượng trong vectơ đối tượng. Ví dụ: một đối tượng phân loại nhị phân có có thể được biểu thị bằng mã hoá một nóng. Trong trường hợp này, phần của vectơ đặc trưng của một ví dụ cụ thể sẽ bao gồm bốn số 0 và một 1.0 ở vị trí thứ ba, như sau:

[0.0, 0.0, 1.0, 0.0, 0.0]

Một ví dụ khác, giả sử mô hình của bạn bao gồm ba tính năng:

  • một tính năng phân loại nhị phân có năm giá trị có thể có được biểu thị bằng mã hoá một nóng; ví dụ: [0.0, 1.0, 0.0, 0.0, 0.0]
  • một tính năng phân loại nhị phân khác có ba giá trị có thể có được biểu thị với mã hoá một nóng; ví dụ: [0.0, 0.0, 1.0]
  • đối tượng dấu phẩy động; ví dụ: 8.3.

Trong trường hợp này, vectơ đặc trưng của từng ví dụ sẽ được biểu diễn theo 9 giá trị. Với các giá trị mẫu trong danh sách trên, giá trị vectơ đối tượng sẽ là:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Xem Dữ liệu số: Cách mô hình nhập dữ liệu bằng tính năng vectơ trong Khoá học nhanh về máy học để biết thêm thông tin.

liên kết

Quá trình trích xuất các tính năng từ nguồn đầu vào, chẳng hạn như tài liệu hoặc video và ánh xạ những tính năng đó thành vectơ đối tượng.

Một số chuyên gia học máy coi việc liên kết là từ đồng nghĩa với kỹ thuật trích xuất tính chất hoặc trích xuất tính năng.

học liên kết

Phương pháp tiếp cận học máy phân tán giúp huấn luyện các mô hình học máy sử dụng mô hình phi tập trung ví dụ trên thiết bị, chẳng hạn như điện thoại thông minh. Trong phương pháp học liên kết, một nhóm nhỏ thiết bị sẽ tải mô hình hiện tại xuống từ một máy chủ điều phối trung tâm. Thiết bị sử dụng các ví dụ đã lưu trữ trên các thiết bị để cải thiện mô hình. Sau đó, các thiết bị tải lên cải tiến mô hình (chứ không phải các ví dụ huấn luyện) cho quy trình điều phối máy chủ của bạn, nơi chúng được tổng hợp với các bản cập nhật khác để mang lại mô hình toàn cầu. Sau khi tổng hợp, các bản cập nhật mô hình được tính toán theo thiết bị không còn cần thiết nữa và có thể bị loại bỏ.

Vì các ví dụ huấn luyện không bao giờ được tải lên, nên phương pháp học liên kết sẽ tuân theo nguyên tắc bảo vệ quyền riêng tư liên quan đến việc thu thập dữ liệu tập trung và giảm tối đa việc thu thập dữ liệu.

Để biết thêm thông tin về phương pháp học liên kết, hãy xem hướng dẫn này.

vòng hồi tiếp

#fundamentals

Trong công nghệ học máy, một tình huống trong đó những dự đoán của mô hình sẽ ảnh hưởng đến dữ liệu huấn luyện cho cùng một mô hình hoặc mô hình khác. Ví dụ: một mô hình phim sẽ ảnh hưởng đến phim mà mọi người xem. Sau đó, ảnh hưởng đến các mô hình đề xuất phim tiếp theo.

Xem bài viết Các hệ thống học máy sản xuất: Câu hỏi cho yêu cầu trong Khoá học nhanh về máy học để biết thêm thông tin.

mạng nơron tiến lên (FFN)

Mạng nơron không có kết nối tuần hoàn hoặc đệ quy. Ví dụ: mạng nơron sâu truyền thống mạng nơron tiến lên. Tương phản với thần kinh tái phát có tính tuần hoàn.

học từ một vài dữ liệu

Một phương pháp học máy, thường được dùng để phân loại đối tượng, nhằm huấn luyện các thuật toán phân loại hiệu quả chỉ từ một số ít các ví dụ huấn luyện.

Ngoài ra, hãy xem bài viết học một lầnhọc tập từ bất kỳ chi tiết nào.

nhắc một vài thông tin

#language
#generativeAI

Câu lệnh có nhiều (một "vài") ví dụ minh hoạ cách mô hình ngôn ngữ lớn sẽ phản hồi. Ví dụ: câu lệnh dài sau đây chứa hai các ví dụ cho thấy mô hình ngôn ngữ lớn về cách trả lời một truy vấn.

Các phần của một câu lệnh Ghi chú
Đơn vị tiền tệ chính thức của quốc gia đã chỉ định là gì? Câu hỏi mà bạn muốn LLM trả lời.
Pháp: EUR Một ví dụ.
Vương quốc Anh: GBP Ví dụ khác.
Ấn Độ: Cụm từ tìm kiếm thực tế.

Việc nhắc ít liên quan thường mang lại kết quả mong muốn hơn so với nhắc nhở hoạt động không cố địnhNhắc một lần. Tuy nhiên, việc nhắc vài lần cần một câu lệnh dài hơn.

Nhắc vài lần là một hình thức học vài lần đã áp dụng cho học tập dựa trên câu lệnh.

Xem Lời nhắc kỹ thuật trong Khoá học nhanh về máy học để biết thêm thông tin.

Đàn vĩ cầm

#language

Một thư viện cấu hình ưu tiên Python sẽ đặt giá trị giá trị của các hàm và lớp không có mã hoặc cơ sở hạ tầng xâm phạm. Trong trường hợp Pax (và các cơ sở mã học máy khác) thì các hàm này và các lớp đại diện cho mô hìnhhuấn luyện siêu tham số.

Dây vĩ cầm giả định rằng cơ sở mã học máy thường được chia thành:

  • Mã thư viện xác định các lớp và trình tối ưu hoá.
  • "Keo" tập dữ liệu để gọi các thư viện và kết nối mọi thứ với nhau.

Fiddle ghi lại cấu trúc lệnh gọi của mã kết nối trong một thuộc tính chưa được đánh giá và dạng có thể thay đổi.

tinh chỉnh

#language
#image
#generativeAI

Một lượt huấn luyện thứ hai, dành riêng cho từng nhiệm vụ được thực hiện trên mô hình huấn luyện trước để tinh chỉnh các tham số cho trường hợp sử dụng cụ thể. Ví dụ: trình tự đào tạo đầy đủ cho một số mô hình ngôn ngữ lớn như sau:

  1. Huấn luyện trước: Đào tạo một mô hình ngôn ngữ lớn trên một tập dữ liệu tổng quát rộng lớn, chẳng hạn như tất cả các trang Wikipedia bằng tiếng Anh.
  2. Điều chỉnh: Đào tạo mô hình đã huấn luyện trước để thực hiện một thao tác cụ thể, chẳng hạn như trả lời các câu hỏi về y tế. Việc tinh chỉnh thường liên quan đến hàng trăm hoặc hàng nghìn ví dụ tập trung vào tác vụ cụ thể.

Một ví dụ khác, trình tự huấn luyện đầy đủ cho mô hình hình ảnh lớn là sau:

  1. Huấn luyện trước: Đào tạo một mô hình hình ảnh lớn trên hình ảnh chung rộng lớn chẳng hạn như tất cả hình ảnh trong Wikimedia commons.
  2. Điều chỉnh: Đào tạo mô hình đã huấn luyện trước để thực hiện một thao tác cụ thể, chẳng hạn như tạo hình ảnh cá voi sát thủ.

Việc tinh chỉnh có thể gồm bất kỳ sự kết hợp nào của các chiến lược sau đây:

  • Sửa đổi tất cả mô hình hiện có của mô hình huấn luyện trước tham số. Quá trình này đôi khi được gọi là tinh chỉnh đầy đủ.
  • Chỉ sửa đổi một số tham số hiện có của mô hình huấn luyện trước (thường là các lớp gần nhất với lớp đầu ra), trong khi giữ nguyên các tham số hiện có khác (thường là các lớp gần với lớp đầu vào nhất. Xem điều chỉnh hiệu quả về tham số.
  • Thêm các lớp khác, thường là ở đầu các lớp hiện có gần nhất với tầng đầu ra.

Tinh chỉnh là một hình thức học chuyển tiếp. Như vậy, quá trình tinh chỉnh có thể sử dụng một hàm mất mát khác hoặc một mô hình khác khác với các loại được dùng để huấn luyện mô hình luyện sẵn. Ví dụ: bạn có thể tinh chỉnh mô hình hình ảnh lớn được huấn luyện trước để tạo ra một mô hình hồi quy trả về số lượng chim trong hình ảnh đầu vào.

So sánh và đối chiếu tính năng tinh chỉnh với các thuật ngữ sau:

Xem phần Điều chỉnh trong Khoá học nhanh về máy học để biết thêm thông tin.

Cây lanh

#language

Nguồn mở hiệu suất cao thư viện dành cho học sâu được xây dựng dựa trên JAX. Hạt lanh cung cấp các hàm để đào tạo mạng nơron, cũng như làm phương pháp đánh giá hiệu suất.

Flaxformer

#language

Transformer nguồn mở thư viện, được xây dựng trên Flax, được thiết kế chủ yếu cho việc xử lý ngôn ngữ tự nhiên và nghiên cứu đa phương thức.

quên cổng

#seq

Một phần của Bộ nhớ ngắn hạn dài ô điều chỉnh luồng thông tin qua ô. Loại bỏ việc cổng duy trì ngữ cảnh bằng cách quyết định thông tin nào cần loại bỏ từ trạng thái ô.

CANNOT TRANSLATE

Từ đồng nghĩa với softmax.

Ngược lại với tính năng lấy mẫu đề xuất.

tầng liên kết đầy đủ

Một lớp ẩn trong đó mỗi nút được kết nối với mọi nút trong lớp ẩn tiếp theo.

Lớp được kết nối đầy đủ còn được gọi là lớp dày đặc.

biến đổi hàm

Một hàm nhận một hàm làm dữ liệu đầu vào và trả về một hàm đã biến đổi đầu ra. JAX sử dụng các phép biến đổi hàm.

G

GAN

Từ viết tắt của đối nghịch tạo sinh mạng.

tổng quát hoá

#fundamentals

Khả năng của mô hình để đưa ra dự đoán chính xác về các mô hình mới, dữ liệu chưa xem trước đây. Một mô hình có thể tổng quát hoá thì ngược lại của một mô hình quá phù hợp.

Gemini

#language
#image
#generativeAI

Hệ sinh thái này gồm công nghệ AI tiên tiến nhất của Google. Các thành phần của hệ sinh thái này bao gồm:

  • Nhiều mô hình Gemini.
  • Giao diện trò chuyện tương tác cho một mô hình Gemini. Người dùng nhập câu lệnh và Gemini sẽ trả lời các câu lệnh đó.
  • Nhiều API Gemini.
  • Nhiều sản phẩm kinh doanh dựa trên mô hình Gemini; ví dụ: Gemini cho Google Cloud.

Mô hình Gemini

#language
#image
#generativeAI

Ứng dụng dựa trên công nghệ Transformer hiện đại của Google mô hình đa phương thức. Các mô hình Gemini đặc biệt được thiết kế để tích hợp với các tác nhân.

Người dùng có thể tương tác với các mô hình Gemini theo nhiều cách, bao gồm cả thông qua giao diện hộp thoại tương tác và thông qua SDK.

đường cong tổng quát

#fundamentals

Biểu đồ về cả mất mát về huấn luyệnmất thông tin xác thực dưới dạng hàm của số lượng vòng lặp.

Đường cong tổng quát có thể giúp bạn phát hiện overfitting (tối ưu hoá). Ví dụ: như sau đường cong tổng quát cho thấy tình trạng quá phù hợp vì không có sự xác thực sẽ cao hơn đáng kể so với lượng mất phí huấn luyện.

Đồ thị Descartes trong đó trục y được gắn nhãn là mất và trục x
          được gắn nhãn lặp lại. Hai lô đất xuất hiện. Một biểu đồ cho thấy
          lỗ hổng huấn luyện và cái còn lại cho thấy lỗ hổng xác thực.
          Hai kế hoạch này có khởi đầu tương tự nhau, nhưng dần dần mất đi huấn luyện
          mức giảm thấp hơn nhiều so với tổn thất xác thực.

mô hình tuyến tính tổng quát

Tổng quát về thuật toán hồi quy bình phương ít nhất các mô hình phân bổ dựa trên Tiếng Gaussian nhiễu sang nội dung khác các loại mô hình dựa trên các loại nhiễu khác, chẳng hạn như Tiếng ồn Poisson hoặc nhiễu phân loại. Ví dụ về mô hình tuyến tính tổng quát:

Bạn có thể tìm thấy các tham số của mô hình tuyến tính tổng quát thông qua tối ưu hoá mặt đồng hồ.

Mô hình tuyến tính tổng quát thể hiện những thuộc tính sau:

  • Dự đoán trung bình của mô hình hồi quy bình phương tối ưu là bằng với nhãn trung bình trên dữ liệu huấn luyện.
  • Xác suất trung bình được dự đoán bằng hồi quy logistic tối ưu bằng nhãn trung bình trên dữ liệu huấn luyện.

Sức mạnh của mô hình tuyến tính tổng quát bị giới hạn bởi các đối tượng của nó. Bỏ thích một mô hình sâu, một mô hình tuyến tính tổng quát hoá thì không thể "tìm hiểu các tính năng mới".

mạng đối nghịch tạo sinh (GAN)

Một hệ thống tạo dữ liệu mới trong đó trình tạo tạo ra và bộ phân biệt xác định liệu điều đó dữ liệu đã tạo là hợp lệ hay không hợp lệ.

AI tạo sinh

#language
#image
#generativeAI

Một trường biến đổi mới xuất hiện mà không có định nghĩa chính thức. Tuy nhiên, hầu hết chuyên gia đều đồng ý rằng các mô hình AI tạo sinh có thể tạo ("tạo") nội dung đáp ứng tất cả các yêu cầu sau:

  • phức tạp
  • mạch lạc
  • gốc

Ví dụ: một mô hình AI tạo sinh có thể tạo ra những bài tiểu luận hoặc hình ảnh.

Một số công nghệ cũ, bao gồm LSTMsRNN, cũng có thể tạo tệp gốc và nội dung mạch lạc. Một số chuyên gia xem những công nghệ trước đây này AI tạo sinh, trong khi những người khác lại cảm thấy rằng AI tạo sinh thực sự đòi hỏi những so với những công nghệ trước đây có thể tạo ra.

Trái ngược với công nghệ học máy dự đoán.

mô hình tạo sinh

Trên thực tế, một mô hình thực hiện một trong những việc sau:

  • Tạo (tạo) ví dụ mới từ tập dữ liệu huấn luyện. Ví dụ: một mô hình tạo sinh có thể sáng tác nên thơ sau khi huấn luyện trên một tập hợp thơ. Phần trình tạo của mạng đối nghịch tạo sinh cũng thuộc danh mục này.
  • Xác định xác suất mà một ví dụ mới đến từ tập hợp huấn luyện hoặc được tạo từ cùng một cơ chế đã tạo tập huấn luyện. Ví dụ: sau khi đào tạo về một tập dữ liệu bao gồm các câu tiếng Anh, thì mô hình tạo sinh có thể xác định xác suất đầu vào mới là một câu tiếng Anh hợp lệ.

Về mặt lý thuyết, mô hình tạo sinh có thể phân biệt sự phân bố của các ví dụ hoặc các đối tượng địa lý cụ thể trong một tập dữ liệu. Đó là:

p(examples)

Các mô hình học tập không giám sát là mô hình tạo sinh.

Trái ngược với các mô hình phân biệt.

trình tạo

Hệ thống con trong vấn đề đối nghịch tạo sinh mạng lưới để tạo các ví dụ mới.

Trái ngược với mô hình phân biệt.

tạp chất gini

#df

Một chỉ số tương tự như entropy. Bộ chia đôi sử dụng các giá trị thu được từ độ không tinh khiết gini hoặc entropy để kết hợp điều kiện để phân loại cây quyết định. Mức nhận thông tin bắt nguồn từ entropy. Không có thuật ngữ tương đương được chấp nhận trên toàn cầu cho chỉ số bắt nguồn từ tạp chất gini; tuy nhiên, chỉ số chưa đặt tên này cũng quan trọng như kiếm được thông tin.

Tạp chất Gini còn được gọi là chỉ số gini hoặc đơn giản là gini.

tập dữ liệu vàng

Một tập hợp dữ liệu được tuyển chọn thủ công để ghi lại thông tin thực tế. Các nhóm có thể sử dụng một hoặc nhiều tập dữ liệu vàng để đánh giá chất lượng của một mô hình.

Một số tập dữ liệu quan trọng thu thập được nhiều miền con của thông tin thực tế. Ví dụ: tập dữ liệu vàng để phân loại hình ảnh có thể chụp được các điều kiện ánh sáng và độ phân giải hình ảnh.

GPT (Trình chuyển đổi được huấn luyện trước và tạo sinh)

#language

Một dòng sản phẩm dựa trên Transformer mô hình ngôn ngữ lớn do OpenAI.

Các biến thể GPT có thể áp dụng cho nhiều phương thức, bao gồm:

  • tạo hình ảnh (ví dụ: ImageGPT)
  • tạo văn bản thành hình ảnh (ví dụ: DALL-E).

chuyển màu

Vectơ của đạo hàm từng phần đối với tất cả các biến độc lập. Trong công nghệ học máy, độ dốc là vectơ của đạo hàm riêng của hàm mô hình. Các điểm chuyển màu theo hướng đi lên dốc nhất.

tích luỹ độ dốc

Kỹ thuật truyền ngược cập nhật tham số chỉ một lần cho mỗi thời gian bắt đầu của hệ thống thay vì một lần cho mỗi lặp lại. Sau khi xử lý từng lô nhỏ, độ dốc tích luỹ chỉ đơn giản là cập nhật tổng số độ dốc đang chạy. Rồi, sau xử lý lô nhỏ cuối cùng trong thời gian bắt đầu của hệ thống, cuối cùng hệ thống cũng sẽ cập nhật các thông số dựa trên tổng tất cả các thay đổi về độ dốc.

Tính năng tích luỹ chuyển màu rất hữu ích khi kích thước lô là rất lớn so với dung lượng bộ nhớ trống để huấn luyện. Khi bộ nhớ là một vấn đề, xu hướng thông thường là giảm kích thước lô. Tuy nhiên, việc giảm kích thước lô trong phương pháp lan truyền ngược thông thường sẽ tăng kích thước lô số lần cập nhật thông số. Tính năng tích luỹ độ dốc cho phép mô hình này nhằm tránh các vấn đề về bộ nhớ mà vẫn huấn luyện hiệu quả.

Cây tăng độ dốc (quyết định) (GBT)

#df

Một loại rừng quyết định trong đó:

tăng độ dốc

#df

Một thuật toán huấn luyện trong đó các mô hình yếu được huấn luyện lặp lại cải thiện chất lượng (giảm tổn thất) của mô hình mạnh. Ví dụ: một mô hình yếu có thể là mô hình cây quyết định tuyến tính hoặc nhỏ. Mô hình mạnh sẽ trở thành tổng hợp của tất cả mô hình yếu được huấn luyện trước đó.

Trong hình thức tăng độ dốc đơn giản nhất, ở mỗi lần lặp lại, một mô hình yếu được huấn luyện để dự đoán độ dốc của tổn thất trong mô hình mạnh. Sau đó, đầu ra của mô hình mạnh được cập nhật bằng cách trừ đi độ dốc dự đoán, tương tự như tính năng giảm độ dốc.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

trong đó:

  • $F_{0}$ là mô hình khởi đầu mạnh mẽ.
  • $F_{i+1}$ là mô hình mạnh mẽ tiếp theo.
  • $F_{i}$ là mô hình mạnh hiện tại.
  • $\xi$ là một giá trị nằm trong khoảng từ 0.0 đến 1.0 có tên là rút gọn, tương tự như tỷ lệ học ở giảm độ dốc.
  • $f_{i}$ là mô hình yếu được huấn luyện để dự đoán gradient tổn thất của $F_{i}$.

Các biến thể hiện đại của tăng độ dốc cũng bao gồm đạo hàm thứ hai (Hessian) về tổn thất trong tính toán.

Cây quyết định thường được dùng làm mô hình yếu trong tăng độ dốc. Xem cây tăng cường độ dốc (quyết định).

cắt dạng chuyển màu

#seq

Một cơ chế thường dùng để giảm thiểu vấn đề chuyển màu bùng nổ do các nguyên nhân giới hạn (cắt) giá trị tối đa của độ dốc khi sử dụng Giảm độ dốc để huấn luyện một mô hình.

phương pháp giảm độ dốc

#fundamentals

Một kỹ thuật toán học để giảm thiểu mất mát. Chế độ xuống dần điều chỉnh liên tục trọng sốđộ lệch, dần dần tìm ra kết hợp tốt nhất để giảm thiểu tổn thất.

Quá trình gốc chuyển màu cũ hơn – lâu đời hơn nhiều – so với công nghệ học máy.

đồ thị

#TensorFlow

Trong TensorFlow, một quy cách tính toán. Các nút trong biểu đồ biểu thị hoạt động. Các cạnh được định hướng và tượng trưng cho việc truyền kết quả của một toán tử (Tensor) dưới dạng toán hạng sang toán tử khác. Sử dụng TensorBoard để trực quan hóa một biểu đồ.

thực thi biểu đồ

#TensorFlow

Một môi trường lập trình TensorFlow mà trong đó chương trình sẽ xây dựng chương trình đầu tiên một biểu đồ rồi thực thi toàn bộ hoặc một phần của biểu đồ đó. Biểu đồ thực thi là chế độ thực thi mặc định trong TensorFlow 1.x.

Trái ngược với kiểu thực thi mong muốn.

chính sách tham lam

#rl

Trong học tăng cường, chính sách luôn chọn có lợi tức dự kiến cao nhất.

thông tin thực tế

#fundamentals

Thực tế.

Điều thực sự đã xảy ra.

Ví dụ: hãy xem xét phân loại nhị phân mô hình dự đoán liệu một sinh viên trong năm đầu đại học có phải sẽ tốt nghiệp trong vòng 6 năm. Dựa trên cơ sở thực tế của mô hình này là liệu không phải sinh viên đó thực sự tốt nghiệp trong vòng 6 năm.

thiên kiến phân bổ nhóm

#fairness

Giả định rằng những gì đúng với một cá nhân cũng đúng với tất cả mọi người trong nhóm đó. Tác động của thiên kiến phân bổ nhóm có thể trở nên trầm trọng hơn nếu lấy mẫu tiện lợi được dùng để thu thập dữ liệu. Trong mẫu không mang tính đại diện, thông tin ghi nhận sự đóng góp có thể được làm không phản ánh thực tế.

Xem thêm về thiên vị về tính đồng nhất ngoài nhómthiên vị trong nhóm.

Số lần bị đánh trúng bóng

ảo tưởng

#language

Việc tạo ra đầu ra có vẻ hợp lý nhưng thực tế không chính xác bằng AI tạo sinh với ý định tạo ra về thế giới thực. Ví dụ: một mô hình AI tạo sinh tuyên bố rằng Barack Obama qua đời vào năm 1865 là ảo giác.

băm

Trong công nghệ học máy, một cơ chế để phân giỏ dữ liệu phân loại, đặc biệt khi số lượng số lượng danh mục là rất lớn, nhưng số lượng danh mục thực sự xuất hiện trong tập dữ liệu là tương đối nhỏ.

Ví dụ như Trái Đất là nhà của khoảng 73.000 loài cây. Bạn có thể đại diện cho mỗi trong số 73.000 loài cây trong 73.000 phân loại riêng biệt . Ngoài ra, nếu chỉ có 200 loài cây đó thực sự xuất hiện trong một tập dữ liệu, bạn có thể sử dụng hàm băm để chia các loài cây thành khoảng 500 thùng.

Một bộ chứa có thể chứa nhiều loài cây. Ví dụ: băm có thể đặt baobabphong đỏ—hai không giống nhau về gen loài—vào cùng một nhóm. Mặc dù vậy, băm vẫn là một cách hay để ánh xạ các tập hợp phân loại lớn vào số nhóm đã chọn. Thao tác băm biến một số lượng lớn các giá trị có thể có vào số lượng giá trị nhỏ hơn bằng cách nhóm các giá trị vào một theo thuật toán tất định.

phỏng đoán

Một giải pháp đơn giản và được triển khai nhanh chóng cho một vấn đề. Ví dụ: "Với phương pháp suy nghiệm, chúng tôi đã đạt được độ chính xác 86%. Khi chúng tôi chuyển sang mạng nơron sâu, độ chính xác lên đến 98%".

lớp ẩn

#fundamentals

Một lớp trong mạng nơron giữa lớp đầu vào (các tính năng) và lớp lớp đầu ra (thông tin dự đoán). Mỗi lớp ẩn bao gồm một hoặc nhiều nơ-ron. Ví dụ: mạng nơron sau đây chứa hai lớp ẩn, gói đầu tiên có 3 nơron và gói thứ hai có 2 nơron:

4 lớp. Lớp đầu tiên là lớp đầu vào chứa hai
          các tính năng AI mới. Lớp thứ hai là lớp ẩn chứa ba
          nơron. Lớp thứ ba là một lớp ẩn chứa hai
          nơron. Lớp thứ tư là lớp đầu ra. Mỗi tính năng
          chứa ba cạnh, mỗi cạnh trỏ tới một nơron khác nhau
          ở lớp thứ hai. Mỗi nơron trong lớp thứ hai
          chứa hai cạnh, mỗi cạnh trỏ tới một nơron khác nhau
          ở lớp thứ ba. Mỗi nơron trong lớp thứ ba chứa
          một cạnh, mỗi cạnh trỏ đến lớp đầu ra.

Một mạng nơron sâu chứa nhiều hơn một lớp ẩn. Ví dụ: hình minh hoạ trên là một mạng nơron sâu vì mô hình này chứa hai lớp ẩn.

phân cụm phân cấp

#clustering

Danh mục thuật toán cụm tạo ra một cây cụm. Phân cụm phân cấp rất phù hợp với dữ liệu phân cấp, chẳng hạn như hệ thống phân loại thực vật. Có hai loại phân cấp các thuật toán phân cụm:

  • Trước tiên, tính năng phân cụm tổng hợp sẽ chỉ định mỗi ví dụ cho cụm riêng của mình, và liên tục hợp nhất các cụm gần nhất để tạo hệ phân cấp cây xanh.
  • Trước tiên, phân cụm phân cụm nhóm tất cả ví dụ vào một cụm rồi sau đó chia cụm thành một cây phân cấp.

Ngược lại với phương pháp phân cụm dựa trên tâm.

tổn thất khớp nối

Tập hợp các hàm mất dành cho tính năng phân loại được thiết kế để tìm ranh giới quyết định càng xa càng tốt trong mỗi ví dụ huấn luyện, do đó tối đa hoá biên giữa các ví dụ và ranh giới. KSVM sử dụng tổn thất bản lề (hoặc một chức năng có liên quan, chẳng hạn như bình phương tổn thất theo bản lề). Đối với phân loại nhị phân, hàm mất bản lề được xác định như sau:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

trong đó y là nhãn thực, -1 hoặc +1 và y' là dữ liệu đầu ra thô của mô hình thuật toán phân loại:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Do đó, đồ thị tổn thất bản lề so với (y * y') trông như sau:

Biểu đồ Descartes bao gồm hai đoạn thẳng đã kết hợp. Đầu tiên
          phân đoạn thẳng bắt đầu tại (-3, 4) và kết thúc tại (1, 0). Dòng thứ hai
          phân đoạn bắt đầu tại (1, 0) và tiếp tục vô hạn định với một hệ số góc
          trong số 0.

thiên kiến lịch sử

#fairness

Một loại thiên vị đã tồn tại trên thế giới và thành một tập dữ liệu. Những thiên kiến này có xu hướng phản ánh những định kiến văn hoá, bất bình đẳng nhân khẩu học và định kiến chống lại một số nhóm xã hội.

Ví dụ: hãy xem xét mô hình phân loại dự đoán liệu một người đăng ký vay có nợ vay hay không, tức là được đào tạo dựa trên dữ liệu lịch sử mặc định cho vay từ những năm 1980 do các ngân hàng địa phương cung cấp tại hai cộng đồng khác nhau. Nếu các ứng viên trước đây từ Cộng đồng A có số người đăng ký tham gia Cộng đồng A nhiều hơn gấp 6 lần có khả năng vỡ nợ là các khoản vay so với những người đăng ký tham gia Cộng đồng B, mô hình có thể học được một thiên kiến trước đây, khiến mô hình ít có khả năng phê duyệt các khoản vay trong Cộng đồng A, ngay cả khi các điều kiện trong quá khứ dẫn đến tại cộng đồng đó thì tỷ lệ mặc định cao hơn không còn phù hợp.

dữ liệu giữ lại

Ví dụ cố ý không sử dụng ("bị giữ bên ngoài") trong quá trình huấn luyện. tập dữ liệu xác thựctập dữ liệu kiểm thử là ví dụ về dữ liệu giữ lại. Dữ liệu giữ lại giúp đánh giá khả năng tổng quát hoá thành dữ liệu của mô hình thay vì mà nó được huấn luyện dựa trên đó. Thất bại trong trận đấu cầm chân đưa ra ước tính tổn thất trên một tập dữ liệu không nhìn thấy được so với tổn thất về tập huấn luyện.

người tổ chức

#TensorFlow
#GoogleCloud

Khi huấn luyện một mô hình học máy trên khối tăng tốc (GPU hoặc TPU), một phần của hệ thống kiểm soát cả hai điều sau:

  • Luồng tổng thể của mã.
  • Trích xuất và biến đổi quy trình đầu vào.

Máy chủ lưu trữ thường chạy trên CPU, không phải trên chip tăng tốc; thời gian device điều khiển tensor trên chip tăng tốc.

siêu tham số

#fundamentals

Các biến mà bạn hoặc dịch vụ điều chỉnh siêu tham số trong quá trình huấn luyện một mô hình liên tiếp. Ví dụ: tốc độ học tập là siêu tham số. Bạn có thể hãy đặt tốc độ học là 0,01 trước một buổi đào tạo. Nếu bạn Nếu xác định rằng 0,01 là quá cao, bạn có thể thiết lập điểm là 0,003 cho lần huấn luyện tiếp theo.

Ngược lại, tham số là các loại khác nhau trọng sốđộ lệch mà mô hình đó học được trong quá trình đào tạo.

siêu mặt phẳng

Ranh giới phân tách không gian thành hai không gian con. Ví dụ: một đường kẻ là một siêu mặt phẳng có hai chiều và mặt phẳng là siêu mặt phẳng không gian ba chiều. Thông thường trong công nghệ học máy, siêu mặt phẳng là ranh giới phân tách một không gian chiều cao. Sử dụng máy vectơ hỗ trợ kernel siêu mặt phẳng để phân tách lớp dương khỏi lớp âm, thường theo tỷ lệ không gian chiều cao.

I

i.i.d.

Từ viết tắt cho phân phối độc lập và giống hệt.

nhận dạng hình ảnh

#image

Quá trình phân loại (các) đối tượng, (các) mẫu hoặc khái niệm trong một hình ảnh. Tính năng nhận dạng hình ảnh còn được gọi là phân loại hình ảnh.

Để biết thêm thông tin, hãy xem Thực hành học máy: Phân loại hình ảnh.

tập dữ liệu không cân bằng

Từ đồng nghĩa với tập dữ liệu không cân bằng về lớp.

thiên kiến ngầm

#fairness

Tự động liên tưởng hoặc giả định dựa trên suy nghĩ của mỗi người mô hình và bộ nhớ. Thành kiến ngầm có thể ảnh hưởng đến những vấn đề sau:

  • Cách dữ liệu được thu thập và phân loại.
  • Cách các hệ thống học máy được thiết kế và phát triển.

Ví dụ: khi xây dựng một thuật toán phân loại để xác định ảnh cưới, kỹ sư có thể sử dụng trang phục trắng trong ảnh làm tính năng. Tuy nhiên, đầm trắng chỉ có thông lệ vào những thời đại nhất định và trong một số nền văn hoá nhất định.

Hãy xem thêm bài viết về thiên vị xác nhận.

thao túng

Dạng ngắn của việc phân bổ giá trị.

không tương thích các chỉ số về tính công bằng

#fairness

Quan điểm cho rằng một số khái niệm về sự công bằng không tương thích với nhau và không thể được đáp ứng cùng một lúc. Do đó, không có quảng cáo nào chỉ số chung để định lượng mức độ công bằng có thể áp dụng cho mọi bài tập học máy.

Mặc dù điều này có vẻ sẽ gây cản trở, nhưng các chỉ số về mức độ công bằng không tương thích không ngụ ý rằng các nỗ lực về sự công bằng là không có kết quả. Thay vào đó, công cụ này đề xuất rằng tính công bằng phải được định nghĩa theo ngữ cảnh cho một vấn đề máy học nhất định, với mục tiêu ngăn chặn các mối nguy hại cụ thể đối với các trường hợp sử dụng của công cụ đó.

Xem phần "Trên (không thể) về sự công bằng" để thảo luận chi tiết hơn về chủ đề này.

học tập theo ngữ cảnh

#language
#generativeAI

Từ đồng nghĩa với lời nhắc một vài lần.

được phân phối độc lập và đồng nhất (i.i.d)

#fundamentals

Dữ liệu được lấy từ giá trị phân phối không thay đổi và vị trí của mỗi giá trị được vẽ không phụ thuộc vào các giá trị đã được vẽ trước đó. Độ phân giải i.i.d là khí lý tưởng của máy học tập—một cấu trúc toán học hữu ích nhưng hầu như không bao giờ được tìm thấy chính xác trong thế giới thực. Ví dụ: phân phối khách truy cập vào một trang web có thể là i.i.d. trong một khoảng thời gian ngắn; tức là phân phối không trong khoảng thời gian ngắn đó và lượt ghé thăm của một người thường độc lập với lượt truy cập của người khác. Tuy nhiên, nếu bạn mở rộng khoảng thời gian đó, về số lượng khách truy cập trang web.

Hãy xem thêm về vấn đề tình trạng không ổn định.

sự công bằng cá nhân

#fairness

Chỉ số công bằng kiểm tra xem các cá nhân tương tự có được phân loại hay không tương tự. Ví dụ: Học viện Brobdingnagian có thể muốn đáp ứng công bằng cá nhân bằng cách đảm bảo rằng hai học sinh có điểm số giống nhau và điểm kiểm tra được chuẩn hoá đều có khả năng được nhập học như nhau.

Xin lưu ý rằng sự công bằng cá nhân hoàn toàn phụ thuộc vào cách bạn xác định "sự tương đồng" (trong trường hợp này là điểm số và điểm kiểm tra) và bạn có thể gặp rủi ro về đưa ra các vấn đề mới về sự công bằng nếu chỉ số tương tự của bạn không đáp ứng các tiêu chí quan trọng thông tin (chẳng hạn như mức độ nghiêm ngặt trong chương trình học của học viên).

Xem phần "Sự công bằng thông qua Mức độ nhận biết" để thảo luận chi tiết hơn về sự công bằng của từng cá nhân.

suy luận

#fundamentals

Trong công nghệ học máy, quá trình đưa ra dự đoán bằng cách áp dụng mô hình đã huấn luyện cho các ví dụ chưa được gắn nhãn.

Suy luận có ý nghĩa hơi khác trong số liệu thống kê. Xem Bài viết trên Wikipedia về suy luận thống kê để biết thông tin chi tiết.

đường dẫn suy luận

#df

Trong cây quyết định, trong quá trình suy luận, tuyến đường mà một ví dụ cụ thể lấy từ root sang điều kiện khác, kết thúc bằng một . Ví dụ: trong cây quyết định sau đây, mũi tên dày hơn hiển thị đường dẫn suy luận cho một ví dụ như sau các giá trị tính năng:

  • x = 7
  • y = 12
  • z = -3

Lộ trình suy luận trong hình minh hoạ sau đây đi qua ba điều kiện trước khi tiếp cận lá (Zeta).

Cây quyết định bao gồm 4 điều kiện và 5 lá.
          Điều kiện gốc là (x > 0). Vì câu trả lời là Có, nên
          đường suy luận đi từ gốc đến điều kiện tiếp theo (y > 0).
          Vì câu trả lời là Có, nên đường dẫn suy luận sẽ đi đến
          điều kiện tiếp theo (z > 0). Vì câu trả lời là Không nên đường dẫn suy luận
          di chuyển đến nút đầu cuối là lá (Zeta).

Ba mũi tên dày cho thấy đường dẫn suy luận.

mức tăng thông tin

#df

Trong rừng quyết định, sự khác biệt giữa entropy của một nút và trọng số (theo số lượng ví dụ) tổng entropy của các nút con. Entropy của một nút là entropy các ví dụ trong nút đó.

Ví dụ: hãy xem xét các giá trị entropy sau:

  • entropy của nút mẹ = 0,6
  • entropy của một nút con với 16 ví dụ có liên quan = 0,2
  • entropy của nút con khác với 24 ví dụ có liên quan = 0,1

Vì vậy, 40% ví dụ nằm trong một nút con và 60% nằm trong nút con khác. Vì thế:

  • tổng entropy có trọng số của các nút con = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Vì vậy, thông tin nhận được là:

  • độ tăng thông tin = entropy của nút mẹ - tổng entropy có trọng số của các nút con
  • độ nhận thông tin = 0,6 - 0,14 = 0,46

Hầu hết các thiết bị phân tách tìm cách tạo ra điều kiện giúp tăng tối đa lượng thông tin thu thập được.

thiên kiến cùng nhóm

#fairness

Thể hiện sự thiên vị với một nhóm người hoặc đặc điểm riêng. Nếu người kiểm thử hoặc người đánh giá bao gồm bạn bè của nhà phát triển công nghệ học máy, gia đình hoặc đồng nghiệp, thì thiên kiến trong nhóm có thể khiến thử nghiệm sản phẩm mất hiệu lực hoặc tập dữ liệu.

Thiên vị trong nhóm là một hình thức thiên vị phân bổ nhóm. Hãy xem thêm mục thiên vị về tính đồng nhất ngoài nhóm.

trình tạo đầu vào

Cơ chế mà dữ liệu được tải vào mạng nơron.

Trình tạo đầu vào có thể được coi là một thành phần chịu trách nhiệm xử lý dữ liệu thô thành các tensor được lặp lại để tạo lô cho huấn luyện, đánh giá và suy luận.

lớp đầu vào

#fundamentals

Lớp của mạng nơron chứa vectơ đối tượng. Tức là lớp đầu vào cung cấp ví dụ cho quy trình đào tạo hoặc suy luận. Ví dụ: lớp đầu vào trong như sau mạng nơron bao gồm hai tính năng:

Bốn lớp: một lớp đầu vào, hai lớp ẩn và một lớp đầu ra.

điều kiện đặt sẵn

#df

Trong cây quyết định, một điều kiện để kiểm tra sự hiện diện của một mục trong một tập hợp các mục. Ví dụ: sau đây là một điều kiện được đặt sẵn:

  house-style in [tudor, colonial, cape]

Trong quá trình suy luận, nếu giá trị của tính năng kiểu nhà là tudor, colonial hoặc cape, thì điều kiện này sẽ được đánh giá là Có. Nếu giá trị của đối tượng kiểu ngôi nhà là giá trị khác (ví dụ: ranch), thì điều kiện này có giá trị là Không.

Các điều kiện được đặt sẵn thường dẫn đến cây quyết định hiệu quả hơn so với để kiểm tra các tính năng được mã hoá một nóng.

bản sao

Từ đồng nghĩa với ví dụ.

điều chỉnh hướng dẫn

#generativeAI

Một hình thức tinh chỉnh giúp cải thiện Khả năng tuân thủ của mô hình AI tạo sinh . Điều chỉnh hướng dẫn bao gồm việc huấn luyện một mô hình trên một chuỗi các câu lệnh hướng dẫn, thường đề cập đến nhiều công việc khác nhau. Sau đó, mô hình điều chỉnh hướng dẫn thu được có xu hướng tạo ra câu trả lời hữu ích cho các câu lệnh cơ bản cho nhiều công việc.

So sánh và đối chiếu với:

mức độ diễn giải

#fundamentals

Khả năng giải thích hoặc trình bày lập luận của mô hình học máy trong những cụm từ dễ hiểu đối với con người.

Ví dụ: hầu hết các mô hình hồi quy tuyến tính đều có mức độ cao dễ diễn giải. (Bạn chỉ cần xem trọng số đã huấn luyện cho mỗi feature.) Rừng quyết định cũng dễ diễn giải cao. Tuy nhiên, có một số mô hình cần có hình ảnh phức tạp để dễ diễn giải.

Bạn có thể sử dụng Công cụ diễn giải bài học (LIT) để diễn giải các mô hình học máy.

mức độ đồng thuận

Một chỉ số đo lường về tần suất mà nhân viên đánh giá đồng ý khi thực hiện một công việc. Nếu người đánh giá không đồng ý, hướng dẫn về nhiệm vụ có thể cần được cải thiện. Đôi khi, loại ký tự này còn được gọi là Thoả thuận giữa người chú thích hoặc độ tin cậy liên quan đến đánh giá. Xem thêm Cohen's kappa, là một trong những cách đo lường sự tán thành liên tỷ giá phổ biến nhất.

giao điểm trên đường hợp nhất (IoU)

#image

Giao của hai tập hợp được chia cho hợp của chúng. Trong công nghệ học máy nhiệm vụ phát hiện hình ảnh, IoU được dùng để đo độ chính xác của hộp giới hạn được dự đoán liên quan đến hộp giới hạn ground-truth. Trong trường hợp này, IoU cho hai hộp là tỷ lệ giữa diện tích chồng chéo và tổng diện tích, và giá trị của nó nằm trong khoảng từ 0 (không có sự chồng chéo của hộp giới hạn được dự đoán và giá trị thực hộp giới hạn) thành 1 (hộp giới hạn dự đoán và hộp giới hạn chân thực mặt đất có cùng toạ độ).

Ví dụ: trong hình ảnh dưới đây:

  • Hộp giới hạn dự đoán (tọa độ phân định vị trí mô hình) dự đoán chiếc bàn ban đêm trong bức tranh nằm) có viền ngoài màu tím.
  • Hộp giới hạn thực tế trên mặt đất (tọa độ phân định nơi ban đêm trong bức tranh thực sự nằm) được vẽ đường viền màu xanh lục.

Bức tranh Van Gogh vẽ trong phòng ngủ của Vincent ở Arles, với hai bức tranh khác nhau
          những chiếc hộp đóng kín xung quanh chiếc bàn ban đêm bên cạnh giường. Sự thật
          hộp giới hạn (màu xanh lục) bao quanh hoàn hảo bảng đêm. Chiến lược phát hành đĩa đơn
          hộp giới hạn dự đoán (màu tím) được bù trừ 50% xuống dưới và về bên phải
          hộp giới hạn chân thực trên mặt đất; nó bao quanh một quý ở dưới cùng bên phải
          của bảng đêm, nhưng lại bỏ lỡ phần còn lại của bảng.

Ở đây, giao điểm của các hộp giới hạn để dự đoán và dữ liệu thực tế (bên dưới bên trái) là 1 và hợp các ô giới hạn dùng để dự đoán và giá trị thực (dưới cùng bên phải) là 7, vì vậy IoU là \(\frac{1}{7}\).

Cùng hình ảnh như trên, nhưng với mỗi hộp giới hạn được chia thành bốn
          góc phần tư. Có tổng cộng 7 góc phần tư, vì góc dưới cùng bên phải
          góc phần tư của hộp giới hạn thực tế mặt đất và góc trên cùng bên trái
          góc phần tư của hộp giới hạn được dự đoán chồng lên nhau. Chiến dịch này
          phần chồng chéo (được đánh dấu bằng màu xanh lục) biểu thị
          và có diện tích bằng 1. Cùng hình ảnh như trên, nhưng với mỗi hộp giới hạn được chia thành bốn
          góc phần tư. Có tổng cộng 7 góc phần tư, vì góc dưới cùng bên phải
          góc phần tư của hộp giới hạn thực tế mặt đất và góc trên cùng bên trái
          góc phần tư của hộp giới hạn được dự đoán chồng lên nhau.
          Toàn bộ nội thất được bao quanh bởi 2 hộp chắn
          (được đánh dấu bằng màu xanh lá cây) tượng trưng cho sự kết hợp, và
          diện tích 7.

IoU

Từ viết tắt của giao lộ đối với đường hợp.

ma trận mục

#recsystems

Trong hệ thống đề xuất, ma trận vectơ nhúng do phân tích ma trận giữ tín hiệu tiềm ẩn về từng mục. Mỗi hàng của ma trận mặt hàng chứa giá trị của một trạng thái tiềm ẩn cho tất cả các mục. Ví dụ: hãy cân nhắc sử dụng hệ thống đề xuất phim. Mỗi cột trong ma trận mục biểu thị một phim. Tín hiệu tiềm ẩn có thể đại diện cho thể loại hoặc có thể khó hiểu hơn tín hiệu liên quan đến hoạt động tương tác phức tạp giữa các thể loại, ngôi sao tuổi của phim hoặc các yếu tố khác.

Ma trận mặt hàng có cùng số lượng cột với mục tiêu ma trận được phân tích. Ví dụ: giả sử một bộ phim hệ thống đề xuất đánh giá 10.000 tựa phim, ma trận mục sẽ có 10.000 cột.

mục

#recsystems

Trong hệ thống đề xuất, các pháp nhân do hệ thống đề xuất. Ví dụ: video là các mặt hàng mà cửa hàng video khuyên dùng, trong khi sách là mặt hàng mà hiệu sách khuyên dùng.

lặp lại

#fundamentals

Cập nhật duy nhất các tham số của mô hình—mô hình trọng sốđộ lệch trong quá trình đào tạo. Kích thước lô xác định số lượng ví dụ mà mô hình xử lý trong một lần lặp. Ví dụ: nếu kích thước lô là 20 thì mô hình sẽ xử lý 20 ví dụ trước điều chỉnh các thông số.

Khi huấn luyện mạng nơron, một lần lặp lại bao gồm hai lần truyền sau:

  1. Một lượt chuyển tiếp để đánh giá tổn thất trong một lô.
  2. Truyền lùi (backpropagation) để điều chỉnh dựa trên mức tổn thất và tốc độ học.

J

JAX

Thư viện điện toán mảng, tập hợp XLA (Đại số tuyến tính nhanh) và tính năng phân biệt tự động để tính toán số hiệu suất cao. JAX cung cấp một phần mềm đơn giản và mạnh mẽ API để viết mã số tăng tốc bằng các phép biến đổi thành phần kết hợp. JAX cung cấp các tính năng như:

  • grad (tự động phân biệt)
  • jit (biên dịch đúng thời điểm)
  • vmap (tự động vectơ hoá hoặc phân lô)
  • pmap (phát song song)

JAX là ngôn ngữ thể hiện và soạn các phép biến đổi số mã tương tự nhưng có phạm vi lớn hơn nhiều so với NumPy của Python thư viện của bạn. (Trên thực tế, thư viện .numpy trong JAX có chức năng tương đương, nhưng là phiên bản được viết lại hoàn toàn của thư viện Python NumPy.)

JAX đặc biệt phù hợp để tăng tốc nhiều tác vụ học máy bằng cách biến đổi các mô hình và dữ liệu thành dạng phù hợp với thuật toán song song trên GPU và TPU Chip tăng tốc.

Flax, Optax, Pax và nhiều công cụ khác thư viện được xây dựng trên cơ sở hạ tầng JAX.

nghìn

Keras

Một API máy học Python phổ biến. Keras chạy trên một số khung học sâu, trong đó có TensorFlow, được tạo ra có sẵn dưới dạng tf.keras.

Máy vectơ hỗ trợ hạt nhân (KSVM)

Một thuật toán phân loại tìm cách tối đa hoá khoảng chênh lệch giữa tích cựclớp phủ định bằng cách liên kết vectơ dữ liệu đầu vào lên một không gian chiều cao hơn. Ví dụ: hãy xem xét một cách phân loại bài tập trong đó tập dữ liệu đầu vào có hàng trăm tính năng. Để tối đa hoá khoảng cách giữa các lớp dương và lớp phủ định, KSVM có thể ánh xạ nội bộ những tính năng đó vào một triệu chiều. KSVM sử dụng một hàm mất được gọi là mất bản lề.

điểm chính

#image

Toạ độ của các đối tượng cụ thể trong một hình ảnh. Ví dụ: để có một mô hình nhận dạng hình ảnh giúp phân biệt các loài hoa, điểm chính có thể là trung tâm của mỗi cánh hoa, thân, hoa, v.v.

xác thực chéo k-fold

Thuật toán dự đoán khả năng của mô hình tổng quát hoá thành dữ liệu mới. k trong k-fold đề cập đến số lượng nhóm bằng nhau mà bạn chia ví dụ của một tập dữ liệu; tức là bạn đào tạo và kiểm thử mô hình của bạn k lần. Đối với mỗi vòng đào tạo và kiểm thử, nhóm khác là tập thử nghiệm và tất cả các nhóm còn lại trở thành nhóm huấn luyện thiết lập. Sau k vòng huấn luyện và kiểm thử, bạn tính được giá trị trung bình và độ lệch chuẩn của(các) chỉ số kiểm tra đã chọn.

Ví dụ: giả sử tập dữ liệu của bạn bao gồm 120 ví dụ. Giả sử thêm, bạn quyết định đặt k thành 4. Do đó, sau khi trộn các ví dụ, bạn chia tập dữ liệu thành 4 nhóm bằng nhau, mỗi nhóm gồm 30 ví dụ và tiến hành 4 nhóm. vòng đào tạo và kiểm thử:

Một tập dữ liệu được chia thành 4 nhóm ví dụ bằng nhau. Ở Vòng 1,
          ba nhóm đầu tiên dùng để huấn luyện và nhóm cuối cùng dùng để huấn luyện
          được dùng để thử nghiệm. Ở Vòng 2, hai bảng đầu tiên và các bảng cuối cùng
          dùng để huấn luyện, còn nhóm thứ ba được dùng cho
          kiểm thử. Ở Vòng 3, nhóm đầu tiên và hai nhóm cuối cùng là
          dùng để huấn luyện, còn nhóm thứ hai dùng để kiểm thử.
          Ở Vòng 4, nhóm đầu tiên được dùng để kiểm thử, trong khi nhóm cuối cùng
          dùng 3 nhóm để huấn luyện.

Ví dụ: Lỗi bình phương trung bình (MSE) có thể là chỉ số có ý nghĩa nhất đối với mô hình hồi quy tuyến tính. Do đó, bạn sẽ tìm giá trị trung bình và độ lệch chuẩn của MSE trong cả bốn vòng.

k trung bình

#clustering

Thuật toán nhóm phổ biến giúp nhóm các ví dụ trong học tập không có giám sát. Về cơ bản, thuật toán k-means thực hiện những việc sau:

  • Xác định bằng cách lặp lại k điểm tâm tốt nhất (đã biết làm centroids).
  • Chỉ định mỗi ví dụ cho trọng tâm gần nhất. Các ví dụ gần nhất cùng một trọng tâm lại thuộc cùng một nhóm.

Thuật toán k-means chọn các vị trí trọng tâm để giảm thiểu dữ liệu tích luỹ bình phương của khoảng cách từ mỗi ví dụ đến trọng tâm gần nhất.

Ví dụ: hãy xem biểu đồ sau đây lấy chiều cao của chó so với chiều rộng của chó:

Một biểu đồ Descartes với hàng chục điểm dữ liệu.

Nếu k=3, thuật toán k-means sẽ xác định được 3 tâm. Từng ví dụ được gán cho trọng tâm gần nhất, thu được ba nhóm:

Cốt truyện Descartes tương tự như trong hình minh hoạ trước, ngoại trừ
          khi thêm 3 trọng tâm.
          Các điểm dữ liệu trước đó được nhóm thành ba nhóm riêng biệt,
          với mỗi nhóm đại diện cho các điểm dữ liệu gần nhất với một
          tâm.

Hãy tưởng tượng rằng một nhà sản xuất muốn xác định kích thước lý tưởng cho các sản phẩm áo len cỡ vừa và lớn cho chó. Ba trọng tâm xác định giá trị trung bình chiều cao và chiều rộng trung bình của mỗi chú chó trong cụm đó. Vì vậy, nhà sản xuất bạn nên đặt kích thước áo len dựa trên ba trọng tâm đó. Lưu ý rằng tâm của một cụm thường không phải là một ví dụ trong cụm đó.

Các hình minh hoạ trước đó cho thấy k-mean cho những ví dụ chỉ có hai đối tượng (chiều cao và chiều rộng). Lưu ý rằng k-có nghĩa là có thể nhóm các ví dụ trên nhiều tính năng.

k trung vị

#clustering

Thuật toán phân cụm có liên quan chặt chẽ đến k-means. Chiến lược phát hành đĩa đơn như sau:

  • Theo k, trung tâm được xác định bằng cách tối thiểu tổng của bình phương của khoảng cách giữa một ứng cử viên theo trọng tâm và mỗi các ví dụ.
  • Theo k trung vị, trọng tâm được xác định bằng cách tối thiểu tổng của khoảng cách giữa một ứng cử viên theo trọng tâm và mỗi ví dụ tương ứng.

Xin lưu ý rằng các định nghĩa về khoảng cách cũng khác nhau:

  • k-có nghĩa là dựa vào Khoảng cách Euclide từ trọng tâm cho một ví dụ. (Trong hai chiều, phương thức Euclide khoảng cách nghĩa là sử dụng định lý Pythagore để tính cạnh huyền.) Ví dụ: k-có nghĩa là khoảng cách giữa (2,2) và (5,-2) sẽ là:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median dựa vào khoảng cách đến Manhattan từ trọng tâm vào một ví dụ. Khoảng cách này là tổng của delta tuyệt đối trong mỗi thứ nguyên. Ví dụ: k-median khoảng cách giữa (2,2) và (5,-2) sẽ là:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Điều chỉnh L0

#fundamentals

Một loại thông tin chính quy phạt tổng số trọng số khác 0 trong một mô hình. Ví dụ: một mô hình có 11 trọng số khác 0 sẽ bị phạt nhiều hơn một mô hình tương tự có 10 trọng số khác 0.

Quy trình điều chỉnh L0 đôi khi được gọi là quy trình chuẩn hoá L0-norm.

Mất L1

#fundamentals

hàm giảm tính giá trị tuyệt đối sự khác biệt giữa giá trị nhãn thực tế và các giá trị mà một mô hình dự đoán. Ví dụ: đây là tính toán tổn thất L1 đối với một gói là năm ví dụ:

Giá trị thực tế của ví dụ Giá trị dự đoán của mô hình Giá trị tuyệt đối của delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = tổn thất L1

Tổn thất L1 ít nhạy cảm hơn với các điểm ngoại lai hơn L2 tổn thất.

Lỗi tuyệt đối trung bình là giá trị trung bình Mỗi ví dụ về mức giảm 1.

Điều chỉnh L1

#fundamentals

Một loại chính quy phạt trọng số tương ứng với tổng giá trị tuyệt đối của các trọng số. Việc điều chỉnh L1 giúp tăng trọng số của các thuộc tính không liên quan hoặc các tính năng hầu như không liên quan đến chính xác là 0. Một tính năng có trọng số 0 sẽ bị xoá khỏi mô hình một cách hiệu quả.

Trái ngược với quy tắc điều chỉnh L2.

Giảm L2

#fundamentals

hàm mất tính bình phương sự khác biệt giữa giá trị nhãn thực tế và các giá trị mà một mô hình dự đoán. Ví dụ: đây là tính toán tổn thất L2 đối với một gói là năm ví dụ:

Giá trị thực tế của ví dụ Giá trị dự đoán của mô hình Quảng trường delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 tổn thất

Do bình phương, tổn thất L2 làm tăng ảnh hưởng của điểm ngoại lai. Tức là tổn thất L2 phản ứng mạnh mẽ hơn với các dự đoán không chính xác so với Mất L1. Ví dụ: mức giảm L1 cho lô trước đó sẽ là 8 thay vì 16. Lưu ý rằng một ngoại lệ chiếm 9 trên 16.

Mô hình hồi quy thường sử dụng tổn thất L2 làm hàm mất.

Lỗi bình phương trung bình là giá trị trung bình Ví dụ về mức giảm 2. Mất bình phương là một tên khác của tổn thất L2.

Điều chỉnh L2

#fundamentals

Một loại chính quy phạt trọng số tương ứng với tổng bình phương của trọng số. Việc điều chỉnh L2 giúp tăng trọng số giá trị ngoại lai (những có giá trị âm cao hoặc âm thấp) gần 0 nhưng không hoàn toàn đến 0. Các tính năng có giá trị gần với 0 sẽ vẫn còn trong mô hình nhưng không ảnh hưởng nhiều đến dự đoán của mô hình.

Quy trình điều chỉnh L2 luôn cải thiện quá trình tổng quát hoá về mô hình tuyến tính.

Trái ngược với quy tắc điều chỉnh L1.

nhãn

#fundamentals

Trong công nghệ học máy có giám sát, "trả lời" hoặc "kết quả" trong một ví dụ.

Mỗi ví dụ được gắn nhãn bao gồm một hoặc nhiều tính năng và nhãn. Ví dụ: trong thư rác tập dữ liệu phát hiện, nhãn có thể là "thư rác" hoặc "không phải là thư rác". Trong một tập dữ liệu lượng mưa, nhãn này có thể là số lượng mưa đã giảm trong một khoảng thời gian nhất định.

ví dụ có gắn nhãn

#fundamentals

Ví dụ chứa một hoặc nhiều tính nănglabel. Ví dụ: bảng sau hiển thị ba các ví dụ có gắn nhãn từ mô hình định giá nhà, mỗi mô hình có ba tính năng và một nhãn:

Số lượng phòng ngủ Số lượng phòng tắm Tuổi thọ của nhà Giá nhà (nhãn)
3 2 15 $345.000
2 1 72 $179.000
4 2 34 $392.000

Trong công nghệ học máy có giám sát, sẽ huấn luyện dựa trên các ví dụ được gắn nhãn và đưa ra dự đoán về các ví dụ chưa được gắn nhãn.

Tương phản ví dụ được gắn nhãn với các ví dụ chưa gắn nhãn.

rò rỉ nhãn

Một lỗi thiết kế mô hình, trong đó tính năng là proxy cho label. Ví dụ: hãy cân nhắc mô hình phân loại nhị phân dự đoán việc khách hàng tiềm năng có mua một sản phẩm cụ thể hay không. Giả sử một trong các tính năng của mô hình là một Boolean có tên SpokeToCustomerAgent. Giả sử thêm rằng một nhân viên hỗ trợ khách hàng chỉ được chỉ định sau khi khách hàng tiềm năng thực sự mua của Google. Trong quá trình huấn luyện, mô hình sẽ nhanh chóng tìm hiểu mối liên kết giữa SpokeToCustomerAgent và nhãn.

hàm lambda

#fundamentals

Từ đồng nghĩa với tỷ lệ chuẩn hoá.

Lambda là một thuật ngữ quá tải. Ở đây, chúng ta đang tập trung vào cụm từ định nghĩa trong mục chính thức.

LaMDA (Mô hình ngôn ngữ cho ứng dụng hội thoại)

#language

Dựa trên Transformer mô hình ngôn ngữ lớn do Google phát triển đã được đào tạo về một tập dữ liệu hội thoại lớn có thể tạo ra các câu trả lời trò chuyện chân thực.

LaMDA: Cuộc trò chuyện mang tính đột phá của chúng ta công nghệ sẽ cung cấp cái nhìn tổng quan.

địa danh

#image

Từ đồng nghĩa với keypoints.

mô hình ngôn ngữ

#language

Mô hình ước tính xác suất của một mã thông báo hoặc chuỗi mã thông báo xảy ra theo một chuỗi mã thông báo dài hơn.

mô hình ngôn ngữ lớn

#language

Ở mức tối thiểu, một mô hình ngôn ngữ có số lượng về tham số. Một cách thân mật hơn, bất kỳ Mô hình ngôn ngữ dựa trên Transformer, chẳng hạn như Gemini hoặc GPT.

không gian ẩn

#language

Từ đồng nghĩa với không gian nhúng.

lớp

#fundamentals

Một tập hợp nơ-ron trong một mạng nơron. Ba loại lớp phổ biến như sau:

Ví dụ: hình minh hoạ sau đây cho thấy một mạng nơron với một lớp đầu vào, hai lớp ẩn và một lớp đầu ra:

Mạng nơron với một lớp đầu vào, hai lớp ẩn và một lớp
          tầng đầu ra. Lớp đầu vào bao gồm hai đối tượng. Đầu tiên
          lớp ẩn gồm ba nơron và lớp ẩn thứ hai
          gồm hai nơron. Lớp đầu ra bao gồm một nút duy nhất.

Trong TensorFlow, lớp cũng là các hàm Python nhận Tensor và các lựa chọn cấu hình làm phương thức nhập và tạo ra các tensor khác làm đầu ra.

API Lớp (tf.layers)

#TensorFlow

API TensorFlow để xây dựng mạng nơron sâu dưới dạng cấu trúc của các lớp. API Lớp cho phép bạn tạo các các loại lớp, chẳng hạn như:

API Lớp tuân theo các quy ước về API lớp Keras. Đó là, ngoài một tiền tố khác, tất cả các hàm trong API Lớp có cùng tên và chữ ký như các đối tác của họ ở Keras API Lớp bản quyền.

#df

Bất kỳ điểm cuối nào trong cây quyết định. Ngừng thích condition, một lá không thực hiện thử nghiệm. Đúng hơn, một chiếc lá là một dự đoán khả thi. Một chiếc lá cũng là thiết bị đầu cuối nút của đường dẫn suy luận.

Ví dụ: cây quyết định sau đây chứa ba lá:

Cây quyết định có hai điều kiện dẫn đến ba lá.

Công cụ diễn giải học tập (LIT)

Một công cụ trực quan hoá dữ liệu và hiểu mô hình trực quan, có tính tương tác.

Bạn có thể sử dụng mã nguồn mở LIT để diễn giải mô hình hoặc trực quan hoá văn bản, hình ảnh và dữ liệu dạng bảng.

tốc độ học

#fundamentals

Số dấu phẩy động cho biết hiệu ứng giảm độ dốc của thuật toán xác định mức độ điều chỉnh trọng số và độ chệch của mỗi vòng lặp. Ví dụ: tốc độ học là 0, 3 sẽ điều chỉnh trọng số và độ lệch mạnh hơn gấp 3 lần so với tốc độ học 0,1.

Tốc độ học là một siêu tham số quan trọng. Nếu bạn đặt tỷ lệ học tập quá thấp, thì việc đào tạo sẽ mất quá nhiều thời gian. Nếu bạn đặt tốc độ học quá cao, việc giảm độ dốc thường gặp khó khăn đạt được mức độ hội tụ.

hồi quy bình phương tối thiểu

Mô hình hồi quy tuyến tính được huấn luyện bằng cách giảm thiểu L2 Tổn thất.

tuyến tính

#fundamentals

Mối quan hệ giữa hai hoặc nhiều biến có thể chỉ được biểu thị bằng cách cộng và nhân.

Biểu đồ của mối quan hệ tuyến tính là một đường.

Tương phản với nonlinear.

mô hình tuyến tính

#fundamentals

Một mô hình chỉ định một trọng số cho mỗi tính năng để đưa ra dự đoán. (Mô hình tuyến tính cũng kết hợp độ lệch.) Ngược lại, mối quan hệ giữa các tính năng với thông tin dự đoán trong mô hình sâu thường là nonlinear.

Mô hình tuyến tính thường dễ huấn luyện hơn và có thể diễn giải so với mô hình sâu. Tuy nhiên, các mô hình sâu có thể học những mối quan hệ phức tạp giữa các tính năng.

Hồi quy tuyến tínhhồi quy logistic là hai loại mô hình tuyến tính.

hồi quy tuyến tính

#fundamentals

Một loại mô hình học máy đáp ứng cả hai điều kiện sau:

  • Mô hình này là mô hình tuyến tính.
  • Thông tin dự đoán là một giá trị dấu phẩy động. (Đây là hồi quy là một phần của hồi quy tuyến tính.)

Đối chiếu hồi quy tuyến tính với hồi quy logistic. Ngoài ra, hãy đối chiếu sự hồi quy với phân loại.

LIT

Từ viết tắt của Công cụ diễn giải học tập (LIT), mà trước đây được gọi là Công cụ diễn giải ngôn ngữ.

LLM

#language
#generativeAI

Từ viết tắt của mô hình ngôn ngữ lớn.

Đánh giá LLM (ví dụ: cổ phiếu giảm giá)

#language
#generativeAI

Một bộ chỉ số và điểm chuẩn để đánh giá hiệu suất của mô hình ngôn ngữ lớn (LLM). Nhìn chung, Hoạt động đánh giá của LLM:

  • Giúp các nhà nghiên cứu xác định những khía cạnh mà các LLM cần cải thiện.
  • Rất hữu ích trong việc so sánh các LLM khác nhau và xác định những LLM phù hợp nhất cho một công việc cụ thể.
  • Giúp đảm bảo rằng các LLM là an toàn và có đạo đức khi sử dụng.

hồi quy logistic

#fundamentals

Một loại mô hình hồi quy dự đoán một xác suất. Mô hình hồi quy logit có các đặc điểm sau đây:

  • Nhãn này phân loại. Thuật ngữ logistic hồi quy thường đề cập đến hồi quy logistic nhị phân, tức là vào mô hình tính xác suất cho nhãn có hai giá trị có thể có. Một biến thể ít phổ biến hơn, hồi quy logistic đa thức, tính xác suất cho nhãn có nhiều hơn hai giá trị có thể có.
  • Hàm mất trong quá trình huấn luyện là Log Loss (Mất nhật ký). (Bạn có thể đặt nhiều đơn vị tổn thất ghi nhật ký song song cho các nhãn có nhiều hơn hai giá trị có thể có).
  • Mô hình này có kiến trúc tuyến tính chứ không phải mạng nơron sâu. Tuy nhiên, phần còn lại của định nghĩa này cũng áp dụng cho các mô hình sâu dự đoán xác suất cho nhãn phân loại.

Ví dụ: hãy xem xét mô hình hồi quy logistic để tính toán xác suất email đầu vào là thư rác hoặc không phải thư rác. Trong quá trình suy luận, giả sử mô hình dự đoán 0,72. Do đó, đang ước tính:

  • 72% khả năng email là thư rác.
  • 28% khả năng email không phải là thư rác.

Mô hình hồi quy logistic sử dụng cấu trúc hai bước sau đây:

  1. Mô hình này tạo ra dự đoán thô (y') bằng cách áp dụng hàm tuyến tính tính năng nhập.
  2. Mô hình này sử dụng dự đoán thô đó làm dữ liệu đầu vào cho một hàm sigmoid, hàm này chuyển đổi dữ liệu thô cho giá trị dự đoán nằm trong khoảng từ 0 đến 1 và không bao gồm 0 và 1.

Giống như mọi mô hình hồi quy khác, mô hình hồi quy logistic dự đoán một con số. Tuy nhiên, số này thường trở thành một phần của phân loại nhị phân mô hình như sau:

  • Nếu số dự đoán lớn hơn ngưỡng phân loại, mô hình phân loại nhị phân dự đoán lớp dương.
  • Nếu số dự đoán ít hơn ngưỡng phân loại, mô hình phân loại nhị phân dự đoán lớp âm.

logit

Vectơ của dữ liệu dự đoán thô (không được chuẩn hoá) rằng phân loại mô hình tạo ra, thường được chuyển vào hàm chuẩn hoá. Trường hợp mô hình đang giải quyết việc phân loại nhiều lớp vấn đề, logit thường trở thành dữ liệu đầu vào cho dữ liệu Hàm softmax. Sau đó, hàm softmax tạo ra một vectơ (được chuẩn hoá) xác suất với một giá trị cho mỗi lớp có thể có.

Mất nhật ký

#fundamentals

Hàm mất dùng trong tệp nhị phân hồi quy logistic.

tỷ lệ chênh lệch nhật ký

#fundamentals

Lôgarit của xác suất biến cố nào đó.

Bộ nhớ ngắn hạn dài (LSTM)

#seq

Một loại ô trong một mạng nơron tái phát dùng để xử lý trình tự dữ liệu trong các ứng dụng như nhận dạng chữ viết tay, máy bản dịch và chú thích hình ảnh. LSTM giải quyết vấn đề độ dốc biến mất xảy ra khi huấn luyện các RNN do các trình tự dữ liệu kéo dài bằng cách duy trì lịch sử trong trạng thái bộ nhớ trong dựa trên dữ liệu đầu vào và ngữ cảnh mới từ các ô trước trong RNN.

LoRA

#language
#generativeAI

Từ viết tắt của Khả năng thích ứng ở cấp thấp.

thua

#fundamentals

Trong quá trình đào tạo về mô hình được giám sát, một thước đo về khoảng cách dự đoán của mô hình được lấy từ nhãn của mô hình đó.

Hàm mất tính giá trị tổn thất.

đơn vị tổng hợp tổn thất

Loại thuật toán học máy cải thiện hiệu suất của mô hình bằng cách kết hợp dự đoán về nhiều mô hình và sử dụng những dự đoán đó để đưa ra một dự đoán duy nhất. Do đó, công cụ tổng hợp dữ liệu về tổn thất có thể giảm phương sai của các dự đoán và cải thiện độ chính xác của các dự đoán.

đường cong mức ngừng sử dụng

#fundamentals

Biểu đồ giảm là hàm của số lượng đào tạo vòng lặp. Biểu đồ sau đây thể hiện mức tổn thất thông thường đường cong:

Một đồ thị Descartes về số lượng mất mát so với số lần lặp lại quá trình huấn luyện, cho thấy
          mức giảm nhanh trong những lần lặp lại đầu tiên, sau đó giảm dần
          rồi giảm dần đều trong vòng lặp cuối cùng.

Đường cong tổn thất có thể giúp bạn xác định thời điểm mô hình hội nghị hoặc trang bị quá mức.

Đường cong tổn thất có thể biểu thị tất cả các loại tổn thất sau đây:

Xem thêm đường cong tổng quát.

hàm mất

#fundamentals

Trong quá trình đào tạo hoặc kiểm thử, để tính toán tổn thất trong một ví dụ. Hàm tổn thất trả về giá trị tổn thất thấp hơn cho những mô hình đưa ra dự đoán tốt hơn là các mô hình đưa ra các dự đoán không hợp lệ.

Mục tiêu của việc huấn luyện thường là giảm thiểu tổn thất mà một hàm mất đi lợi nhuận.

Có nhiều loại hàm mất dữ liệu. Chọn mức tổn thất phù hợp cho loại mô hình mà bạn đang xây dựng. Ví dụ:

bề mặt tổn hao

Biểu đồ về cân nặng so với mức giảm. Mục tiêu của Xuống dốc chuyển màu để tìm trọng lượng của bề mặt giảm cân ở mức tối thiểu cục bộ.

Khả năng thích ứng ở cấp thấp (LoRA)

#language
#generativeAI

Thuật toán để thực hiện điều chỉnh hiệu quả tham sốtinh chỉnh một tập hợp con của tham số của mô hình ngôn ngữ lớn. LoRA mang lại những lợi ích sau:

  • Tinh chỉnh nhanh hơn so với các kỹ thuật yêu cầu tinh chỉnh tất cả của một mô hình tham số.
  • Giảm chi phí tính toán của hoạt động suy luận trong mô hình được tinh chỉnh.

Một mô hình được điều chỉnh bằng LoRA sẽ duy trì hoặc cải thiện chất lượng của các thông tin dự đoán.

LoRA hỗ trợ nhiều phiên bản chuyên biệt của một mô hình.

LSTM

#seq

Từ viết tắt của Bộ nhớ ngắn hạn dài.

M

học máy

#fundamentals

Một chương trình hoặc hệ thống đào tạo model từ dữ liệu đầu vào. Mô hình được huấn luyện có thể đưa ra dự đoán hữu ích từ dữ liệu mới (chưa từng thấy) rút ra từ phân phối giống như phân phối dùng để huấn luyện mô hình.

Công nghệ học máy cũng đề cập đến lĩnh vực nghiên cứu có liên quan bằng các chương trình hoặc hệ thống này.

tầng lớp đa số

#fundamentals

Nhãn phổ biến hơn trong tập dữ liệu không cân bằng về lớp. Ví dụ: Khi cho tập dữ liệu có chứa 99% nhãn âm và 1% nhãn dương, nhãn tiêu cực là nhãn tiêu biểu chiếm đa số.

Tương phản với lớp thiểu số.

Quy trình quyết định Markov (MDP)

#rl

Biểu đồ thể hiện mô hình ra quyết định mà trong đó các quyết định (hoặc các thao tác) được thực hiện để điều hướng một trình tự trạng thái với giả định rằng Thuộc tính Markov sẽ lưu giữ. Ngang bằng tăng cường học tập, những chuyển đổi này giữa các trạng thái sẽ trả về phần thưởng bằng số.

Thuộc tính Markov

#rl

Thuộc tính của một số môi trường nhất định, trong đó trạng thái được xác định hoàn toàn bởi thông tin ngầm ẩn trong trạng thái hiện tại và hành động của nhân viên hỗ trợ.

mô hình ngôn ngữ bị che

#language

Mô hình ngôn ngữ dự đoán xác suất mã thông báo ứng viên để điền vào chỗ trống theo trình tự. Ví dụ: một mô hình ngôn ngữ đeo mặt nạ có thể tính xác suất cho(các) từ ứng viên để thay thế dấu gạch dưới trong câu sau:

____ đội mũ đã trở lại.

Tài liệu văn học thường sử dụng chuỗi "MASK" thay vì gạch chân. Ví dụ:

"MASK" đội mũ đã quay trở lại.

Hầu hết các mô hình ngôn ngữ được che giấu hiện đại đều có hai chiều.

matplotlib

Một thư viện vẽ đồ thị 2D Python nguồn mở. matplotlib giúp bạn trực quan hoá các khía cạnh khác nhau của công nghệ học máy.

phân tích ma trận

#recsystems

Trong toán học, một cơ chế để tìm ma trận có tích vô hướng xấp xỉ một ma trận mục tiêu.

Trong hệ thống đề xuất, ma trận mục tiêu thường nắm giữ thông tin xếp hạng cho mặt hàng. Ví dụ: mục tiêu ma trận cho hệ thống đề xuất phim có thể trông giống như theo sau, trong đó số nguyên dương là xếp hạng của người dùng và 0 có nghĩa là người dùng không xếp hạng phim:

  Casablanca Câu chuyện về Floodlight Black Panther (Chiến binh Báo Đen) Nữ thần chiến binh Sách hư cấu về thịt
Người dùng 1 5 3 0,0 2 0,0
Người dùng 2 4 0,0 0,0 1.0 5
Người dùng 3 3 1.0 4 5 0,0

Hệ thống đề xuất phim dùng để dự đoán điểm xếp hạng của người dùng cho phim chưa được xếp hạng. Ví dụ: Người dùng 1 có thích Báo đen không?

Một phương pháp tiếp cận cho các hệ thống đề xuất là dùng ma trận phân tích nhân tử để tạo hai ma trận sau:

  • Ma trận người dùng, có hình dạng bằng số người dùng X số lượng phương diện nhúng.
  • Một ma trận mục, có hình dạng bằng số lượt nhúng X số lượng mặt hàng.

Ví dụ: chúng tôi sử dụng phân tích ma trận cho 3 người dùng và 5 mục có thể mang lại ma trận người dùng và ma trận mục sau:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Tích vô hướng của ma trận người dùng và ma trận mặt hàng đưa ra một đề xuất ma trận không chỉ chứa xếp hạng ban đầu của người dùng mà còn cả các dự đoán cho những bộ phim mà từng người dùng chưa xem. Ví dụ: hãy xem xét điểm xếp hạng của Người dùng 1 về Casablanca là 5.0. Dấu chấm tích tương ứng với ô đó trong ma trận đề xuất phải hy vọng vào khoảng 5.0 và đó là:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Quan trọng hơn, Người dùng 1 có thích Báo đen không? Lấy tích vô hướng tương ứng với hàng đầu tiên và cột thứ ba mang lại kết quả dự đoán. điểm xếp hạng 4.3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

Phân tích ma trận thường tạo ra ma trận người dùng và ma trận mục mà kết hợp với nhau nhỏ gọn hơn đáng kể so với ma trận mục tiêu.

Sai số tuyệt đối trung bình (MAE)

Tỷ lệ tổn thất trung bình cho mỗi ví dụ khi L1 tổn thất là đã sử dụng. Tính sai số tuyệt đối trung bình như sau:

  1. Tính mức tổn thất L1 cho một lô.
  2. Chia mức giảm L1 cho số lượng ví dụ trong lô.

Ví dụ: hãy xem xét phép tính tổn thất L1 cho loạt năm ví dụ sau đây:

Giá trị thực tế của ví dụ Giá trị dự đoán của mô hình Giảm (chênh lệch giữa dữ liệu thực tế và dự đoán)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = tổn thất L1

Vì vậy, tổn thất L1 là 8 và số lượng ví dụ là 5. Do đó, sai số tuyệt đối trung bình là:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Độ tương phản trung bình sai số tuyệt đối với Lỗi bình phương trung bìnhLỗi bình phương căn bậc hai trung bình.

Sai số bình phương trung bình (MSE)

Tỷ lệ tổn thất trung bình cho mỗi ví dụ khi L2 tổn thất là đã sử dụng. Tính sai số bình phương trung bình như sau:

  1. Tính mức tổn thất L2 cho một lô.
  2. Chia mức giảm L2 cho số lượng ví dụ trong lô.

Ví dụ: hãy xem xét tổn thất trong lô năm ví dụ sau:

Giá trị thực tế Thông tin dự đoán của mô hình Thua Tổn thất bình phương
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = L2 tổn thất

Do đó, sai số bình phương trung bình là:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Lỗi bình phương trung bình là một trình tối ưu hoá huấn luyện phổ biến, đặc biệt là đối với hồi quy tuyến tính.

sai số bình phương độ tương phản trung bình với Lỗi tuyệt đối trung bìnhLỗi bình phương căn bậc hai trung bình.

TensorFlow Playground sử dụng sai số bình phương trung bình để tính toán giá trị tổn thất.

lưới

#TensorFlow
#GoogleCloud

Trong lập trình song song ML, thuật ngữ dùng để chỉ định dữ liệu và cho chip TPU và xác định cách phân đoạn hoặc sao chép các giá trị này.

Lưới là một thuật ngữ quá tải có thể có nghĩa là một trong những điều sau:

  • Bố cục vật lý của các khối TPU.
  • Cấu trúc logic trừu tượng để ánh xạ dữ liệu và mô hình đến TPU chip.

Trong cả hai trường hợp, lưới được chỉ định dưới dạng hình dạng.

siêu học tập

#language

Một tập hợp con của công nghệ học máy phát hiện hoặc cải thiện thuật toán học tập. Một hệ thống học tập tổng hợp cũng có thể hướng đến việc huấn luyện một mô hình để nhanh chóng học hỏi nhiệm vụ từ một lượng nhỏ dữ liệu hoặc từ kinh nghiệm có được trong các nhiệm vụ trước đó. Các thuật toán học siêu dữ liệu thường cố gắng đạt được những mục tiêu sau:

  • Cải thiện hoặc tìm hiểu các tính năng được thiết kế thủ công (chẳng hạn như trình khởi chạy hoặc một trình tối ưu hoá).
  • Tiết kiệm dữ liệu và điện toán hiệu quả hơn.
  • Cải thiện khả năng khái quát hoá.

Học siêu dữ liệu có liên quan đến học một vài lần.

chỉ số

#TensorFlow

Một số liệu thống kê mà bạn quan tâm.

Mục tiêu là chỉ số mà hệ thống học máy cố gắng tối ưu hoá.

API Chỉ số (tf.metric)

API TensorFlow để đánh giá mô hình. Ví dụ: tf.metrics.accuracy xác định tần suất các dự đoán của mô hình khớp với nhãn.

lô nhỏ

#fundamentals

Một tập hợp con nhỏ, được chọn ngẫu nhiên trong một được xử lý trong một vòng lặp. Kích thước lô của một lô nhỏ thường là từ 10 đến 1.000 ví dụ.

Ví dụ: giả sử toàn bộ tập huấn luyện (toàn bộ lô) bao gồm 1.000 ví dụ. Giả sử thêm rằng bạn đặt kích thước lô của mỗi lô nhỏ thành 20. Do đó, mỗi lặp lại xác định tổn thất trên ngẫu nhiên 20 trong số 1.000 ví dụ và sau đó điều chỉnh trọng sốđộ lệch cho phù hợp.

Việc tính toán tổn thất trong một lô nhỏ sẽ hiệu quả hơn nhiều so với tất cả các ví dụ trong toàn bộ lô sẽ bị mất.

giảm độ dốc ngẫu nhiên theo lô nhỏ

Thuật toán giảm độ dốc sử dụng các lô nhỏ. Nói cách khác, tình huống ngẫu nhiên trong gói nhỏ giảm độ dốc ước tính độ dốc dựa trên một tập hợp con nhỏ dữ liệu huấn luyện. Chế độ giảm độ dốc ngẫu nhiên thông thường sử dụng lô nhỏ có kích thước 1.

mức giảm thiểu tối đa

Một hàm mất cho mạng đối nghịch tạo sinh, dựa trên Cross entropy giữa phân phối dữ liệu đã tạo và dữ liệu thực.

Mức tổn thất tối đa được dùng trong bài viết đầu tiên để mô tả mạng đối nghịch tạo sinh.

giai cấp dân tộc thiểu số

#fundamentals

Nhãn ít phổ biến hơn trong tập dữ liệu không cân bằng về lớp. Ví dụ: Khi cho tập dữ liệu có chứa 99% nhãn âm và 1% nhãn dương, nhãn khẳng định là thuộc nhóm thiểu số.

Tương phản với lớp đại diện.

kết hợp giữa các chuyên gia

#language
#generativeAI

Kế hoạch tăng hiệu quả của mạng nơron bằng cách chỉ sử dụng một tập hợp con các tham số (được gọi là chuyên gia) để xử lý một mã thông báo hoặc ví dụ đã nhập. Đáp mạng lưới định tuyến từng mã thông báo đầu vào hoặc ví dụ đến(các) chuyên gia thích hợp.

Để biết chi tiết, hãy xem một trong các tài liệu sau:

ML (Mali)

Từ viết tắt của máy học.

MMIT

#language
#image
#generativeAI

Từ viết tắt của điều chỉnh hướng dẫn đa phương thức.

MNIST

#image

Tập dữ liệu thuộc phạm vi công cộng được biên dịch bởi LeCun, Cortes và Burges chứa 60.000 hình ảnh, mỗi hình ảnh cho thấy cách một người tự viết một từ 0 đến 9. Mỗi hình ảnh được lưu trữ dưới dạng một mảng số nguyên có kích thước 28x28, trong đó mỗi số nguyên là một giá trị thang màu xám từ 0 đến 255.

MNIST là tập dữ liệu chuẩn cho công nghệ học máy, thường được dùng để thử nghiệm phương pháp học máy. Để biết thông tin chi tiết, hãy xem Cơ sở dữ liệu của MNIST về các chữ số viết tay.

phương thức

#language

Một danh mục dữ liệu cấp cao. Ví dụ: số, văn bản, hình ảnh, video và âm thanh là 5 phương thức khác nhau.

kiểu máy

#fundamentals

Nhìn chung, mọi cấu trúc toán học xử lý dữ liệu đầu vào và trả về đầu ra. Nói theo cách khác, mô hình là tập hợp các tham số và cấu trúc cần thiết để hệ thống đưa ra dự đoán. Trong công nghệ học máy có giám sát, mô hình sẽ lấy ví dụ làm dữ liệu đầu vào và suy ra đề xuất làm dữ liệu đầu ra. Trong công nghệ học máy có giám sát, các mô hình khác nhau đôi chút. Ví dụ:

  • Mô hình hồi quy tuyến tính bao gồm một tập hợp trọng sốđộ thiên vị.
  • Mô hình mạng nơron bao gồm:
    • Một tập hợp lớp ẩn, mỗi lớp có chứa một hoặc tế bào thần kinh khác.
    • Trọng số và độ chệch liên quan đến mỗi nơron.
  • Mô hình cây quyết định bao gồm:
    • Hình dạng của cây; tức là mẫu mà các điều kiện và lá cây nối liền với nhau.
    • Tình trạng và lá cây.

Bạn có thể lưu, khôi phục hoặc tạo bản sao của mô hình.

Công nghệ học máy không giám sát cũng tạo các mô hình, thường là một hàm có thể ánh xạ một mẫu đầu vào đến cụm phù hợp nhất.

dung lượng của mô hình

Độ phức tạp của các vấn đề mà một mô hình có thể học được. Càng phức tạp các vấn đề mà mô hình có thể học được, thì công suất của mô hình càng cao. của mô hình thường tăng theo số lượng tham số của mô hình. Đối với định nghĩa chính thức về năng lực phân loại, xem Thứ nguyên VC.

mô hình xếp tầng

#generativeAI

Một hệ thống chọn mô hình lý tưởng để đưa ra suy luận cụ thể truy vấn.

Hãy tưởng tượng một nhóm mô hình, có phạm vi từ rất lớn (rất nhiều parameter) thành nhỏ hơn nhiều (tham số ít hơn rất nhiều). Các mô hình rất lớn tiêu tốn nhiều tài nguyên điện toán hơn ở thời gian suy luận so với các mô hình nhỏ hơn. Tuy nhiên, quy mô rất lớn mô hình thường có thể dự đoán các yêu cầu phức tạp hơn so với mô hình nhỏ hơn. Phân tầng mô hình xác định độ phức tạp của truy vấn suy luận và sau đó chọn mô hình thích hợp để thực hiện suy luận. Động lực chính của việc phân tầng mô hình là giảm chi phí suy luận bằng cách thường chọn các mô hình nhỏ hơn và chỉ chọn mô hình lớn hơn để có thêm các truy vấn phức tạp.

Hãy tưởng tượng rằng một mô hình nhỏ chạy trên điện thoại và một phiên bản lớn hơn của kiểu máy đó chạy trên máy chủ từ xa. Việc phân tầng mô hình tốt giúp giảm chi phí và độ trễ bằng cách cho phép mô hình nhỏ hơn xử lý các yêu cầu đơn giản và chỉ gọi hàm để xử lý các yêu cầu phức tạp.

Xem thêm về bộ định tuyến mẫu.

tính song song mô hình

#language

Một cách mở rộng quy mô huấn luyện hoặc suy luận để đặt các phần khác nhau của một model trên nhiều thiết bị. Lập mô hình song song cho phép các mẫu nội dung quá lớn không thể vừa với một thiết bị.

Để triển khai tính song song của mô hình, hệ thống thường làm như sau:

  1. Phân đoạn (chia) mô hình thành các phần nhỏ hơn.
  2. Phân bổ quá trình huấn luyện các phần nhỏ hơn đó cho nhiều bộ xử lý. Mỗi bộ xử lý sẽ huấn luyện một phần riêng của mô hình.
  3. Kết hợp các kết quả để tạo một mô hình duy nhất.

Tính năng song song của mô hình làm chậm quá trình huấn luyện.

Hãy xem thêm bài viết tính song song dữ liệu.

bộ định tuyến mẫu

#generativeAI

Thuật toán xác định mô hình lý tưởng cho suy luận trong phân tầng mô hình. Bộ định tuyến mô hình thường là một mô hình học máy dần dần học cách chọn mô hình tốt nhất cho một đầu vào nhất định. Tuy nhiên, bộ định tuyến mô hình đôi khi có thể đơn giản hơn, không phải thuật toán học máy.

huấn luyện mô hình

Quá trình xác định mô hình tốt nhất.

Đà phát triển

Một thuật toán giảm độ dốc tinh vi, trong đó bước học phụ thuộc vào không chỉ trên đạo hàm ở bước hiện tại mà còn trên các đạo hàm của(các) bước ngay trước nó. Động lực liên quan đến việc điện toán trung bình động có trọng số luỹ thừa của các độ dốc theo thời gian, tương tự thành động lượng trong vật lý. Động lực đôi khi cản trở việc học tập mắc kẹt trong cực tiểu cục bộ.

MOE

#language
#image
#generativeAI

Từ viết tắt của cụm từ chuyên gia.

phân loại nhiều lớp

#fundamentals

Trong phương pháp học có giám sát, vấn đề về phân loại trong đó tập dữ liệu chứa hơn 2 lớp nhãn. Ví dụ: nhãn trong tập dữ liệu Iris phải là một trong các nhãn sau 3 lớp:

  • Hoa diên vĩ
  • Hoa diên vĩ
  • Hoa diên vĩ

Một mô hình được huấn luyện trên tập dữ liệu Iris nhằm dự đoán loại Iris dựa trên các ví dụ mới là thực hiện phân loại nhiều lớp.

Ngược lại, bài toán phân loại phân biệt chính xác hai là mô hình phân loại nhị phân. Ví dụ: mô hình email dự đoán thư rác hoặc không phải thư rác là mô hình phân loại nhị phân.

Trong các bài toán phân cụm, phân loại nhiều lớp đề cập đến hơn 2 cụm.

hồi quy logistic nhiều lớp

Sử dụng phương pháp hồi quy logistic trong Bài toán phân loại nhiều lớp.

tự tập trung vào nhiều đầu

#language

Một phần mở rộng của tính năng tự chú ý áp dụng cơ chế tự chú ý nhiều lần cho mỗi vị trí trong chuỗi đầu vào.

Transformers đã ra mắt tính năng tự chú ý nhiều đầu.

mô hình đa phương thức

#language

Mô hình có đầu vào và/hoặc đầu ra bao gồm nhiều hơn một phương thức. Ví dụ: hãy xem xét một mô hình lấy cả hình ảnh và chú thích văn bản (hai phương thức) làm tính năng, và sẽ cho ra điểm số cho biết mức độ phù hợp của chú thích văn bản với hình ảnh. Vì vậy, dữ liệu đầu vào của mô hình này là đa phương thức và đầu ra là đa phương thức.

điều chỉnh hướng dẫn đa phương thức

#language

Mô hình điều chỉnh theo hướng dẫn có thể xử lý đầu vào ngoài văn bản, chẳng hạn như hình ảnh, video và âm thanh.

phân loại đa thức

Từ đồng nghĩa với phân loại nhiều lớp.

hồi quy đa thức

Từ đồng nghĩa với hồi quy logistic nhiều lớp.

đa nhiệm

Một kỹ thuật học máy trong đó một mô hình duy nhất được huấn luyện để thực hiện nhiều nhiệm vụ.

Các mô hình đa nhiệm được tạo bằng cách huấn luyện về dữ liệu phù hợp với từng nhiệm vụ. Điều này cho phép mô hình học cách chia sẻ thông tin về các nhiệm vụ, giúp mô hình này học hiệu quả hơn.

Một mô hình được huấn luyện cho nhiều nhiệm vụ thường đã cải thiện được khả năng tổng quát hoá và có thể xử lý hiệu quả hơn nhiều loại dữ liệu.

Không

bẫy NaN

Khi một số trong mô hình của bạn trở thành NaN trong quá trình huấn luyện, điều này khiến nhiều hoặc tất cả các số khác trong mô hình của bạn cuối cùng trở thành NaN.

NaN là viết tắt của Not a Number.

hiểu ngôn ngữ tự nhiên

#language

Xác định ý định của người dùng dựa trên nội dung người dùng nhập hoặc nói. Ví dụ: một công cụ tìm kiếm sử dụng hiểu biết ngôn ngữ tự nhiên để xác định nội dung người dùng đang tìm kiếm dựa trên những gì người dùng nhập hoặc nói.

lớp phủ định

#fundamentals

Trong phân loại nhị phân, một lớp là được gọi là tích cực và giá trị còn lại được gọi là âm. Lớp dương là đối tượng hoặc sự kiện mà mô hình đang thử nghiệm và lớp phủ định là khả năng khác. Ví dụ:

  • Lớp âm tính trong xét nghiệm y tế có thể là "không phải khối u".
  • Lớp phủ định trong thuật toán phân loại email có thể là "không phải thư rác".

Tương phản với lớp học tích cực.

lấy mẫu phủ định

Từ đồng nghĩa với lấy mẫu đề xuất.

Tìm kiếm kiến trúc nơron (NAS)

Một kỹ thuật để tự động thiết kế kiến trúc của một mạng nơron. Các thuật toán NAS có thể giảm bớt thời gian và tài nguyên cần thiết để huấn luyện mạng nơron.

NAS thường sử dụng:

  • Không gian tìm kiếm, là một tập hợp các cấu trúc có thể có.
  • Một hàm thể dục, là thước đo mức độ hiệu quả của một thực hiện một tác vụ nhất định.

Các thuật toán NAS thường bắt đầu với một tập hợp nhỏ các kiến trúc có thể có và dần dần mở rộng không gian tìm kiếm khi thuật toán tìm hiểu thêm về những gì mới có hiệu quả. Chức năng thể dục thường dựa trên hiệu suất của cấu trúc trên tập huấn luyện và thuật toán thường được huấn luyện bằng tăng cường học tập.

Các thuật toán NAS đã được chứng minh là có hiệu quả trong việc tìm kiếm các thuật toán có hiệu suất cao cho nhiều tác vụ, bao gồm cả hình ảnh phân loại, phân loại văn bản, và bản dịch máy.

mạng nơron

#fundamentals

Một mô hình chứa ít nhất một lớp ẩn. Mạng nơron sâu là một loại mạng nơron có chứa nhiều hơn một lớp ẩn. Ví dụ: biểu đồ sau đây cho thấy một mạng nơron sâu chứa hai lớp ẩn.

Mạng nơron với một lớp đầu vào, hai lớp ẩn và một
          tầng đầu ra.

Mỗi nơron trong mạng nơron sẽ kết nối với tất cả các nút trong lớp tiếp theo. Ví dụ: trong biểu đồ trước, lưu ý rằng mỗi nơron trong số ba nơron trong lớp ẩn đầu tiên kết nối riêng rẽ với cả hai nơron trong lớp ẩn thứ hai.

Mạng nơron được triển khai trên máy tính đôi khi được gọi là mạng nơron nhân tạo để phân biệt chúng với mạng nơron có trong não bộ và các hệ thần kinh khác.

Một số mạng nơron có thể bắt chước các mối quan hệ phi tuyến cực kỳ phức tạp giữa các tính năng khác nhau và nhãn.

Xem thêm về mạng nơron tích chậpmạng nơron tái phát.

nơron

#fundamentals

Trong công nghệ học máy, một đơn vị riêng biệt nằm trong lớp ẩn của mạng nơron. Mỗi nơron thực hiện những việc sau hành động hai bước:

  1. Tính tổng có trọng số của các giá trị đầu vào được nhân theo trọng số tương ứng.
  2. Truyền tổng có trọng số dưới dạng dữ liệu đầu vào vào chức năng kích hoạt.

Một nơron trong lớp ẩn đầu tiên chấp nhận dữ liệu đầu vào từ các giá trị của đối tượng trong lớp đầu vào. Nơ-ron trong lớp ẩn bất kỳ bên ngoài phần tử đầu tiên chấp nhận dữ liệu đầu vào từ nơron trong lớp ẩn trước đó. Ví dụ: một nơron trong lớp ẩn thứ hai chấp nhận dữ liệu đầu vào từ nơron trong lớp ẩn đầu tiên.

Hình minh hoạ sau đây làm nổi bật hai nơron và đầu vào.

Mạng nơron với một lớp đầu vào, hai lớp ẩn và một
          tầng đầu ra. Hai nơron được đánh dấu: một trong tế bào đầu tiên
          lớp ẩn và một ở lớp ẩn thứ hai. Các
          nơron trong lớp ẩn đầu tiên nhận dữ liệu đầu vào từ cả hai đối tượng
          trong lớp đầu vào. Tế bào thần kinh được đánh dấu trong lớp ẩn thứ hai
          nhận dữ liệu đầu vào từ mỗi 3 nơron ở ẩn thứ nhất
          lớp.

Tế bào thần kinh trong mạng nơron bắt chước hành vi của các nơron trong não và các bộ phận khác của hệ thần kinh.

N gam

#seq
#language

Một chuỗi N từ theo thứ tự. Ví dụ: thực sự điên rồ là 2 gam. Bởi vì có liên quan, thực sự khác với 2 gam thực sự điên rồ.

Không Tên của loại N-gram này Ví dụ
2 quả óc chó hoặc 2 gam để đi, đi chơi, ăn trưa, ăn tối
3 3 gam ăn quá nhiều, ba con chuột bị mù, chuông điện thoại đổ chuông
4 4 gam đi dạo trong công viên, bụi trong gió, cậu bé ăn đậu lăng

Nhiều hiểu biết ngôn ngữ tự nhiên các mô hình dựa vào N-gram để dự đoán từ tiếp theo mà người dùng sẽ nhập hoặc nói. Ví dụ: giả sử người dùng nhập ba mù. Mô hình NLU dựa trên tam giác có thể sẽ dự đoán rằng người dùng sẽ nhập tiếp theo chuột.

Đối chiếu N-gram với túi từ, vốn là tập hợp từ không theo thứ tự.

hiểu ngôn ngữ tự nhiên (NLU)

#language

Từ viết tắt của ngôn ngữ tự nhiên hiểu.

nút (cây quyết định)

#df

Trong cây quyết định, bất kỳ condition [tình_trạng] hoặc .

Cây quyết định có hai điều kiện và ba lá.

nút (mạng nơron)

#fundamentals

Một nơ-ron trong một lớp ẩn.

nút (biểu đồ TensorFlow)

#TensorFlow

Một phép toán trong biểu đồ TensorFlow.

độ nhiễu

Nói chung, bất kỳ thứ gì che khuất tín hiệu trong một tập dữ liệu. Tiếng ồn có thể được đưa vào dữ liệu theo nhiều cách. Ví dụ:

  • Nhân viên đánh giá có thể nhầm lẫn khi gắn nhãn.
  • Con người và công cụ ghi lại sai hoặc bỏ qua các giá trị của tính năng.

điều kiện phi nhị giới

#df

Một điều kiện chứa nhiều hơn 2 kết quả có thể xảy ra. Ví dụ: điều kiện phi nhị phân sau đây có thể chứa 3 điều kiện kết quả:

Một điều kiện (number_of_legs = ?) có thể dẫn đến 3 kết quả
          kết quả. Một kết quả (number_of_legs = 8) dẫn đến một chiếc lá
          có tên là nhện. Kết quả thứ hai (number_of_legs = 4) dẫn đến
          một chiếc lá có tên là chó. Kết quả thứ ba (number_of_legs = 2) dẫn đến
          một chiếc lá có tên là chim cánh cụt.

nonlinear

#fundamentals

Mối quan hệ giữa hai hoặc nhiều biến không thể duy nhất được biểu thị bằng cách cộng và nhân. Mối quan hệ tuyến tính có thể được biểu diễn dưới dạng đường; một mối quan hệ nonlinear không thể được biểu diễn dưới dạng đường. Ví dụ: hãy xem xét hai mô hình mà mỗi mô hình đều liên quan đến một đối tượng vào một nhãn duy nhất. Mô hình bên trái là mô hình tuyến tính và mô hình ở bên phải là phi tuyến tính:

2 lô đất. Mỗi biểu đồ là một đường, vì vậy đây là mối quan hệ tuyến tính.
          Biểu đồ còn lại là một đường cong, vì vậy đây là mối quan hệ phi tuyến tính.

thiên kiến khi không phản hồi

#fairness

Hãy xem phần thiên vị lựa chọn.

tính không ổn định

#fundamentals

Một đối tượng có các giá trị thay đổi theo một hoặc nhiều phương diện, thường là thời gian. Ví dụ: hãy xem xét các ví dụ sau về tính không ổn định:

  • Số lượng đồ bơi được bán tại một cửa hàng cụ thể sẽ thay đổi theo mùa.
  • Số lượng trái cây được thu hoạch trong một khu vực cụ thể bằng 0 trong hầu hết thời gian trong năm nhưng lớn trong một khoảng thời gian ngắn.
  • Do biến đổi khí hậu, nhiệt độ trung bình hằng năm đang thay đổi.

Tương phản với tính không cố định.

chuẩn hoá

#fundamentals

Nói chung, quá trình chuyển đổi phạm vi thực tế của một biến thành một dải giá trị chuẩn, chẳng hạn như:

  • -1 đến +1
  • 0 đến 1
  • Điểm Z (khoảng, -3 đến +3)

Ví dụ: giả sử phạm vi giá trị thực tế của một đối tượng nhất định là 800 đến 2.400. Trong quá trình kỹ thuật trích xuất tính năng, bạn có thể chuẩn hoá các giá trị thực tế xuống phạm vi chuẩn, chẳng hạn như từ -1 đến +1.

Chuẩn hoá là một nhiệm vụ phổ biến trong kỹ thuật trích xuất tính chất. Người mẫu thường huấn luyện nhanh hơn (và dự đoán chính xác hơn) khi mỗi đối tượng dạng số trong vectơ đối tượng có gần như cùng phạm vi.

phát hiện tính năng mới

Quá trình xác định xem một ví dụ (mới lạ) mới có xuất phát từ cùng một phiên bản phân phối dưới dạng tập huấn luyện. Nói cách khác, sau khi quá trình huấn luyện trên tập huấn luyện, tính năng phát hiện tính năng mới sẽ xác định liệu một mới ví dụ (trong quá trình suy luận hoặc trong quá trình huấn luyện bổ sung) là ngoại lệ.

Tương phản với tính năng phát hiện điểm ngoại lai.

dữ liệu số

#fundamentals

Các đối tượng được biểu thị dưới dạng số nguyên hoặc số có giá trị thực. Ví dụ: một mô hình định giá nhà có thể sẽ đại diện cho kích thước của một ngôi nhà (tính bằng feet vuông hoặc mét vuông) dưới dạng dữ liệu số. Đại diện cho một đối tượng dưới dạng dữ liệu số cho biết rằng các giá trị của đối tượng mối quan hệ toán học với nhãn. Tức là số mét vuông của một ngôi nhà có thể mối quan hệ toán học với giá trị của ngôi nhà.

Không phải tất cả dữ liệu số nguyên đều được biểu diễn dưới dạng dữ liệu số. Ví dụ: mã bưu điện ở một số nơi trên thế giới là số nguyên; tuy nhiên, mã bưu chính số nguyên mã sẽ không được biểu thị dưới dạng dữ liệu số trong mô hình. Đó là vì một mã bưu chính của 20000 không mạnh gấp đôi (hoặc một nửa) so với mã bưu chính của 10000. Hơn nữa, mặc dù các mã bưu chính khác nhau tương quan với giá trị bất động sản, chúng tôi không thể giả định rằng giá trị bất động sản tại mã bưu chính 20000 có giá trị gấp đôi giá trị bất động sản ở mã bưu chính 10000. Mã bưu chính phải được thể hiện dưới dạng dữ liệu phân loại thay thế.

Các đối tượng số đôi khi được gọi là các tính năng liên tục.

NumPy

thư viện toán học nguồn mở cung cấp các phép toán mảng hiệu quả trong Python. gấu trúc được xây dựng trên NumPy.

O

mục tiêu

Chỉ số mà thuật toán của bạn đang cố gắng tối ưu hoá.

hàm mục tiêu

Công thức toán học hoặc chỉ số mà một mô hình hướng đến tối ưu hoá. Ví dụ: hàm mục tiêu cho hồi quy tuyến tính thường là Tổn thất bình phương trung bình. Do đó, khi huấn luyện một mô hình hồi quy tuyến tính, huấn luyện nhằm giảm thiểu tổn thất bình phương trung bình.

Trong một số trường hợp, mục tiêu là tối đa hoá chức năng mục tiêu. Ví dụ: nếu hàm mục tiêu là độ chính xác, thì mục tiêu sẽ là để tối đa hoá độ chính xác.

Hãy xem thêm mục Mất.

điều kiện xiên

#df

Trong cây quyết định, tình trạng liên quan đến nhiều hơn một tính năng. Ví dụ: nếu chiều cao và chiều rộng là cả hai đối tượng, thì sau đây là điều kiện xiên:

  height > width

Tương phản với điều kiện căn chỉnh theo trục.

ngoại tuyến

#fundamentals

Từ đồng nghĩa với tĩnh.

suy luận ngoại tuyến

#fundamentals

Quy trình mô hình tạo một loạt các dự đoán rồi lưu vào bộ nhớ đệm (lưu) những dự đoán đó. Sau đó, ứng dụng có thể truy cập vào dữ liệu dự đoán từ bộ nhớ đệm thay vì chạy lại mô hình.

Chẳng hạn hãy cân nhắc một mô hình tạo ra thông tin dự báo thời tiết tại địa phương (dự đoán) 4 giờ một lần. Sau khi mỗi mô hình chạy, hệ thống sẽ lưu vào bộ nhớ đệm tất cả dự báo thời tiết địa phương. Ứng dụng thời tiết truy xuất dự báo khỏi bộ nhớ đệm.

Suy luận ngoại tuyến còn được gọi là suy luận tĩnh.

Trái ngược với suy luận trực tuyến.

mã hoá một nóng

#fundamentals

Biểu diễn dữ liệu phân loại dưới dạng vectơ trong đó:

  • Một phần tử được đặt thành 1.
  • Tất cả các phần tử khác đều được đặt thành 0.

Phương thức mã hoá một lần thường dùng để biểu thị các chuỗi hoặc giá trị nhận dạng có một tập hợp hữu hạn các giá trị khả dĩ. Ví dụ: giả sử một đối tượng phân loại nhất định có tên Scandinavia có thể có 5 giá trị:

  • "Đan Mạch"
  • "Thuỵ Điển"
  • "Na Uy"
  • "Phần Lan"
  • "Iceland"

Phương thức mã hoá một nóng có thể đại diện cho từng giá trị trong số năm giá trị sau:

country Vectơ
"Đan Mạch" 1 0 0 0 0
"Thuỵ Điển" 0 1 0 0 0
"Na Uy" 0 0 1 0 0
"Phần Lan" 0 0 0 1 0
"Iceland" 0 0 0 0 1

Nhờ phương pháp mã hoá một nhiệt, một mô hình có thể học các kết nối khác nhau dựa trên từng quốc gia trong số 5 quốc gia.

Biểu thị một đối tượng dưới dạng dữ liệu số là thay thế cho mã hoá một nóng. Thật không may, đại diện cho Các quốc gia Bắc Âu theo số lượng không phải là lựa chọn tốt. Ví dụ: hãy xem xét biểu diễn dưới đây bằng số:

  • "Đan Mạch" là 0
  • "Thuỵ Điển" là 1
  • "Na Uy" là 2
  • "Phần Lan" là 3
  • "Iceland" là 4

Với mã hoá số, mô hình sẽ diễn giải các số thô về mặt toán học và sẽ cố gắng rèn luyện dựa trên các con số đó. Tuy nhiên, Iceland không thực sự nhiều gấp đôi (hoặc một nửa) so với mang tên Na Uy, do đó mô hình sẽ đi đến một số kết luận kỳ lạ.

học từ một dữ liệu

Một phương pháp học máy, thường được dùng để phân loại đối tượng, nhằm tìm hiểu các thuật toán phân loại hiệu quả thông qua một ví dụ huấn luyện duy nhất.

Bạn cũng có thể xem thêm nội dung học ngắn gọnhọc tập từ bất kỳ chi tiết nào.

nhắc một lần

#language
#generativeAI

Câu lệnhmột ví dụ minh hoạ cách mô hình ngôn ngữ lớn cần phản hồi. Ví dụ: câu lệnh sau đây chứa một ví dụ minh hoạ một mô hình ngôn ngữ lớn nó sẽ trả lời một truy vấn.

Các phần của một câu lệnh Ghi chú
Đơn vị tiền tệ chính thức của quốc gia đã chỉ định là gì? Câu hỏi mà bạn muốn LLM trả lời.
Pháp: EUR Một ví dụ.
Ấn Độ: Cụm từ tìm kiếm thực tế.

So sánh và đối chiếu lời nhắc một lần với các cụm từ sau:

một-với-tất-cả

#fundamentals

Với một bài toán phân loại có N lớp, một dung dịch gồm N riêng biệt thuật toán phân loại nhị phân – một thuật toán phân loại nhị phân cho từng kết quả có thể xảy ra. Ví dụ: với một mô hình phân loại các ví dụ chẳng hạn như động vật, rau củ hoặc khoáng chất, một giải pháp "thay đổi" sẽ mang lại sau đây là 3 thuật toán phân loại nhị phân riêng biệt:

  • động vật so với không động vật
  • rau củ và không nên ăn
  • khoáng sản so với không khoáng chất

trực tuyến

#fundamentals

Từ đồng nghĩa với động.

suy luận trực tuyến

#fundamentals

Tạo thông tin dự đoán theo yêu cầu. Ví dụ: giả sử một ứng dụng truyền dữ liệu đầu vào đến một mô hình và đưa ra yêu cầu cho một truy vấn dự đoán. Hệ thống sử dụng suy luận trực tuyến để phản hồi yêu cầu bằng cách chạy mô hình (và trả về thông tin dự đoán cho ứng dụng).

Trái ngược với suy luận ngoại tuyến.

hoạt động (hoạt động)

#TensorFlow

Trong TensorFlow, bất kỳ quy trình nào tạo ra, thao tác hoặc phá huỷ Tensor. Cho ví dụ: phép nhân ma trận là một phép toán lấy hai Tensor làm đầu vào và tạo một Tensor làm đầu ra.

Optax

Thư viện tối ưu hoá và xử lý độ dốc cho JAX. Optax hỗ trợ nghiên cứu bằng cách cung cấp các thành phần có thể được kết hợp lại theo các cách tuỳ chỉnh để tối ưu hoá các mô hình tham số, chẳng hạn như mạng nơron sâu. Các mục tiêu khác bao gồm:

  • Cung cấp những cách triển khai dễ đọc, đã được thử nghiệm kỹ lưỡng và hiệu quả thành phần cốt lõi.
  • Cải thiện năng suất bằng cách cho phép kết hợp những nguyên liệu cấp thấp vào trình tối ưu hoá tuỳ chỉnh (hoặc các thành phần xử lý độ dốc khác).
  • Đẩy nhanh việc tiếp nhận các ý tưởng mới bằng cách giúp mọi người dễ dàng để đóng góp.

trình tối ưu hoá

Cách triển khai cụ thể của tính năng giảm độ chuyển màu thuật toán. Các trình tối ưu hoá phổ biến bao gồm:

  • AdaGrad, viết tắt của ADAptive GRADient cho loại gốc (ADAptive GRADient).
  • Adam, viết tắt của ADAptive with Momentum.

thiên kiến tính đồng nhất ngoài nhóm

#fairness

Xu hướng thấy các thành viên ngoài nhóm giống nhau hơn thành viên trong nhóm khi so sánh thái độ, giá trị, đặc điểm tính cách, v.v. đặc điểm. Trong nhóm dùng để chỉ những người mà bạn thường xuyên tương tác; out-group dùng để chỉ những người bạn không tương tác thường xuyên. Nếu bạn tạo một tập dữ liệu bằng cách yêu cầu mọi người cung cấp các thuộc tính về nhưng những đặc điểm đó có thể ít sắc thái và định kiến hơn so với các thuộc tính mà người tham gia liệt kê cho những người trong nhóm của họ.

Ví dụ: người Lilliputian có thể mô tả nhà của những người Lilliputian khác rất chi tiết, trích dẫn những khác biệt nhỏ về kiểu kiến trúc, cửa sổ, cửa và kích thước. Tuy nhiên, cùng một Lilliputians có thể chỉ khai báo rằng Tất cả người dân Brobdingna đều sống trong những ngôi nhà giống nhau.

Thành kiến tính đồng nhất ngoài nhóm là một hình thức thiên vị phân bổ nhóm.

Hãy xem thêm mục thiên vị trong nhóm.

phát hiện điểm ngoại lai

Quá trình xác định các điểm ngoại lai trong một tập huấn luyện.

Tương phản với tính năng phát hiện tính năng mới.

các điểm ngoại lai

Giá trị khác xa hầu hết các giá trị khác. Trong công nghệ học máy, bất kỳ sau đây là những điểm ngoại lai:

  • Dữ liệu đầu vào có giá trị lớn hơn khoảng 3 độ lệch chuẩn giá trị trung bình.
  • Trọng số có giá trị tuyệt đối cao.
  • Giá trị dự đoán tương đối xa giá trị thực tế.

Ví dụ: giả sử widget-price là một tính năng của một mô hình nhất định. Giả sử giá trị trung bình widget-price là 7 Euro với độ lệch chuẩn 1 Euro. Ví dụ chứa widget-price là 12 Euro hoặc 2 Euro do đó sẽ được coi là các điểm ngoại lai vì mỗi mức giá đó đều 5 độ lệch chuẩn so với giá trị trung bình.

Các điểm ngoại lai thường do lỗi chính tả hoặc các lỗi nhập khác. Trong các trường hợp khác, điểm ngoại lai không phải là sai lầm; sau cùng, xác định giá trị cũ hơn 5 độ lệch chuẩn trung bình rất hiếm gặp nhưng khó có thể xảy ra.

Các giá trị ngoại lai thường gây ra sự cố trong quá trình huấn luyện mô hình. Tạo đoạn video là một cách để quản lý các điểm ngoại lai.

đánh giá ngay lập tức (đánh giá OOB)

#df

Một cơ chế để đánh giá chất lượng rừng quyết định bằng cách thử nghiệm từng cây quyết định so với ví dụ không được sử dụng trong khoảng thời gian huấn luyện của cây quyết định đó. Ví dụ: trong sơ đồ dưới đây, lưu ý rằng hệ thống sẽ huấn luyện từng cây quyết định vào khoảng 2/3 số ví dụ, sau đó đánh giá dựa trên 1/3 số ví dụ còn lại.

Rừng quyết định bao gồm 3 cây quyết định.
          Cây quyết định một lần huấn luyện dựa trên 2/3 số ví dụ
          rồi sử dụng một phần ba còn lại để đánh giá OOB.
          Cây quyết định thứ hai huấn luyện trên hai khu vực khác nhau
          các ví dụ so với cây quyết định trước đó, sau đó
          sử dụng tỷ lệ 1/3 để đánh giá OOB khác với
          cây quyết định trước đó.

Đánh giá ngoài túi là một cách tính toán hiệu quả và thận trọng cơ chế xác thực chéo. Trong trường hợp xác thực chéo, một mô hình sẽ được huấn luyện cho mỗi vòng xác thực chéo (ví dụ: 10 mô hình được huấn luyện bằng quy trình xác thực chéo 10 lần). Với đánh giá OOB, một mô hình duy nhất sẽ được huấn luyện. Vì hành vi bóc lột giữ lại một số dữ liệu từ mỗi cây trong quá trình huấn luyện, việc đánh giá OOB có thể sử dụng dữ liệu đó để ước tính xác thực chéo.

tầng đầu ra

#fundamentals

"Trận chung kết" lớp của mạng nơron. Lớp đầu ra chứa thông tin dự đoán.

Hình minh hoạ sau đây cho thấy một mạng nơron sâu nhỏ có đầu vào lớp, hai lớp ẩn và một lớp đầu ra:

Mạng nơron với một lớp đầu vào, hai lớp ẩn và một lớp
          tầng đầu ra. Lớp đầu vào bao gồm hai đối tượng. Đầu tiên
          lớp ẩn gồm ba nơron và lớp ẩn thứ hai
          gồm hai nơron. Lớp đầu ra bao gồm một nút duy nhất.

khái quát hoá kém

#fundamentals

Tạo mô hình khớp với dữ liệu huấn luyện chặt chẽ đến mức mô hình không thể đưa ra dự đoán chính xác về dữ liệu mới.

Phương pháp điều chỉnh tần suất có thể giảm tình trạng áp dụng quá mức. Việc tập luyện trên một bộ bài tập lớn và đa dạng cũng có thể giảm thiểu việc tập quá mức.

lấy mẫu quá mức

Sử dụng lại ví dụ về lớp cơ bản trong tập dữ liệu không cân bằng về lớp để tạo một tập huấn luyện cân bằng hơn.

Ví dụ: hãy xem xét phân loại nhị phân bài toán trong đó tỷ lệ của lớp đại đa số so với tầng lớp thiểu số là 5.000:1. Nếu tập dữ liệu chứa hàng triệu ví dụ, thì tập dữ liệu chỉ chứa khoảng 200 ví dụ về tầng lớp thiểu số, có thể có quá ít ví dụ để đào tạo hiệu quả. Để khắc phục khiếm khuyết này, bạn có thể lấy mẫu quá mức (sử dụng lại) 200 ví dụ đó nhiều lần, có thể mang lại đủ ví dụ để huấn luyện hữu ích.

Bạn cần thận trọng về việc kết hợp quá mức khi lấy mẫu quá mức.

Tương phản với phương pháp lấy mẫu dưới mức.

Điểm

dữ liệu đóng gói

Một phương pháp để lưu trữ dữ liệu hiệu quả hơn.

Dữ liệu đóng gói lưu trữ dữ liệu bằng cách sử dụng định dạng nén hoặc ở dạng một số cách khác cho phép truy cập hiệu quả hơn. Dữ liệu đóng gói giúp giảm thiểu dung lượng bộ nhớ và hoạt động tính toán cần thiết để truy cập vào đó, giúp huấn luyện nhanh hơn và suy luận mô hình hiệu quả hơn.

Dữ liệu đóng gói thường được dùng cùng với các kỹ thuật khác, chẳng hạn như tăng cường dữ liệuchính quy, giúp cải thiện hơn nữa hiệu suất của mô hình.

gấu trúc

#fundamentals

API phân tích dữ liệu hướng cột, được xây dựng dựa trên numpy. Nhiều khung máy học, bao gồm cả TensorFlow, hỗ trợ các cấu trúc dữ liệu gấu trúc làm dữ liệu đầu vào. Xem tài liệu về gấu trúc để biết thông tin chi tiết.

tham số

#fundamentals

Các trọng sốđộ lệch mà một mô hình học được trong quá trình đào tạo. Ví dụ: trong một hồi quy tuyến tính, các tham số bao gồm độ lệch (b) và tất cả các trọng số (w1, w2, v.v.) trong công thức sau:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Ngược lại, siêu tham số là các giá trị mà bạn (hoặc dịch vụ điều chỉnh siêu tham số) cung cấp cho mô hình. Ví dụ: tốc độ học tập là một siêu tham số.

điều chỉnh hiệu quả tham số

#language
#generativeAI

Một nhóm kỹ thuật để tinh chỉnh đoạn âm thanh lớn mô hình ngôn ngữ luyện trước (PLM) hiệu quả hơn so với việc điều chỉnh hoàn toàn. Sử dụng thông số hiệu quả tính năng điều chỉnh thường tinh chỉnh ít thông số hơn nhiều so với đầy đủ tinh chỉnh, nhưng thường tạo ra mô hình ngôn ngữ lớn mang lại hiệu quả mô hình ngôn ngữ lớn (hoặc gần như tương tự) được xây dựng từ tinh chỉnh.

So sánh và đối chiếu cách điều chỉnh hiệu quả thông số với:

Điều chỉnh hiệu quả tham số còn được gọi là tinh chỉnh hiệu quả tham số.

Máy chủ thông số (PS)

#TensorFlow

Một công việc theo dõi các tham số của mô hình trong một chế độ cài đặt phân phối.

cập nhật tham số

Thao tác điều chỉnh các tham số của mô hình trong khoảng thời gian thường trong một lần lặp lại giảm độ chuyển màu.

đạo hàm riêng

Một đạo hàm trong đó tất cả trừ một biến số được coi là hằng số. Ví dụ: đạo hàm riêng của f(x, y) đối với x là đạo hàm của f được coi là một hàm của riêng x (nghĩa là giữ nguyên y hằng số). Đạo hàm riêng của f đối với x chỉ tập trung vào x thay đổi như thế nào và bỏ qua tất cả các biến khác trong phương trình.

thiên kiến khi tham gia

#fairness

Từ đồng nghĩa với thiên kiến khi không phản hồi. Hãy xem phần thiên vị lựa chọn.

chiến lược phân vùng

Thuật toán mà theo đó các biến được chia cho máy chủ thông số.

Pax

Một khung lập trình được thiết kế để đào tạo trên quy mô lớn mạng nơron mô hình rất lớn chúng trải rộng trên nhiều TPU khối tăng tốc lát cắt hoặc nhóm.

Pax được xây dựng trên Flax (dựa trên JAX).

Sơ đồ cho biết vị trí của Pax trong ngăn xếp phần mềm.
          Pax được xây dựng dựa trên JAX. Bản thân Pax bao gồm ba
          các lớp. Lớp dưới cùng chứa TensorStore và Flax.
          Lớp ở giữa chứa Optax và Flaxformer. Trên cùng
          lớp này chứa Thư viện Mô hình Praxis. Fiddle được tạo
          ở đầu Pax.

cảm biến

Một hệ thống (phần cứng hoặc phần mềm) nhận một hoặc nhiều giá trị đầu vào, chạy một hàm dựa trên tổng có trọng số của các giá trị đầu vào và tính toán một giá trị đầu ra. Trong công nghệ học máy, hàm này thường phi tuyến tính, chẳng hạn như ReLU, sigmoid hoặc tanh. Ví dụ: perceptron sau đây dựa vào hàm sigmoid để xử lý ba giá trị đầu vào:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Trong hình minh hoạ sau, perceptron nhận 3 đầu vào, mỗi đầu vào tự nó bị biến đổi theo trọng số trước khi nhập vào perceptron:

Một perceptron nhận 3 đầu vào, mỗi đầu vào được nhân với
          trọng số. Perceptron xuất ra một giá trị duy nhất.

Perceptron là tế bào thần kinh trong mạng nơron.

hiệu quả hoạt động

Thuật ngữ quá tải có nghĩa như sau:

  • Ý nghĩa tiêu chuẩn trong kỹ thuật phần mềm. Cụ thể: Mức độ nhanh (hoặc hiệu quả) có chạy phần mềm này không?
  • Ý nghĩa trong công nghệ học máy. Ở đây, hiệu suất trả lời các câu hỏi câu hỏi sau: mô hình này có chính xác không? Tức là dự đoán của mô hình có tốt không?

tầm quan trọng của biến hoán vị

#df

Loại mức độ quan trọng có thể thay đổi đánh giá sự gia tăng của lỗi dự đoán của một mô hình sau khi xem xét các giá trị của tính năng. Tầm quan trọng của biến hoán vị là biến độc lập với mô hình chỉ số.

độ hỗn loạn

Một thước đo về mức độ hoàn thành nhiệm vụ của mô hình. Ví dụ: giả sử nhiệm vụ của bạn là đọc một vài chữ cái đầu tiên của một từ người dùng đang nhập trên bàn phím điện thoại và để cung cấp một danh sách từ hoàn thành. Độ phức tạp, P, của tác vụ này xấp xỉ số phỏng đoán bạn cần đưa ra để danh sách của bạn chứa được từ mà người dùng đang cố gắng nhập.

Độ phức tạp liên quan đến nhiều entropy như sau:

$$P= 2^{-\text{cross entropy}}$$

quy trình

Cơ sở hạ tầng xung quanh thuật toán học máy. Đường ống bao gồm thu thập dữ liệu, đưa dữ liệu vào các tệp dữ liệu huấn luyện, huấn luyện một hoặc nhiều mô hình và xuất mô hình sang sản xuất.

tạo đường ống

#language

Một dạng mô hình song song trong đó quá trình xử lý được chia thành các giai đoạn liên tiếp và mỗi giai đoạn được thực thi trên một thiết bị khác. Mặc dù một giai đoạn đang xử lý một lô, giai đoạn có thể xử lý cho lô tiếp theo.

Hãy xem thêm mục chương trình đào tạo theo giai đoạn.

Pjit

Hàm JAX phân tách mã để chạy trên nhiều hàm khối tăng tốc. Người dùng chuyển một hàm đến pjit, phương thức này trả về một hàm có ngữ nghĩa tương đương nhưng được biên dịch vào phép tính XLA chạy trên nhiều thiết bị (chẳng hạn như GPU hoặc lõi TPU).

pjit cho phép người dùng phân đoạn các phép tính mà không cần viết lại bằng cách sử dụng trình phân vùng SPMD.

Kể từ tháng 3 năm 2023, pjit đã được hợp nhất với jit. Tham khảo Các mảng đã phân phối và các biến tự động song song hoá để biết thêm chi tiết.

PLM

#language
#generativeAI

Từ viết tắt của mô hình ngôn ngữ được huấn luyện trước.

pmap

Một hàm JAX thực thi bản sao của một hàm đầu vào trên nhiều thiết bị phần cứng cơ bản (CPU, GPU hoặc TPU), với các giá trị đầu vào khác nhau. pmap dựa vào SPMD.

policy

#rl

Trong phương pháp học tăng cường, việc lập bản đồ xác suất của tác nhân từ trạng thái đến hành động.

gộp

#image

Giảm ma trận (hoặc các ma trận) được tạo bởi lớp tích chập thành một ma trận nhỏ hơn. Việc gộp thường bao gồm lấy giá trị tối đa hoặc trung bình trên vùng gộp. Ví dụ: giả sử chúng ta có ma trận 3x3 sau đây:

Ma trận 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Toán tử gộp, cũng giống như toán tử tích chập, chia ma trận thành nhiều lát cắt rồi trượt phép toán tích chập đó bằng cách sải chân. Ví dụ: giả sử toán tử gộp chia ma trận tích chập thành các lát 2x2 với bước tiến 1x1. Như minh hoạ dưới đây, 4 hoạt động gộp diễn ra. Hãy tưởng tượng rằng mỗi thao tác gộp sẽ chọn giá trị tối đa của bốn trong lát cắt đó:

Ma trận đầu vào là 3x3 với các giá trị: [[5,3,1], [8,2,5], [9,4,3]].
          Ma trận con 2x2 trên cùng bên trái của ma trận đầu vào là [[5,3], [8,2]], vì vậy
          thao tác gộp trên cùng bên trái mang lại giá trị 8 (là
          tối đa là 5, 3, 8 và 2). Ma trận con 2x2 trên cùng bên phải của đầu vào
          ma trận là [[3,1], [2,5]], do đó, thao tác gộp phía trên bên phải mang lại
          giá trị 5. Ma trận con 2x2 dưới cùng bên trái của ma trận đầu vào là
          [[8,2], [9,4]], do đó thao tác gộp dưới cùng bên trái mang lại giá trị
          9. Ma trận con 2x2 dưới cùng bên phải của ma trận đầu vào là
          [[2,5], [4,3]], do đó thao tác gộp dưới cùng bên phải mang lại giá trị
          5 điểm. Tóm lại, thao tác gộp tạo ra ma trận 2x2
          [[8,5], [9,5]].

Việc gộp giúp thực thi bất biến dịch trong ma trận đầu vào.

Việc gộp các ứng dụng thị giác được biết đến chính thức hơn là gộp không gian. Các ứng dụng chuỗi thời gian thường gọi phương thức gộp nhóm là phương thức gộp nhóm thời gian. Nói một cách đơn giản hơn, gộp nhóm thường được gọi là lấy mẫu con hoặc giảm tần số lấy mẫu.

mã hoá vị trí

#language

Kỹ thuật thêm thông tin về vị trí của mã thông báo theo trình tự để nhúng của mã thông báo. Mô hình bộ chuyển đổi sử dụng dữ liệu vị trí để hiểu rõ hơn mối quan hệ giữa các phần khác nhau của trình tự.

Cách triển khai phổ biến của mã hoá vị trí sẽ sử dụng hàm hình sin. (Cụ thể, tần số và biên độ của hàm hình sin là được xác định theo vị trí của mã thông báo trong chuỗi). Kỹ thuật này cho phép mô hình Transformer học cách tham gia vào các phần khác nhau của trình tự dựa trên vị trí của chúng.

lớp giá trị dương

#fundamentals

Lớp mà bạn đang kiểm thử.

Ví dụ: lớp dương tính trong mô hình ung thư có thể là "khối u". Lớp khẳng định trong thuật toán phân loại email có thể là "thư rác".

Tương phản với lớp phủ định.

hậu xử lý

#fairness
#fundamentals

Điều chỉnh đầu ra của mô hình sau khi chạy mô hình. Xử lý hậu kỳ có thể được sử dụng để thực thi các ràng buộc về tính công bằng mà không cần tự sửa đổi mô hình.

Ví dụ: có thể áp dụng phương thức xử lý hậu kỳ cho thuật toán phân loại nhị phân bằng cách đặt ngưỡng phân loại sao cho cơ hội bình đẳng được duy trì cho một số thuộc tính bằng cách kiểm tra xem tỷ lệ dương thực sự giống nhau đối với tất cả các giá trị của thuộc tính đó.

PR AUC (diện tích dưới đường cong PR)

Vùng dưới nội suy đường cong gợi lại độ chính xác có được bằng cách vẽ biểu đồ điểm gợi lại, độ chính xác cho các giá trị khác nhau của ngưỡng phân loại. Tuỳ thuộc vào cách thức giá trị này được tính, AUC PR có thể tương đương với độ chính xác trung bình của mô hình.

Praxis

Một thư viện học máy cốt lõi, hiệu suất cao của Pax. Praxis thường có tên là "Thư viện lớp".

Praxis không chỉ chứa các định nghĩa về lớp Lớp, mà hầu hết thành phần hỗ trợ bao gồm:

Praxis cung cấp các định nghĩa cho lớp Mô hình.

độ chính xác

Chỉ số cho mô hình phân loại giúp trả lời câu hỏi sau:

Khi mô hình này dự đoán lớp tích cực, bao nhiêu phần trăm các dự đoán là chính xác?

Dưới đây là công thức:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

trong đó:

  • dương thực có nghĩa là mô hình đã dự đoán chính xác về lớp dương.
  • dương tính giả (FN) có nghĩa là mô hình đã dự đoán nhầm lẫn về lớp dương tính.

Ví dụ: giả sử một mô hình đưa ra 200 dự đoán tích cực. Trong số 200 dự đoán tích cực này:

  • 150 kết quả là dương tính thật.
  • 50 kết quả dương tính giả.

Trong trường hợp này:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Ngược lại với độ chính xácsự gợi nhớ.

Xem phần Phân loại: Độ chính xác, mức độ gợi nhớ, độ chính xác và nội dung liên quan chỉ số để biết thêm thông tin.

đường cong thu hồi độ chính xác

Đường cong độ chính xác so với độ chính xác ở các mức độ khác nhau ngưỡng phân loại.

dự đoán

#fundamentals

Đầu ra của mô hình. Ví dụ:

  • Dự đoán của mô hình phân loại nhị phân là giá trị dương hoặc lớp phủ định.
  • Thông tin dự đoán của mô hình phân loại nhiều lớp là một lớp.
  • Dự đoán của mô hình hồi quy tuyến tính là một con số.

thiên kiến dự đoán

Một giá trị cho biết khoảng cách giữa mức trung bình của cụm từ gợi ý được lấy giá trị trung bình của các nhãn trong tập dữ liệu.

Đừng nhầm lẫn với thuật ngữ độ lệch trong các mô hình học máy hoặc thành kiến về đạo đức và công bằng.

công nghệ học máy dự đoán

Bất kỳ hệ thống máy học tiêu chuẩn nào ("cổ điển").

Thuật ngữ ML dự đoán chưa có định nghĩa chính thức. Thay vào đó, thuật ngữ này phân biệt một danh mục hệ thống học máy không dựa trên AI tạo sinh.

ngang bằng dự đoán

#fairness

Chỉ số về tính công bằng kiểm tra xem, cho một thuật toán phân loại nhất định, thì tỷ lệ độ chính xác tương đương với các nhóm con đang được xem xét.

Ví dụ: một mô hình dự đoán chấp nhận học đại học sẽ đáp ứng mức độ tương đồng dự đoán cho quốc tịch nếu mức độ chính xác của thông tin đó là như nhau cho người Lilliputian và người Brobdingnagian.

Tình trạng ngang bằng dự đoán đôi khi còn được gọi là ngang hàng tỷ lệ dự đoán.

Xem "Định nghĩa về tính công bằng Giải thích" (mục 3.2.1) để thảo luận chi tiết hơn về tính tương đồng dự đoán.

mức tương đương của tỷ lệ dự đoán

#fairness

Một tên khác của tính năng giá trị ngang hàng dự đoán.

xử lý trước

#fairness
Xử lý dữ liệu trước khi dùng để huấn luyện mô hình. Quá trình xử lý trước có thể chỉ đơn giản như xoá những từ khỏi tập sao lục văn bản tiếng Anh không xảy ra trong từ điển tiếng Anh, hoặc có thể phức tạp như việc diễn đạt lại các điểm dữ liệu theo cách loại bỏ vô số thuộc tính có tương quan bằng thuộc tính nhạy cảm nhất có thể. Quá trình xử lý trước có thể giúp đáp ứng các ràng buộc về tính công bằng.

mô hình luyện sẵn

#language
#image
#generativeAI

Các mô hình hoặc thành phần mô hình (chẳng hạn như vectơ nhúng) đã được huấn luyện. Đôi khi, bạn sẽ cung cấp các vectơ nhúng đã huấn luyện trước vào một mạng nơron. Vào những lúc khác, mô hình của bạn sẽ huấn luyện thay vì dựa vào các vectơ nhúng được huấn luyện trước.

Thuật ngữ mô hình ngôn ngữ được huấn luyện trước đề cập đến một mô hình ngôn ngữ lớn đã trải qua trước khi đào tạo.

đào tạo trước

#language
#image
#generativeAI

Quá trình huấn luyện ban đầu cho một mô hình trên một tập dữ liệu lớn. Một số mô hình luyện sẵn là những gã khổng lồ vụng về và thường phải được hoàn thiện thông qua việc đào tạo bổ sung. Ví dụ: các chuyên gia ML có thể huấn luyện trước một mô hình ngôn ngữ lớn trên một tập dữ liệu văn bản rộng lớn, chẳng hạn như tất cả các trang tiếng Anh trên Wikipedia. Sau quá trình đào tạo trước, mô hình thu được có thể được tinh chỉnh thêm thông qua bất kỳ kỹ thuật:

tín ngưỡng trước

Điều bạn tin tưởng về dữ liệu trước khi bắt đầu tìm hiểu về dữ liệu đó. Ví dụ: quy trình điều chỉnh L2 dựa vào một niềm tin trước đó rằng trọng số nên nhỏ và thông thường được phân phối quanh 0.

mô hình hồi quy xác suất

Mô hình hồi quy không chỉ sử dụng trọng số cho mỗi tính năng, mà còn độ bất định của các trọng số đó. Mô hình hồi quy xác suất tạo ra sự dự đoán và độ không chắc chắn của dự đoán đó. Ví dụ: một mô hình hồi quy xác suất có thể mang lại kết quả dự đoán là 325 với độ lệch chuẩn là 12. Để biết thêm thông tin về hồi quy xác suất các mô hình khác, hãy xem Colab trên tensorflow.org.

hàm mật độ xác suất

Một hàm xác định tần suất của các mẫu dữ liệu có chính xác giá trị cụ thể. Khi các giá trị của một tập dữ liệu là dấu phẩy động liên tục số, đối sánh chính xác hiếm khi xảy ra. Tuy nhiên, việc tích hợp một xác suất hàm mật độ từ giá trị x đến giá trị y mang lại tần suất dự kiến là mẫu dữ liệu từ x đến y.

Ví dụ: hãy xem xét phân phối chuẩn có giá trị trung bình là 200 và độ lệch chuẩn 30. Để xác định tần suất dự kiến của các mẫu dữ liệu nằm trong phạm vi 211,4 đến 218,7, bạn có thể tích hợp xác suất hàm mật độ cho phân phối chuẩn từ 211,4 đến 218,7.

câu lệnh

#language
#generativeAI

Bất kỳ văn bản nào được nhập dưới dạng dữ liệu đầu vào vào mô hình ngôn ngữ lớn để điều chỉnh mô hình hoạt động theo một cách nhất định. Lời nhắc có thể ngắn gọn bằng cụm từ hoặc dài tuỳ ý (ví dụ: toàn bộ văn bản của một cuốn tiểu thuyết). Câu lệnh được phân thành nhiều danh mục, bao gồm những danh mục được hiển thị trong bảng sau:

Danh mục câu lệnh Ví dụ: Ghi chú
Câu hỏi Chim bồ câu có thể bay nhanh đến mức nào?
Hướng dẫn Viết một bài thơ hài hước về chủ đề chuyên đăng quảng cáo. Câu lệnh yêu cầu mô hình ngôn ngữ lớn làm gì đó.
Ví dụ: Dịch mã Markdown sang HTML. Ví dụ:
Markdown: * mục danh sách
HTML: <ul> <li>mục trong danh sách</li> &lt;/ul&gt;
Câu đầu tiên trong câu lệnh mẫu này là một hướng dẫn. Phần còn lại của câu lệnh là ví dụ.
Vai trò Giải thích lý do phương pháp giảm độ dốc được dùng trong chương trình huấn luyện công nghệ học máy để Tiến sĩ Vật lý. Phần đầu tiên của câu là một hướng dẫn; cụm từ "thành tiến sĩ vật lý" là phần vai trò.
Một phần dữ liệu đầu vào để mô hình này hoàn tất Thủ tướng Vương quốc Anh sống tại Lời nhắc nhập một phần có thể kết thúc đột ngột (như trong ví dụ này) hoặc kết thúc bằng dấu gạch dưới.

Mô hình AI tạo sinh có thể trả lời một câu lệnh bằng văn bản, mã, hình ảnh, nội dung nhúng, video... hầu như mọi thứ.

học dựa trên câu lệnh

#language
#generativeAI

Khả năng của một số mô hình nhất định giúp các mô hình đó thích ứng hành vi của họ khi nhập văn bản tuỳ ý (câu lệnh). Trong một mô hình học tập dựa trên câu lệnh thông thường, mô hình ngôn ngữ lớn phản hồi lời nhắc bằng cách tạo văn bản. Ví dụ: Giả sử một người dùng nhập câu lệnh sau:

Tóm tắt Định luật chuyển động thứ ba của Newton.

Một mô hình có khả năng học dựa trên câu lệnh chưa được huấn luyện riêng để trả lời câu lệnh trước đó. Thay vào đó, mô hình này "biết" nhiều thông tin về vật lý, rất nhiều về các quy tắc ngôn ngữ chung và những yếu tố cấu thành nên các câu trả lời hữu ích. Kiến thức đó đủ để cung cấp (hy vọng) thông tin hữu ích . Ý kiến phản hồi bổ sung của con người ("Câu trả lời đó quá phức tạp." hoặc "Phản ứng là gì?") giúp một số hệ thống học tập dựa trên câu lệnh dần dần để cải thiện mức độ hữu ích cho câu trả lời của họ.

thiết kế câu lệnh

#language
#generativeAI

Từ đồng nghĩa với kỹ thuật câu lệnh.

thiết kế câu lệnh

#language
#generativeAI

Nghệ thuật tạo câu lệnh gợi ra các câu trả lời mong muốn qua một mô hình ngôn ngữ lớn. Con người thực hiện câu lệnh kỹ thuật. Việc viết câu lệnh có cấu trúc hợp lý là một phần thiết yếu để đảm bảo các phản hồi hữu ích từ một mô hình ngôn ngữ lớn. Kỹ thuật câu lệnh phụ thuộc vào nhiều yếu tố, bao gồm:

Xem Giới thiệu về thiết kế lời nhắc để biết thêm chi tiết về cách viết những câu lệnh hữu ích.

Thiết kế câu lệnh là từ đồng nghĩa với kỹ thuật thiết kế câu lệnh.

chỉnh lời nhắc

#language
#generativeAI

Cơ chế điều chỉnh hiệu quả thông số học "tiền tố" mà hệ thống thêm vào trước lời nhắc thực tế.

Một biến thể của tính năng điều chỉnh câu lệnh (đôi khi được gọi là điều chỉnh tiền tố) là thêm tiền tố vào mỗi lớp. Ngược lại, hầu hết các tính năng chỉ điều chỉnh câu lệnh thêm tiền tố vào lớp đầu vào.

nhãn proxy

#fundamentals

Dữ liệu dùng để ước tính nhãn không có trực tiếp trong một tập dữ liệu.

Ví dụ: giả sử bạn phải huấn luyện một mô hình để dự đoán nhân viên mức độ căng thẳng. Tập dữ liệu của bạn có chứa nhiều tính năng dự đoán, nhưng không chứa nhãn có tên mức độ căng thẳng. Không lo lắng, bạn chọn "tai nạn nơi làm việc" dưới dạng nhãn proxy cho mức độ căng thẳng. Sau cùng, nhân viên đang chịu áp lực cao sẽ làm việc hiệu quả hơn hơn so với những nhân viên bình tĩnh. Có đúng như vậy không? Có thể là tai nạn nơi làm việc có thể tăng và giảm vì nhiều lý do.

Ví dụ thứ hai, giả sử bạn muốn mưa có mưa không? làm nhãn Boolean cho tập dữ liệu của bạn, nhưng tập dữ liệu không chứa dữ liệu về mưa. Nếu có sẵn hình ảnh, bạn có thể đặt hình ảnh của mọi người mang ô làm nhãn đại diện cho câu hỏi trời có mưa không? Có phải là một nhãn proxy tốt? Có thể, nhưng mọi người ở một số nền văn hoá có thể có nhiều khả năng mang theo ô để chống nắng hơn là mưa.

Nhãn proxy thường không hoàn hảo. Khi có thể, hãy chọn nhãn thực tế nhãn proxy. Tức là khi không có nhãn thực tế, hãy chọn proxy nhãn rất kỹ, chọn đề xuất nhãn đại diện ít kinh khủng nhất.

proxy (thuộc tính nhạy cảm)

#fairness
Thuộc tính được dùng làm đại diện cho một thuộc tính thuộc tính nhạy cảm. Ví dụ: một mã bưu chính của cá nhân này có thể được sử dụng làm proxy cho thu nhập của họ, chủng tộc hoặc dân tộc.

hàm thuần tuý

Một hàm có kết quả chỉ dựa trên dữ liệu đầu vào và không có cạnh các hiệu ứng. Cụ thể, hàm thuần tuý không sử dụng hoặc thay đổi bất kỳ trạng thái toàn cục nào, chẳng hạn như nội dung của tệp hoặc giá trị của biến bên ngoài hàm.

Bạn có thể dùng các hàm thuần tuý để tạo mã an toàn cho luồng, nhờ vậy mà sẽ có lợi khi phân đoạn mã model trên nhiều khối tăng tốc.

Phương thức chuyển đổi hàm JAX cần đến rằng các hàm đầu vào là hàm thuần tuý.

Hỏi

Hàm Q

#rl

Trong tính năng học tăng cường, hàm mà dự đoán lợi tức dự kiến khi đạt được action trong một tiểu bang rồi tuân theo một chính sách cụ thể.

Hàm Q còn được gọi là hàm giá trị hành động trạng thái.

Q-learning

#rl

Trong hoạt động học tăng cường, một thuật toán cho phép một tác nhân để tìm hiểu hàm Q tối ưu của một Quy trình quyết định Markov bằng cách áp dụng Phương trình Bellman. Mô hình quy trình quyết định Markov môi trường.

số phân vị

Mỗi bộ chứa trong bộ chứa lượng tử.

phân nhóm số phân vị

Phân phối giá trị của một tính năng vào nhóm để mỗi nhóm nhóm chứa cùng một số lượng ví dụ (hoặc gần như giống nhau). Ví dụ: hình dưới đây chia 44 điểm thành 4 nhóm, mỗi nhóm gồm 11 điểm. Để mỗi nhóm trong hình chứa dữ liệu cùng số điểm, một số nhóm lại có chiều rộng khác với các giá trị x.

44 điểm dữ liệu được chia thành 4 nhóm, mỗi nhóm 11 điểm.
          Mặc dù mỗi nhóm chứa cùng số lượng điểm dữ liệu,
          một số nhóm chứa nhiều giá trị tính năng hơn các nhóm khác
          .

lượng tử hoá

Thuật ngữ quá tải có thể được dùng theo bất kỳ cách nào sau đây:

  • Triển khai tính năng phân giỏ lượng tử về một tính năng cụ thể.
  • Chuyển đổi dữ liệu thành các số không và một để lưu trữ, huấn luyện nhanh hơn, và suy luận. Vì dữ liệu Boolean có tác động mạnh hơn đến độ nhiễu và lỗi hơn là các định dạng khác, thì lượng tử hoá có thể cải thiện độ chính xác của mô hình. Các kỹ thuật định lượng bao gồm làm tròn, cắt bớt và tạo thùng.
  • Giảm số lượng bit được sử dụng để lưu trữ mô hình tham số. Ví dụ: giả sử các tham số của mô hình là được lưu trữ dưới dạng số dấu phẩy động 32 bit. Quá trình lượng tử chuyển đổi những lượt chuyển đổi đó các tham số từ 32 bit xuống còn 4, 8 hoặc 16 bit. Việc định lượng hoá giúp giảm sau:

    • Mức sử dụng điện toán, bộ nhớ, ổ đĩa và mạng
    • Thời gian để suy luận
    • Mức tiêu thụ điện năng

    Tuy nhiên, lượng tử hoá đôi khi làm giảm độ chính xác của mô hình dự đoán.

danh sách chờ

#TensorFlow

Thao tác của TensorFlow triển khai dữ liệu hàng đợi cấu trúc. Thường được sử dụng trong I/O.

Điểm

RAG

#fundamentals

Từ viết tắt của công nghệ tạo tăng cường truy xuất.

khu rừng ngẫu nhiên

#df

Tập hợp cây quyết định trong trong đó mỗi cây quyết định được huấn luyện bằng một yếu tố nhiễu ngẫu nhiên cụ thể, chẳng hạn như bỏ túi.

Rừng ngẫu nhiên là một loại rừng quyết định.

chính sách ngẫu nhiên

#rl

Trong quá trình học tăng cường, một chính sách chọn một thao tác một cách ngẫu nhiên.

thứ hạng

Một loại hình học có giám sát có mục tiêu của bạn là sắp xếp một danh sách các mặt hàng.

thứ hạng (thứ hạng)

Vị trí thứ tự của một lớp trong một bài toán học máy được phân loại lớp từ cao nhất đến thấp nhất. Ví dụ: xếp hạng hành vi hệ thống có thể xếp hạng phần thưởng cho một chú chó từ cao nhất (một miếng bít tết) đến thấp nhất (cải xoăn héo).

thứ hạng (Tensor)

#TensorFlow

Số lượng phương diện trong Tensor. Ví dụ: đại lượng vô hướng có bậc 0, vectơ có bậc 1 và ma trận có bậc 2.

Đừng nhầm lẫn với thứ hạng (thứ hạng).

người đánh giá

#fundamentals

Người cung cấp nhãn cho ví dụ. "Người chú thích" là một tên khác của người đánh giá.

mức độ ghi nhớ

Chỉ số cho mô hình phân loại giúp trả lời câu hỏi sau:

Khi thông tin thực tếlớp giá trị dương, tỷ lệ phần trăm kết quả dự đoán mô hình có phải là lớp khẳng định không?

Dưới đây là công thức:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

trong đó:

  • dương thực có nghĩa là mô hình đã dự đoán chính xác về lớp dương.
  • âm tính giả (FN) có nghĩa là mô hình đã dự đoán nhầm lẫn lớp phủ định.

Ví dụ: giả sử mô hình của bạn đưa ra 200 cụm từ gợi ý dựa trên các ví dụ sự thật là một vấn đề tích cực. Trong số 200 cụm từ gợi ý này:

  • 180 kết quả là dương tính thật.
  • 20 kết quả là âm tính giả.

Trong trường hợp này:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Xem phần Phân loại: Độ chính xác, mức độ gợi nhớ, độ chính xác và nội dung liên quan chỉ số để biết thêm thông tin.

hệ thống đề xuất

#recsystems

Một hệ thống chọn cho mỗi người dùng một nhóm tương đối nhỏ gồm các các mục trong một tập sao lục lớn. Ví dụ: hệ thống đề xuất video có thể đề xuất hai video từ kho video gồm 100.000 video, chọn CasablancaCâu chuyện của Phi hành đoàn mỹ phẩm dành cho một người dùng và Wonder WomenBlack Panther cho một trò chơi khác. Hệ thống đề xuất video có thể đưa ra đề xuất dựa trên các yếu tố như:

  • Phim mà những người dùng tương tự đã xếp hạng hoặc xem.
  • Thể loại, đạo diễn, diễn viên, đối tượng nhân khẩu học mục tiêu...

Đơn vị tuyến tính chỉnh sửa (ReLU)

#fundamentals

Hàm kích hoạt có hành vi sau:

  • Nếu đầu vào là số âm hoặc 0 thì đầu ra sẽ bằng 0.
  • Nếu đầu vào là số dương thì đầu ra sẽ bằng đầu vào.

Ví dụ:

  • Nếu đầu vào là -3 thì đầu ra là 0.
  • Nếu đầu vào là +3, thì đầu ra là 3.0.

Dưới đây là cốt truyện của ReLU:

Biểu đồ Cartesian gồm hai dòng. Dòng đầu tiên có hằng số
          giá trị y bằng 0, chạy dọc theo trục x từ -vô cực,0 đến 0,-0.
          Dòng thứ hai bắt đầu từ 0,0. Đường này có hệ số góc +1, vì vậy
          nó chạy từ 0,0 đến +vô cùng,+vô cùng.

ReLU là một hàm kích hoạt rất phổ biến. Mặc dù có hành vi đơn giản, ReLU vẫn cho phép mạng nơron tìm hiểu nonlinear mối quan hệ giữa tính năngnhãn.

mạng nơron tái phát

#seq

Mạng nơron được chủ ý chạy nhiều lần, khi các phần của mỗi lần chạy cấp dữ liệu cho lần chạy tiếp theo. Cụ thể, các lớp đã ẩn từ lần chạy trước cung cấp một phần dữ liệu đầu vào vào cùng một lớp ẩn trong lần chạy tiếp theo. Mạng nơron tái phát đặc biệt hữu ích trong việc đánh giá trình tự, để các lớp ẩn có thể học từ các lần chạy mạng nơron trước đó ở các phần trước của trình tự.

Ví dụ: hình sau đây cho thấy một mạng nơron lặp lại chạy bốn lần. Lưu ý rằng các giá trị đã học được trong các lớp ẩn từ lần chạy đầu tiên sẽ trở thành một phần của đầu vào cho cùng các lớp ẩn trong lần chạy thứ hai. Tương tự, các giá trị đã học trong lớp ẩn trên lần chạy thứ hai sẽ trở thành một phần của dữ liệu đầu vào cho cùng một lớp ẩn trong lần chạy thứ ba. Bằng cách này, mạng nơron lặp lại sẽ dần huấn luyện và dự đoán ý nghĩa của toàn bộ chuỗi chứ không chỉ dự đoán ý nghĩa từng từ riêng lẻ.

Một RNN chạy bốn lần để xử lý bốn từ đầu vào.

mô hình hồi quy

#fundamentals

Một mô hình đưa ra dự đoán dạng số một cách chính thức. (Ngược lại, mô hình phân loại sẽ tạo một lớp prediction.) Ví dụ: sau đây là tất cả các mô hình hồi quy:

  • Mô hình dự đoán giá trị của một ngôi nhà nhất định, chẳng hạn như 423.000 Euro.
  • Một mô hình dự đoán tuổi thọ của một cây nhất định, chẳng hạn như 23,2 năm.
  • Một mô hình dự báo lượng mưa sẽ rơi ở một thành phố cụ thể trong sáu giờ tiếp theo, chẳng hạn như 0,18 inch.

Hai loại mô hình hồi quy phổ biến là:

  • Hồi quy tuyến tính: tìm đường phù hợp nhất khớp giá trị nhãn với các đối tượng.
  • Hồi quy logistic, từ đó tạo ra xác suất từ 0,0 đến 1,0 mà sau đó một hệ thống thường ánh xạ đến một lớp truy vấn dự đoán.

Không phải mọi mô hình đưa ra dự đoán dạng số đều là mô hình hồi quy. Trong một số trường hợp, dự đoán dạng số chỉ thực sự là một mô hình phân loại có tên lớp dạng số. Ví dụ: một mô hình dự đoán mã bưu chính dạng số là một mô hình phân loại, không phải là mô hình hồi quy.

điều hoà

#fundamentals

Bất kỳ cơ chế nào làm giảm khả năng trang bị quá mức. Các kiểu điều chỉnh phổ biến bao gồm:

Quy ước cũng có thể được định nghĩa là hình phạt đối với sự phức tạp của mô hình.

tỷ lệ điều chỉnh

#fundamentals

Số chỉ định tầm quan trọng tương đối của chuẩn hoá trong quá trình đào tạo. Nâng tỷ lệ điều chỉnh giảm quá mức phù hợp, nhưng vẫn có thể giảm công suất dự đoán của mô hình. Ngược lại, hãy giảm hoặc bỏ qua thì tỷ lệ điều chỉnh tăng lên.

học tăng cường (rl)

#rl

Một nhóm thuật toán học một chính sách tối ưu, trong đó mục tiêu là tối đa hoá lợi tức khi tương tác với môi trường. Ví dụ: phần thưởng cuối cùng của hầu hết trò chơi là chiến thắng. Các hệ thống học tập củng cố có thể trở thành chuyên gia chơi trò chơi phức tạp trò chơi bằng cách đánh giá trình tự các nước đi trước đó trong trò chơi mà cuối cùng là dẫn đến các chiến thắng và các chuỗi cuối cùng dẫn đến thua cuộc.

Tăng cường học hỏi từ ý kiến phản hồi của con người (rlHF)

#generativeAI
#rl

Sử dụng ý kiến phản hồi của nhân viên đánh giá để cải thiện chất lượng các câu trả lời của mô hình. Ví dụ: cơ chế RLHF có thể yêu cầu người dùng xếp hạng chất lượng của một mô hình trả lời bằng biểu tượng cảm xúc 👍 hoặc 👎. Sau đó, hệ thống có thể điều chỉnh các câu trả lời trong tương lai dựa trên phản hồi đó.

ReLU

#fundamentals

Từ viết tắt của Đơn vị tuyến tính được chỉnh sửa.

vùng đệm phát lại

#rl

Trong các thuật toán giống như DQN, bộ nhớ mà tác nhân sử dụng lưu trữ các chuyển đổi trạng thái để sử dụng trong phát lại trải nghiệm.

hàng nhái

Một bản sao của bộ huấn luyện hoặc mô hình, thường trên một máy khác. Ví dụ: hệ thống có thể sử dụng để triển khai tính song song dữ liệu:

  1. Đặt bản sao của một mô hình hiện có trên nhiều máy.
  2. Gửi các tập hợp con khác nhau của tập huấn luyện đến từng bản sao.
  3. Tổng hợp thông tin cập nhật về tham số.

thiên kiến báo cáo

#fairness

Thực tế là tần suất mà mọi người viết về hành động, kết quả hoặc thuộc tính không phản ánh thế giới thực tần suất hoặc mức độ đặc trưng của một thuộc tính của một lớp cá nhân. Thành kiến trong báo cáo có thể ảnh hưởng đến bố cục dữ liệu mà hệ thống học máy học được.

Ví dụ: trong sách, từ cười phổ biến hơn thở trong. Mô hình học máy ước tính tần suất tương đối của cười và thở từ kho sách có lẽ sẽ quyết định cười bình thường hơn hít thở.

biểu diễn

Quá trình ánh xạ dữ liệu tới các tính năng hữu ích.

xếp hạng lại

#recsystems

Giai đoạn cuối cùng của hệ thống đề xuất, trong thời gian đó, các mục được tính điểm có thể được chấm điểm lại theo một số (thường là thuật toán không phải học máy). Việc xếp hạng lại sẽ đánh giá danh sách các mục được tạo bởi giai đoạn tính điểm, thực hiện các hành động như:

  • Loại bỏ các mặt hàng mà người dùng đã mua.
  • Tăng điểm số cho các mục mới hơn.

tạo tăng cường truy xuất (RAG)

#fundamentals

Một kỹ thuật để cải thiện chất lượng của Đầu ra mô hình ngôn ngữ lớn (LLM) bằng cách dựa vào các nguồn kiến thức truy xuất được sau khi mô hình được huấn luyện. RAG cải thiện độ chính xác của các câu trả lời cho các mô hình ngôn ngữ lớn bằng cách cung cấp cho các mô hình ngôn ngữ lớn (LLM) đã được huấn luyện quyền truy cập vào thông tin truy xuất được từ các cơ sở kiến thức hoặc tài liệu đáng tin cậy.

Sau đây là những động lực phổ biến liên quan đến việc sử dụng tính năng tạo tăng cường truy xuất:

  • Tăng độ chính xác thực tế của các câu trả lời do mô hình tạo ra.
  • Cấp cho mô hình này quyền tiếp cận kiến thức mà mô hình không được huấn luyện.
  • Thay đổi kiến thức mà mô hình sử dụng.
  • Bật mô hình để trích dẫn nguồn.

Ví dụ: giả sử một ứng dụng hoá học sử dụng PaLM API để tạo bản tóm tắt liên quan đến truy vấn của người dùng. Khi phần phụ trợ của ứng dụng nhận được một truy vấn, phần phụ trợ sẽ:

  1. Tìm kiếm dữ liệu ("truy xuất") có liên quan đến truy vấn của người dùng.
  2. Thêm ("tăng cường") dữ liệu hoá học có liên quan vào truy vấn của người dùng.
  3. Hướng dẫn LLM tạo bản tóm tắt dựa trên dữ liệu được thêm vào.

phím return

#rl

Trong học tăng cường, dựa trên một chính sách và một trạng thái nhất định, trả về là tổng của tất cả phần thưởngtác nhân sẽ nhận được khi tuân thủ chính sách của trạng thái đến cuối tập. Nhân viên hỗ trợ tính đến tính chất chậm trễ của phần thưởng dự kiến bằng cách chiết khấu phần thưởng theo chuyển đổi trạng thái cần thiết để nhận được phần thưởng.

Do đó, nếu hệ số chiết khấu là \(\gamma\)và \(r_0, \ldots, r_{N}\) biểu thị phần thưởng cho đến cuối tập, sau đó tính toán lợi nhuận như sau:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

phần thưởng

#rl

Trong học tăng cường, kết quả dạng số sau khi làm một bài actiontrạng thái, như được xác định bằng môi trường.

điều chỉnh độ cao

Từ đồng nghĩa với quy ước L2. Thuật ngữ quy trình điều chỉnh dãy số được sử dụng thường xuyên hơn trong dữ liệu thống kê thuần tuý trong khi đó L2 chính quy được dùng thường xuyên hơn trong công nghệ học máy.

RNN

#seq

Từ viết tắt của mạng nơron tái phát.

Đường cong ROC (đặc tính hoạt động của máy thu)

#fundamentals

Biểu đồ về tỷ lệ dương tính thực so với tỷ lệ dương tính giả đối với các sản phẩm khác nhau ngưỡng phân loại ở dạng tệp nhị phân của bạn.

Hình dạng của đường cong ROC cho thấy khả năng của mô hình phân loại nhị phân để phân tách lớp khẳng định khỏi lớp phủ định. Ví dụ: giả sử rằng mô hình phân loại nhị phân sẽ tách hoàn toàn mọi giá trị âm các lớp từ tất cả các lớp tích cực:

Một dòng số có 8 ví dụ dương ở bên phải và
          7 ví dụ phủ định ở bên trái.

Đường cong ROC của mô hình trước đó có dạng như sau:

Đường cong ROC. Trục x là Tỷ lệ dương tính giả và trục y
          là Tỷ lệ dương tính thực. Đường cong có hình chữ L ngược. Đường cong
          bắt đầu tại (0,0,0,0) và đi thẳng đến (0,0,1,0). Sau đó, đường cong
          đi từ (0,0,1,0) đến (1,0,1,0).

Ngược lại, hình minh hoạ sau đây vẽ biểu đồ hồi quy logistic thô các giá trị của một mô hình rất tệ không thể tách các lớp phủ định khỏi những lớp học tích cực:

Dòng số có ví dụ dương và lớp phủ định
          được kết hợp hoàn toàn.

Đường cong ROC của mô hình này được thể hiện như sau:

Đường cong ROC (ROC) là một đường thẳng từ (0,0,0,0)
          đến (1,0,1,0).

Trong khi đó, trong thực tế, hầu hết các mô hình phân loại nhị phân đều tách riêng lớp học tích cực và tiêu cực ở một mức độ nào đó, nhưng thường không hoàn hảo. Vì vậy, một đường cong ROC điển hình nằm ở đâu đó giữa hai cực:

Đường cong ROC. Trục x là Tỷ lệ dương tính giả và trục y
          là Tỷ lệ dương tính thực. Đường cong ROC gần đúng một cung tròn rung
          di chuyển qua các điểm la bàn từ Tây sang Bắc.

Điểm trên đường cong ROC gần nhất với (0,0,1,0) về mặt lý thuyết xác định ngưỡng phân loại lý tưởng. Tuy nhiên, một số vấn đề thực tế khác ảnh hưởng đến việc lựa chọn ngưỡng phân loại lý tưởng. Ví dụ: có lẽ âm tính giả gây đau đớn hơn nhiều so với dương tính giả.

Chỉ số bằng số gọi là AUC tóm tắt đường cong ROC thành một giá trị dấu phẩy động duy nhất.

nhắc vai trò

#language
#generativeAI

Một phần không bắt buộc trong lời nhắc giúp xác định đối tượng mục tiêu để nhận phản hồi của mô hình AI tạo sinh. Không có vai trò câu lệnh, mô hình ngôn ngữ lớn sẽ đưa ra câu trả lời có thể hữu ích hoặc không hữu ích đối với người đặt câu hỏi. Với câu lệnh nhập vai trò, một ngôn ngữ lớn có thể trả lời theo cách phù hợp và hữu ích hơn đối với một đối tượng mục tiêu cụ thể. Ví dụ: phần lời nhắc về vai trò trong phần sau lời nhắc được in đậm:

  • Tóm tắt bài viết này cho bằng tiến sĩ kinh tế.
  • Mô tả cơ chế hoạt động của thuỷ triều cho trẻ 10 tuổi.
  • Giải thích cuộc khủng hoảng tài chính 2008. Hãy nói như bạn có thể với một đứa trẻ nhỏ, hoặc chó săn lông vàng.

gốc

#df

Nút bắt đầu (nút đầu tiên condition) trong cây quyết định. Theo quy ước, sơ đồ đặt phần gốc ở đầu cây quyết định. Ví dụ:

Cây quyết định có hai điều kiện và ba lá. Chiến lược phát hành đĩa đơn
          điều kiện bắt đầu (x > 2) là căn.

thư mục gốc

#TensorFlow

Thư mục mà bạn chỉ định để lưu trữ các thư mục con của TensorFlow tệp điểm kiểm tra và sự kiện của nhiều mô hình.

sai số trung bình bình phương (RMSE)

#fundamentals

Căn bậc hai của Lỗi bình phương trung bình.

bất biến khi xoay

#image

Trong một bài toán phân loại hình ảnh, khả năng thuật toán phân loại hình ảnh ngay cả khi hướng của hình ảnh thay đổi. Ví dụ: thuật toán vẫn có thể xác định một vợt tennis cho dù nó đang hướng lên, sang một bên hoặc xuống dưới. Lưu ý rằng bất biến xoay vòng không phải lúc nào cũng được mong muốn; ví dụ: bạn không nên phân loại 9 lộn ngược là 9.

Hãy xem thêm bất biến dịchbất biến kích thước.

R bình phương

Chỉ số hồi quy cho biết mức độ biến động trong một nhãn là do một tính năng riêng lẻ hoặc một bộ tính năng. R bình phương là một giá trị nằm trong khoảng từ 0 đến 1, bạn có thể hiểu như sau:

  • R bình phương bằng 0 có nghĩa là không có biến thể nào của nhãn là do giá trị bộ tính năng.
  • R bình phương bằng 1 có nghĩa là tất cả biến thể của nhãn là do giá trị bộ tính năng.
  • R bình phương từ 0 đến 1 cho biết mức độ mà nhãn biến thể có thể được dự đoán từ một tính năng hoặc tập hợp tính năng cụ thể. Ví dụ: R bình phương bằng 0, 10 có nghĩa là 10% phương sai trên nhãn là do bộ tính năng, R bình phương 0,20 có nghĩa là 20% là do bộ tính năng và cứ thế tiếp tục.

R bình phương là bình phương của Tương quan Pearson hệ số giữa các giá trị mà mô hình dự đoán và thông tin thực tế.

CN

thiên vị lấy mẫu

#fairness

Hãy xem phần thiên vị lựa chọn.

lấy mẫu bằng phương pháp thay thế

#df

Phương pháp chọn các mục từ một tập hợp các mục ứng viên có cùng có thể chọn mục nhiều lần. Cụm từ "có sản phẩm thay thế" nghĩa là sau mỗi lần lựa chọn, mục đã chọn sẽ được trả về nhóm mục ứng viên. Phương pháp nghịch đảo, lấy mẫu mà không thay thế, có nghĩa là bạn chỉ có thể chọn một mục ứng viên một lần.

Ví dụ: hãy xem xét nhóm trái cây sau đây:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Giả sử hệ thống chọn ngẫu nhiên fig làm mục đầu tiên. Nếu sử dụng phương thức lấy mẫu có thay thế, thì hệ thống sẽ chọn phương pháp mục thứ hai từ tập hợp sau:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Vâng, giá trị này vẫn được đặt giống như trước, nên hệ thống có thể chọn lại fig.

Nếu sử dụng phương thức lấy mẫu mà không thay thế thì sau khi đã chọn, bạn không thể lấy mẫu đã chọn lại. Ví dụ: nếu hệ thống chọn ngẫu nhiên fig làm giá trị mẫu đầu tiên, sau đó bạn không thể chọn lại fig. Do đó, hệ thống chọn mẫu thứ hai trong tập hợp sau (đã rút gọn):

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

Định dạng nên dùng để lưu và khôi phục các mô hình TensorFlow. SavedModel là một định dạng chuyển đổi tuần tự trung lập về ngôn ngữ và có thể khôi phục, cho phép các hệ thống và công cụ cấp cao hơn để sản xuất, tiêu thụ và cải tiến TensorFlow người mẫu.

Xem phân cảnh Đang lưu và khôi phục trong phần Hướng dẫn lập trình TensorFlow để biết đầy đủ thông tin.

Vận chuyển hàng tiết kiệm

#TensorFlow

Đối tượng TensorFlow chịu trách nhiệm lưu các điểm kiểm tra mô hình.

đại lượng vô hướng

Một số hoặc một chuỗi đơn có thể được biểu diễn dưới dạng tensor của thứ hạng 0. Ví dụ: như sau mỗi dòng mã tạo ra một đại lượng vô hướng trong TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

chuyển tỷ lệ

Bất kỳ biến đổi hoặc kỹ thuật toán học nào làm thay đổi phạm vi của nhãn và/hoặc giá trị tính năng. Một số hình thức chuyển tỷ lệ rất hữu ích cho việc biến đổi chẳng hạn như chuẩn hoá.

Sau đây là một số hình thức mở rộng phổ biến của việc mở rộng quy mô hữu ích trong công nghệ Học máy:

  • tỷ lệ tuyến tính, thường sử dụng kết hợp phép trừ và phép chia để thay thế giá trị ban đầu bằng một số từ -1 đến +1 hoặc trong khoảng từ 0 đến 1.
  • tỷ lệ lôgarit, thay thế giá trị ban đầu bằng giá trị lôgarit.
  • Chuẩn hoá điểm Z, thay thế cho giá trị ban đầu là một giá trị dấu phẩy động biểu thị số lượng độ lệch chuẩn so với giá trị trung bình của đối tượng đó.

học-scikit

Một nền tảng học máy nguồn mở phổ biến. Xem scikit-learn.org.

ghi điểm

#recsystems

Thuộc hệ thống đề xuất mà cung cấp giá trị hoặc thứ hạng cho mỗi mặt hàng do Giai đoạn tạo đề xuất.

thiên kiến lựa chọn

#fairness

Lỗi trong kết luận được rút ra từ dữ liệu được lấy mẫu do quy trình lựa chọn tạo ra sự khác biệt có hệ thống giữa các mẫu được quan sát trong dữ liệu cũng như những chỉ số không được ghi nhận. Có các dạng thiên lệch lựa chọn sau đây:

  • thiên vị bao phủ: Tập hợp được biểu thị trong tập dữ liệu khớp với tổng số mà mô hình học máy đang tạo ra về các dự đoán đó.
  • độ chệch lấy mẫu: Dữ liệu không được thu thập ngẫu nhiên từ nhóm mục tiêu.
  • thiên vị không phản hồi (còn gọi là thiên vị tham gia): Người dùng chọn không tham gia khảo sát ở một số nhóm nhất định với tỷ lệ khác với người dùng các nhóm khác.

Ví dụ: giả sử bạn đang tạo một mô hình học máy dự đoán sự hứng thú của mọi người khi xem một bộ phim. Để thu thập dữ liệu huấn luyện, bạn phát một bài khảo sát cho mọi người ở hàng ghế đầu tiên đang chiếu phim. Nói cách khác, cách này có vẻ hợp lý để thu thập một tập dữ liệu; tuy nhiên, hình thức thu thập dữ liệu này có thể đưa ra các dạng thiên lệch lựa chọn sau đây:

  • thiên kiến bao phủ: Bằng cách lấy mẫu từ tổng thể đã chọn xem phim, dự đoán của mô hình của bạn có thể không tổng quát cho mọi người chưa thể hiện mức độ quan tâm đến bộ phim đó.
  • thiên vị lấy mẫu: Thay vì lấy mẫu ngẫu nhiên từ dân số dự kiến (tất cả những người tại phim), bạn chỉ lấy mẫu những người ở hàng đầu. Có thể những người ngồi ở hàng đầu quan tâm đến bộ phim hơn những người ở các hàng khác.
  • thiên kiến khi không phản hồi: Nhìn chung, những người có ý kiến mạnh mẽ có xu hướng để trả lời các bản khảo sát không bắt buộc thường xuyên hơn so với những người có mức độ nhẹ ý kiến. Vì khảo sát phim là không bắt buộc nên câu trả lời có nhiều khả năng tạo nên phân phối hai phương thức so với phân phối bình thường (hình chuông).

tự chú ý (còn được gọi là tầng tự chú ý)

#language

Một lớp mạng nơron biến đổi một chuỗi mục nhúng (ví dụ: mục nhúng mã thông báo) vào một chuỗi nhúng khác. Mỗi mục nhúng trong chuỗi đầu ra là được tạo bằng cách tích hợp thông tin từ các phần tử của chuỗi đầu vào thông qua cơ chế chú ý.

Phần self của sự tự chú ý đề cập đến trình tự tham gia vào chứ không phải là với một số ngữ cảnh khác. Quan tâm đến bản thân là một trong những thành phần cho Transformers và sử dụng tính năng tra cứu từ điển chẳng hạn như "truy vấn", "khoá" và "giá trị".

Một tầng tự chú ý bắt đầu bằng một chuỗi các biểu diễn đầu vào, một cho từng từ. Biểu diễn đầu vào cho một từ có thể là một đơn giản nhúng. Đối với mỗi từ trong một chuỗi đầu vào, mạng tính điểm mức độ liên quan của từ với mọi thành phần trong toàn bộ chuỗi các từ. Điểm số mức độ liên quan xác định giá trị đại diện cuối cùng của từ đó kết hợp biểu diễn của các từ khác.

Ví dụ: hãy xem xét câu sau:

Con vật không qua đường vì quá mệt.

Hình minh hoạ sau đây (từ Transformer: Cấu trúc mạng nơron mới cho ngôn ngữ Thấu hiểu) cho thấy kiểu chú ý của một lớp tự chú ý cho đại từ it, với độ tối của mỗi dòng cho biết đóng góp của mỗi từ đối với đại diện:

Câu sau đây xuất hiện hai lần: Con vật không vượt qua
          vì quá mệt. Các đường kẻ nối đại từ nhân xưng đó
          một câu cho năm mã thông báo (The, động vật, đường phố, nó và
          dấu chấm) trong câu khác.  Dòng giữa đại từ nhân xưng
          và từ động vật là mạnh nhất.

Lớp tự chú ý sẽ đánh dấu những từ có liên quan đến "it". Trong phần này viết hoa, lớp chú ý đã học cách đánh dấu những từ có thể tham chiếu đến việc chỉ định trọng số cao nhất cho động vật.

Đối với một trình tự gồm n mã thông báo, sự chú ý tự chú ý sẽ biến đổi một trình tự trong số mục nhúng n lần riêng biệt, một lần tại mỗi vị trí trong chuỗi.

Ngoài ra, hãy tham khảo thêm phần chú ýtính năng tự chú ý nhiều đầu.

học tập tự giám sát

Một nhóm kỹ thuật để chuyển đổi bài toán máy học không giám sát vào bài toán học máy có giám sát bằng cách tạo nhãn thay thế từ các ví dụ chưa được gắn nhãn.

Một số mô hình dựa trên Transformer (chẳng hạn như BERT) sử dụng tự giám sát.

Chương trình đào tạo tự giám sát là phương pháp học bán có giám sát.

tự đào tạo

Một biến thể của hình thức học tự giám sát, đó là đặc biệt hữu ích khi tất cả các điều kiện sau đây đều đúng:

Phương pháp tự huấn luyện hoạt động bằng cách lặp lại qua hai bước sau cho đến khi mô hình ngừng cải thiện:

  1. Sử dụng công nghệ học máy có giám sát để huấn luyện một mô hình dựa trên các ví dụ có gắn nhãn.
  2. Sử dụng mô hình được tạo ở Bước 1 để tạo dự đoán (nhãn) trên các ví dụ chưa gắn nhãn, chuyển những nội dung có độ tin cậy cao vào các ví dụ có gắn nhãn kèm theo nhãn dự đoán.

Lưu ý rằng mỗi lần lặp lại của Bước 2 sẽ thêm nhiều ví dụ được gắn nhãn cho Bước 1 để huấn luyện.

học bán có giám sát

Huấn luyện một mô hình về dữ liệu trong đó một số ví dụ huấn luyện có nhãn nhưng những người khác thì không. Một kỹ thuật cho phương pháp học bán có giám sát là suy luận nhãn cho các ví dụ chưa gắn nhãn, rồi huấn luyện dựa trên các nhãn dự đoán để tạo mô hình. Phương pháp học bán giám sát có thể hữu ích nếu việc mua nhãn tốn kém nhưng rất nhiều ví dụ không được gắn nhãn.

Tự đào tạo là một kỹ thuật dành cho phương pháp bán được giám sát học tập.

thuộc tính nhạy cảm

#fairness
Một đặc điểm của con người có thể được xem xét đặc biệt về mặt pháp lý, vì lý do đạo đức, xã hội hoặc cá nhân.

phân tích cảm nhận

#language

Sử dụng các thuật toán thống kê hoặc học máy để xác định thái độ tổng thể (tích cực hay tiêu cực) đối với dịch vụ, sản phẩm, tổ chức hoặc chủ đề. Ví dụ: sử dụng hiểu ngôn ngữ tự nhiên, một thuật toán có thể thực hiện phân tích quan điểm dựa trên phản hồi bằng văn bản của một khoá học đại học để xác định bằng cấp của sinh viên thường thích hoặc không thích khoá học.

mô hình chuỗi

#seq

Một mô hình có dữ liệu đầu vào có sự phụ thuộc tuần tự. Ví dụ: dự đoán video tiếp theo được xem từ một chuỗi video đã xem trước đó.

tác vụ theo trình tự

#language

Tác vụ chuyển đổi một chuỗi đầu vào gồm mã thông báo thành đầu ra chuỗi mã thông báo. Ví dụ: hai loại trình tự phổ biến nhiệm vụ là:

  • Người dịch:
    • Chuỗi nhập mẫu: "Tôi yêu bạn".
    • Trình tự đầu ra mẫu: "Je t'aime."
  • Trả lời câu hỏi:
    • Chuỗi nhập mẫu: "Tôi có cần xe ô tô của mình ở Thành phố New York không?"
    • Chuỗi đầu ra mẫu: "No. Vui lòng để xe ở nhà."

đang phân phát

Quá trình cung cấp mô hình đã huấn luyện để cung cấp thông tin dự đoán thông qua suy luận trực tuyến hoặc suy luận ngoại tuyến.

hình dạng (Tensor)

Số lượng phần tử trong mỗi phương diện của một tensor. Hình dạng được biểu thị dưới dạng danh sách các số nguyên. Ví dụ: tensor hai chiều sau có hình dạng [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow sử dụng định dạng hàng chính (kiểu C) để thể hiện thứ tự của đó là lý do hình dạng trong TensorFlow là [3,4] thay vì [4,3]. Nói cách khác, trong TensorFlow Tensor có hai chiều, hình dạng là [số hàng, số cột].

Hình dạng tĩnh là một hình dạng tensor được biết tại thời điểm biên dịch.

Hình dạng động không xác định tại thời gian biên dịch và do đó phụ thuộc vào dữ liệu thời gian chạy. Tensor này có thể được biểu thị bằng một phương diện phần giữ chỗ trong TensorFlow, như trong [3, ?].

phân đoạn

#TensorFlow
#GoogleCloud

Sự phân chia logic của tập hợp huấn luyện hoặc mô hình. Thông thường, một số quá trình tạo phân đoạn bằng cách chia ví dụ hoặc tham số (thường là) đoạn có kích thước bằng nhau. Sau đó, mỗi phân đoạn được chỉ định cho một máy khác.

Việc phân đoạn một mô hình được gọi là mô hình song song; dữ liệu phân đoạn được gọi là tính song song dữ liệu.

co ngót

#df

Siêu tham số trong Tính năng tăng độ dốc giúp kiểm soát trang bị quá mức. Thu hẹp khi tăng độ dốc tương tự như tốc độ học tậpgiảm độ chuyển màu. Độ co lại là số thập phân có giá trị từ 0,0 đến 1,0. Giá trị co rút thấp hơn giúp giảm hiện tượng quá tải hơn giá trị co rút lớn hơn.

hàm sigmoid

#fundamentals

Một hàm toán học "squishes" giá trị đầu vào vào trong một dải ô bị giới hạn, thường có giá trị từ 0 đến 1 hoặc -1 đến +1. Tức là bạn có thể chuyển bất kỳ số nào (hai, một triệu, tỷ lệ âm, bất kỳ) nào thành một sigmoid và đầu ra vẫn sẽ nằm trong phạm vi bị hạn chế. Biểu đồ của hàm kích hoạt sigmoid có dạng như sau:

Một biểu đồ cong hai chiều có các giá trị x bao phủ miền
          từ vô cực đến + dương, còn giá trị y nằm trong khoảng từ gần 0 đến
          gần 1. Khi x bằng 0, y là 0,5. Độ dốc của đường cong luôn luôn
          là số dương, có độ dốc cao nhất (0,0,5) và giảm dần
          hệ số góc khi giá trị tuyệt đối của x tăng.

Hàm sigmoid có một số cách sử dụng trong học máy, bao gồm:

thước đo độ tương đồng

#clustering

Trong thuật toán nhóm, chỉ số được dùng để xác định mức độ tương đồng (tương tự nhau) của hai ví dụ bất kỳ.

chương trình đơn lẻ / nhiều dữ liệu (SPMD)

Kỹ thuật song song trong đó chạy cùng một phép tính trên nhiều đầu vào dữ liệu song song trên các thiết bị khác nhau. Mục tiêu của SPMD là thu được kết quả nhanh chóng hơn. Đây là kiểu lập trình song song phổ biến nhất.

bất biến khi kích thước

#image

Trong một bài toán phân loại hình ảnh, khả năng thuật toán phân loại hình ảnh ngay cả khi kích thước của hình ảnh thay đổi. Ví dụ: thuật toán vẫn có thể xác định cho dù nó tiêu thụ 2M pixel hay 200K pixel. Xin lưu ý rằng ngay cả những giá trị tốt nhất các thuật toán phân loại hình ảnh vẫn có những giới hạn thực tế về sự bất biến kích thước. Ví dụ: thuật toán (hoặc con người) khó có thể phân loại chính xác một hình ảnh con mèo chỉ tiêu thụ 20 pixel.

Hãy xem thêm bất biến dịchbất biến xoay.

phác thảo

#clustering

Trong công nghệ học máy không được giám sát, một danh mục thuật toán thực hiện phân tích sự tương đồng sơ bộ vào các ví dụ. Các thuật toán phác thảo sử dụng hàm băm nhạy cảm với địa phương để xác định các điểm có khả năng tương tự nhau, sau đó nhóm chúng vào nhóm.

Phương pháp phác thảo giúp giảm yêu cầu tính toán cho các phép tính tương tự trên các tập dữ liệu lớn. Thay vì tính độ tương đồng cho mỗi đơn vị cặp ví dụ trong tập dữ liệu, chúng tôi chỉ tính độ tương tự cho mỗi cặp ví dụ cặp điểm trong mỗi nhóm.

skip-gram

#language

Một n-gram có thể bỏ qua (hoặc "bỏ qua") các từ khỏi bản gốc ngữ cảnh, nghĩa là từ N có thể không nằm liền kề nhau. Xem thêm chính xác là "k-skip-n-gram" là n-gam mà trong đó có tối đa k từ có thể có đã bị bỏ qua.

Ví dụ: "con cáo nhanh màu nâu" có thể có 2 gam sau đây:

  • "nhanh chóng"
  • "nhanh chóng"
  • " cáo màu nâu"

"1 lần ném 2 gam" là một cặp từ có tối đa 1 từ ở giữa. Do đó, "con cáo nhanh màu nâu" có 2 gam 1-bỏ qua sau:

  • "nâu"
  • " cáo nhanh"

Ngoài ra, tất cả 2 gam cũng là 1 lần bỏ qua 2 gam, vì ít hơn có thể bỏ qua một từ.

Phông chữ bỏ qua rất hữu ích để hiểu thêm ngữ cảnh xung quanh của một từ. Trong ví dụ: "con cáo" được liên kết trực tiếp với "nhanh" trong tập hợp 1-bỏ-2-gam, nhưng không có trong tập hợp 2-gam.

Hướng dẫn về Skip-gram mô hình Nhúng từ.

softmax

#fundamentals

Một hàm xác định xác suất cho mỗi lớp có thể có trong một mô hình phân loại nhiều lớp. Xác suất cộng lại chính xác là 1.0. Ví dụ: bảng sau đây cho biết cách Softmax phân phối xác suất khác nhau:

Hình ảnh là... Xác suất
chó 0,85
mèo 0,13
con ngựa 0,02

Softmax còn được gọi là softmax đầy đủ.

Ngược lại với tính năng lấy mẫu đề xuất.

điều chỉnh câu lệnh tạm thời

#language
#generativeAI

Kỹ thuật điều chỉnh mô hình ngôn ngữ lớn cho một nhiệm vụ cụ thể mà không cần tốn nhiều tài nguyên tinh chỉnh. Thay vì đào tạo lại tất cả weights (trọng số) trong mô hình, điều chỉnh lời nhắc mềm tự động điều chỉnh một lời nhắc để đạt được cùng một mục tiêu.

Đưa ra một câu lệnh dạng văn bản, hãy tinh chỉnh lời nhắc mềm thường sẽ thêm các mục nhúng mã thông báo bổ sung vào lời nhắc và sử dụng lan truyền ngược để tối ưu hoá đầu vào.

Một "cứng" chứa mã thông báo thực tế thay vì nhúng mã thông báo.

tính chất thưa thớt

#language
#fundamentals

Một tính năng có giá trị chủ yếu bằng 0 hoặc trống. Ví dụ: đối tượng chứa giá trị số 1 và một triệu giá trị 0 là thưa thớt. Ngược lại, tính năng dày đặc có các giá trị chủ yếu không phải là số 0 hoặc dữ liệu trống.

Trong công nghệ học máy, có nhiều tính năng đáng ngạc nhiên là các tính năng thưa thớt. Đối tượng phân loại thường là các đối tượng thưa thớt. Ví dụ: trong số 300 loài cây có thể có trong một khu rừng, một ví dụ duy nhất có thể chỉ xác định một cây phong. Hoặc trong số hàng triệu video có thể sử dụng trong thư viện video, một ví dụ duy nhất có thể xác định chỉ là "Casablanca".

Trong một mô hình, bạn thường biểu thị các đối tượng thưa thớt bằng mã hoá một nóng. Nếu mã hoá một nóng có kích thước lớn, bạn có thể đặt một lớp nhúng ở trên mã hoá một lần để đạt được hiệu quả cao hơn.

biểu diễn thưa

#language
#fundamentals

Chỉ lưu trữ (các) vị trí của các phần tử khác 0 trong một đối tượng thưa thớt.

Ví dụ: giả sử một đối tượng phân loại có tên species xác định 36 các loài cây trong một khu rừng cụ thể. Giả sử thêm rằng mỗi ví dụ chỉ xác định một loài duy nhất.

Bạn có thể sử dụng vectơ một nóng để biểu thị loài cây trong mỗi ví dụ. Vectơ một nóng sẽ chứa một 1 duy nhất (để biểu thị các loài cây cụ thể trong ví dụ đó) và 35 0 (để thể hiện 35 loài cây không có trong ví dụ đó). Vì vậy, đại diện phổ biến nhất của maple có thể có dạng như sau:

Vectơ trong đó các vị trí từ 0 đến 23 giữ giá trị 0, vị trí
          24 giữ giá trị 1 và các vị trí từ 25 đến 35 giữ giá trị 0.

Ngoài ra, cách biểu diễn thưa thớt sẽ chỉ đơn giản là xác định vị trí của loài cụ thể. Nếu maple ở vị trí 24, thì biểu diễn thưa của maple sẽ đơn giản là:

24

Lưu ý rằng biểu diễn thưa thớt nhỏ gọn hơn nhiều so với biểu diễn một nóng đại diện.

vectơ thưa

#fundamentals

Vectơ có các giá trị gần như bằng 0. Xem thêm thưa thớt tính năngtính tách biệt.

độ thưa

Số phần tử được đặt thành không (hoặc rỗng) trong một vectơ hoặc ma trận chia cho tổng số phần tử trong vectơ hoặc ma trận đó. Ví dụ: hãy xem xét một ma trận 100 phần tử trong đó 98 ô chứa số không. Công thức tính độ hụt như sau:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Độ hụt của đối tượng đề cập đến độ thiếu hụt của một vectơ đối tượng; độ giãn của mô hình đề cập đến độ hụt của trọng số mô hình.

tạo nhóm không gian

#image

Xem tạo nhóm.

chia tách

#df

Trong cây quyết định, một tên khác của tình trạng.

bộ chia

#df

Trong khi huấn luyện cây quyết định, quy trình (và thuật toán) chịu trách nhiệm tìm ra kết quả tốt nhất tình trạng ở mỗi nút.

SPMD

Từ viết tắt cho một chương trình / nhiều dữ liệu.

bình phương tổn thất khớp nối

Bình phương của độ mất bản lề. Hình phạt khi mất bản lề hình vuông những điểm ngoại lai nghiêm trọng hơn sự cố mất bản lề thông thường.

tổn thất bình phương

#fundamentals

Từ đồng nghĩa với sự mất mát L2.

huấn luyện theo giai đoạn

#language

Chiến thuật huấn luyện một mô hình theo trình tự gồm các giai đoạn riêng biệt. Mục tiêu có thể là để rút ngắn quá trình huấn luyện hoặc đạt được chất lượng mô hình tốt hơn.

Dưới đây là hình minh hoạ cho phương pháp xếp chồng tăng dần:

  • Giai đoạn 1 gồm 3 lớp ẩn, giai đoạn 2 gồm 6 lớp ẩn và giai đoạn 3 chứa 12 lớp ẩn.
  • Giai đoạn 2 bắt đầu tập luyện bằng các trọng số đã học trong 3 lớp ẩn của Giai đoạn 1. Giai đoạn 3 bắt đầu tập luyện với các trọng số đã học trong phiên bản 6 các lớp ẩn của Giai đoạn 2.

Ba giai đoạn, được gọi là Giai đoạn 1, Giai đoạn 2 và Giai đoạn 3.
          Mỗi giai đoạn chứa một số lượng lớp khác nhau: Giai đoạn 1 chứa
          3 lớp, Giai đoạn 2 gồm 6 lớp và Giai đoạn 3 gồm 12 lớp.
          3 lớp từ Giai đoạn 1 trở thành 3 lớp đầu tiên của Giai đoạn 2.
          Tương tự, 6 lớp từ Giai đoạn 2 trở thành 6 lớp đầu tiên của
          Giai đoạn 3.

Xem thêm phần quy trình.

tiểu bang

#rl

Trong phương pháp học tăng cường, các giá trị tham số mô tả dòng điện cấu hình của môi trường mà agent sử dụng để chọn một thao tác.

hàm giá trị hành động liên quan đến trạng thái

#rl

Từ đồng nghĩa của hàm Q.

tĩnh

#fundamentals

Việc nào đó được thực hiện một lần thay vì liên tục. Các cụm từ tĩnhngoại tuyến là các từ đồng nghĩa. Sau đây là một số cách sử dụng phổ biến của tính năng tĩnhngoại tuyến trong máy đang học:

  • mô hình tĩnh (hoặc mô hình ngoại tuyến) là mô hình được huấn luyện một lần rồi đã sử dụng trong một thời gian.
  • huấn luyện tĩnh (hoặc đào tạo ngoại tuyến) là quá trình huấn luyện một mô hình tĩnh.
  • suy luận tĩnh (hoặc suy luận ngoại tuyến) là quá trình một mô hình tạo ra một loạt các dự đoán tại một thời điểm.

Độ tương phản với thuộc tính động.

suy luận tĩnh

#fundamentals

Từ đồng nghĩa với suy luận ngoại tuyến.

cố định

#fundamentals

Một đối tượng có các giá trị không thay đổi trên một hoặc nhiều phương diện, thường là thời gian. Ví dụ: một tính năng có giá trị giống nhau vào năm 2021 và năm 2023 thể hiện sự tĩnh tại.

Trong thế giới thực, rất ít đối tượng thể hiện tính tĩnh. Các tính năng đồng đều đồng nghĩa với sự ổn định (như mực nước biển) thay đổi theo thời gian.

Trái ngược với tính không ổn định.

Nhấp vào bước tiếp theo.

Một lượt chuyển tiếp và lượt lùi trong một gói.

Xem bài viết về kỹ thuật backpropagation để biết thêm thông tin ở đường đi và đường quay lui.

kích cỡ bước

Từ đồng nghĩa với tỷ lệ học.

giảm độ dốc ngẫu nhiên (SGD)

#fundamentals

Thuật toán giảm độ dốc trong đó kích thước lô là một. Nói cách khác, SGD sẽ được huấn luyện dựa trên một ví dụ duy nhất được chọn thống nhất tại ngẫu nhiên từ tập hợp huấn luyện.

sải chân

#image

Trong phép toán tích chập hoặc gộp, delta trong mỗi chiều của chuỗi lát cắt đầu vào tiếp theo. Ví dụ: ảnh động sau minh hoạ một sải chân (1,1) trong phép tích chập. Do đó, lát cắt đầu vào tiếp theo bắt đầu một vị trí ở bên phải của mục nhập trước lát cắt. Khi thao tác đạt đến cạnh bên phải, lát cắt tiếp theo là tất cả đường sang bên trái nhưng lại một đoạn ở dưới.

Ma trận đầu vào 5x5 và bộ lọc tích chập 3x3. Vì
     sải chân là (1,1), một bộ lọc tích chập sẽ được áp dụng 9 lần. Đầu tiên
     Lát cắt tích chập đánh giá ma trận con 3x3 trên cùng bên trái của đầu vào
     ma trận. Lát cắt thứ hai đánh giá 3x3 ở giữa trên cùng
     ma trận con. Lát cắt tích chập thứ ba đánh giá 3x3 ở trên cùng bên phải
     ma trận con.  Lát cắt thứ tư đánh giá ma trận con 3x3 ở giữa bên trái.
     Lát cắt thứ năm đánh giá ma trận con 3x3 ở giữa. Lát thứ sáu
     đánh giá ma trận con 3x3 giữa bên phải. Lát thứ 7 đánh giá
     ma trận con 3x3 ở dưới cùng bên trái.  Lát thứ tám đánh giá
     ma trận con 3x3 dưới cùng ở giữa. Lát cắt thứ 9 đánh giá 3x3 ở dưới cùng bên phải
     ma trận con.

Ví dụ trước minh hoạ một bước tiến hai chiều. Nếu giá trị nhập không có ma trận ba chiều, bước tiến cũng sẽ là ba chiều.

giảm thiểu rủi ro theo cấu trúc (SRM)

Một thuật toán cân bằng hai mục tiêu:

  • Sự cần thiết phải xây dựng mô hình dự đoán nhất (ví dụ: tỷ lệ giảm thiểu hao tổn thấp nhất).
  • Cần phải duy trì mô hình càng đơn giản càng tốt (ví dụ: điều chỉnh).

Ví dụ: một hàm giảm thiểu số lượng mất đi và điều chỉnh quy trình trên bộ huấn luyện là một thuật toán giảm thiểu rủi ro theo cấu trúc.

Trái ngược với giảm thiểu rủi ro theo thực nghiệm.

lấy mẫu con

#image

Xem tạo nhóm.

mã thông báo từ phụ

#language

Trong mô hình ngôn ngữ, một mã thông báo là chuỗi con của một từ, có thể là toàn bộ từ.

Ví dụ: một từ như "phân loại" có thể được chia thành các phần "mục" (từ gốc) và "ize" (một hậu tố), mỗi hậu tố được biểu thị bằng một hậu tố mã thông báo. Việc tách các từ không phổ biến thành các phần như vậy, được gọi là từ phụ, cho phép mô hình ngôn ngữ để hoạt động dựa trên các phần cấu thành phổ biến hơn của từ, chẳng hạn như tiền tố và hậu tố.

Ngược lại, các từ thông dụng như "đi" có thể không bị hỏng và có thể bị được biểu thị bằng một mã thông báo duy nhất.

tóm tắt

#TensorFlow

Trong TensorFlow, một giá trị hoặc một tập hợp các giá trị được tính toán theo một giá trị cụ thể step, thường được dùng để theo dõi các chỉ số mô hình trong quá trình huấn luyện.

học máy có giám sát

#fundamentals

Đào tạo một mô hình từ các tính năngnhãn tương ứng. Công nghệ học máy có giám sát cũng tương tự như sang học một môn học bằng cách nghiên cứu một bộ câu hỏi và các câu trả lời tương ứng. Sau khi thành thạo việc liên kết giữa các câu hỏi và đáp án, sau đó học sinh có thể đưa ra đáp án cho bài làm mới (chưa từng thấy trước đây) câu hỏi về cùng một chủ đề.

So sánh với công nghệ học máy không giám sát.

tính năng tổng hợp

#fundamentals

Tính năng không có trong số các tính năng nhập, nhưng được tạo nên từ một hoặc nhiều dữ liệu. Phương thức tạo các tính năng tổng hợp bao gồm:

  • Sắp xếp một tính năng liên tục vào các thùng phạm vi.
  • Tạo nhiều tính năng.
  • Nhân (hoặc chia) một giá trị đối tượng cho(các) giá trị đối tượng khác hoặc đơn lẻ. Ví dụ: nếu ab là các tính năng nhập, thì hàm sau đây là ví dụ về các tính năng tổng hợp:
    • ab
    • a2
  • Áp dụng hàm xuyên suốt cho một giá trị đối tượng. Ví dụ: nếu c là tính năng đầu vào, thì sau đây là ví dụ về tính năng tổng hợp:
    • sin(c)
    • ln(c)

Các tính năng được tạo bằng cách chuẩn hoá hoặc điều chỉnh theo tỷ lệ thì chúng không được coi là tính năng tổng hợp.

T

T5

#language

Mô hình chuyển văn bản sang văn bản người giới thiệu AI của Google trong năm 2020. T5 là mô hình bộ mã hoá-bộ giải mã, dựa trên Kiến trúc Transformer, được huấn luyện trên một môi trường cực kỳ lớn tập dữ liệu. Công cụ này hiệu quả trong nhiều nhiệm vụ xử lý ngôn ngữ tự nhiên, chẳng hạn như tạo văn bản, dịch ngôn ngữ và trả lời câu hỏi bằng cách trò chuyện.

T5 lấy tên từ 5 chữ T trong "Bộ chuyển đổi chuyển văn bản sang văn bản".

T5X

#language

Khung học máy nguồn mở được thiết kế xây dựng và đào tạo khả năng xử lý ngôn ngữ tự nhiên trên quy mô lớn (NLP). T5 được triển khai trên cơ sở mã T5X (là được tạo trên JAXFlax).

học hỏi dạng bảng

#rl

Trong quá trình học tăng cường, việc triển khai Q-learning bằng cách sử dụng một bảng để lưu trữ hàm Q cho mọi tổ hợp trạng tháihành động.

mục tiêu

Từ đồng nghĩa với label.

mạng mục tiêu

#rl

Trong Học hỏi chuyên sâu, một mạng nơron ổn định mạng nơron chính, trong đó mạng nơron chính triển khai hàm Q hoặc chính sách. Sau đó, bạn có thể huấn luyện mạng chính dựa trên các giá trị Q-giá trị do mục tiêu dự đoán mạng. Do đó, bạn nên ngăn chặn vòng lặp phản hồi xảy ra khi sẽ tự huấn luyện dựa trên giá trị Q. Bằng cách tránh những phản hồi này, độ ổn định của quá trình huấn luyện sẽ tăng lên.

việc cần làm

Một bài toán có thể giải bằng các kỹ thuật học máy, chẳng hạn như:

nhiệt độ

#language
#image
#generativeAI

Siêu tham số kiểm soát mức độ ngẫu nhiên đầu ra của một mô hình. Nhiệt độ cao hơn dẫn đến đầu ra ngẫu nhiên hơn, còn nhiệt độ thấp hơn sẽ dẫn đến đầu ra ít ngẫu nhiên hơn.

Chọn nhiệt độ tốt nhất tuỳ thuộc vào ứng dụng cụ thể và các thuộc tính ưu tiên của dữ liệu đầu ra của mô hình. Ví dụ: bạn nên có thể sẽ tăng nhiệt độ khi tạo một ứng dụng tạo ra đầu ra mẫu quảng cáo. Ngược lại, bạn có thể giảm nhiệt độ khi xây dựng mô hình phân loại hình ảnh hoặc văn bản để cải thiện độ chính xác và nhất quán của mô hình.

Nhiệt độ thường dùng với softmax.

dữ liệu tạm thời

Dữ liệu được ghi lại tại nhiều thời điểm. Ví dụ: bán áo khoác mùa đông được ghi lại cho mỗi ngày trong năm sẽ là dữ liệu tạm thời.

Tensor

#TensorFlow

Cấu trúc dữ liệu chính trong các chương trình TensorFlow. Tensor là N-chiều (trong đó N có thể là rất lớn), cấu trúc dữ liệu, phổ biến nhất là đại lượng vô hướng, vectơ, hoặc ma trận. Các phần tử của Tensor có thể chứa số nguyên, dấu phẩy động, hoặc các giá trị chuỗi.

TensorBoard

#TensorFlow

Trang tổng quan hiển thị các bản tóm tắt đã lưu trong quá trình thực thi một hoặc các chương trình TensorFlow khác.

TensorFlow

#TensorFlow

Một nền tảng học máy được phân phối trên quy mô lớn. Cụm từ này cũng đề cập đến lớp API cơ sở trong ngăn xếp TensorFlow, hỗ trợ tính toán chung trên biểu đồ luồng dữ liệu.

Mặc dù TensorFlow chủ yếu được dùng cho công nghệ học máy, nhưng bạn cũng có thể dùng TensorFlow cho những nhiệm vụ không phải học máy yêu cầu tính toán bằng số biểu đồ luồng dữ liệu.

Sân chơi TensorFlow

#TensorFlow

Một chương trình trực quan hoá cách mô hình ảnh hưởng hyperparameters (chủ yếu là mạng nơron). Chuyển đến http://playground.tensorflow.org để thử nghiệm với TensorFlow Playground.

Phục vụ TensorFlow

#TensorFlow

Một nền tảng để triển khai các mô hình đã huấn luyện trong thực tế.

Bộ xử lý Tensor (TPU)

#TensorFlow
#GoogleCloud

Một mạch tích hợp dành riêng cho ứng dụng (ASIC) giúp tối ưu hoá hiệu suất của các khối lượng công việc trong công nghệ học máy. Các ASIC này được triển khai dưới dạng nhiều khối TPU trên một thiết bị TPU.

hạng Tensor

#TensorFlow

Hãy xem thứ hạng (Tensor).

hình dạng Tensor

#TensorFlow

Số lượng phần tử trong một Tensor theo nhiều phương diện. Ví dụ: Tensor [5, 10] có hình dạng là 5 chiều một chiều và 10 chiều trong một thiết bị khác.

Kích thước Tensor

#TensorFlow

Tổng số đại lượng vô hướng mà một Tensor có. Ví dụ: một [5, 10] Tensor có kích thước 50.

TensorStore

Thư viện giúp bạn đọc và ghi các mảng đa chiều lớn.

điều kiện chấm dứt

#rl

Trong học tăng cường, các điều kiện xác định thời điểm kết thúc một tập, chẳng hạn như khi nhân viên hỗ trợ đến một trạng thái nhất định hoặc vượt quá số ngưỡng chuyển đổi trạng thái. Ví dụ: trong tic-tac-toe (cũng là còn gọi là truy xuất và bắt chéo), một tập kết thúc khi người chơi đánh dấu ba dấu cách liên tiếp hoặc khi tất cả các dấu cách đều được đánh dấu.

thử nghiệm

#df

Trong cây quyết định, một tên khác của tình trạng.

tổn thất thử nghiệm

#fundamentals

Chỉ số thể hiện sự sụt giảm của một mô hình so với tập kiểm thử. Khi xây dựng một mô hình, bạn thường cố gắng giảm thiểu tổn thất kiểm thử. Đó là vì thất bại trong thử nghiệm thấp tín hiệu chất lượng mạnh hơn so với mức hao tổn huấn luyện thấp hoặc mất tính xác thực thấp.

Một khoảng cách lớn giữa mất kiểm thử và mất huấn luyện hoặc mất xác thực đôi khi cho thấy bạn cần tăng tỷ lệ chuẩn hoá.

tập kiểm tra

Một tập hợp con của tập dữ liệu dành riêng cho thử nghiệm một mô hình đã qua đào tạo.

Thông thường, bạn chia các ví dụ trong tập dữ liệu thành ba nhóm sau các tập hợp con riêng biệt:

Mỗi ví dụ trong tập dữ liệu chỉ nên thuộc về một trong các tập hợp con trước đó. Ví dụ: một ví dụ không nên thuộc cả tập hợp huấn luyện và tập hợp kiểm thử.

Tập huấn luyện và tập xác thực đều có liên quan chặt chẽ với việc huấn luyện một mô hình. Vì tập hợp kiểm thử chỉ được liên kết gián tiếp với quá trình huấn luyện, lần thất bại trong kiểm thử là chỉ số ít sai lệch hơn và có chất lượng cao hơn so với mất tác dụng huấn luyện hoặc mất quyền xác thực.

khoảng văn bản

#language

Khoảng chỉ mục của mảng được liên kết với một phần phụ cụ thể của chuỗi văn bản. Ví dụ: từ good trong chuỗi Python s="Be good now" chiếm giữ văn bản kéo dài từ 3 đến 6.

tf.Example

#TensorFlow

Một tiêu chuẩn vùng đệm giao thức để mô tả dữ liệu đầu vào cho việc huấn luyện mô hình học máy hoặc suy luận.

tf.keras

#TensorFlow

Việc triển khai Keras được tích hợp vào TensorFlow.

ngưỡng (cho cây quyết định)

#df

Trong điều kiện căn chỉnh theo trục, giá trị mà Đang so sánh với feature. Ví dụ: 75 là ngưỡng trong điều kiện sau:

grade >= 75

phân tích chuỗi thời gian

#clustering

Một trường con của công nghệ học máy và số liệu thống kê giúp phân tích dữ liệu thời gian. Nhiều loại công nghệ học máy của các bài toán cần phân tích chuỗi thời gian như phân loại, phân cụm, tính năng dự báo và tính năng phát hiện hoạt động bất thường. Ví dụ: bạn có thể sử dụng phân tích chuỗi thời gian để dự báo doanh số bán áo khoác mùa đông trong tương lai theo tháng dựa trên dữ liệu bán hàng trước đây.

bước thời gian

#seq

Một ảnh "chưa cuộn" ô trong một mạng nơron định kỳ. Ví dụ: hình sau đây thể hiện 3 bước thời gian (được gắn nhãn bằng các chỉ số dưới t-1, t và t+1):

3 bước thời gian trong mạng nơron lặp lại. Kết quả của
          bước thời gian đầu tiên trở thành mục nhập vào bước thời gian thứ hai. Kết quả
          của bước thời gian thứ hai trở thành dữ liệu nhập vào bước thời gian thứ ba.

mã thông báo

#language

Trong mô hình ngôn ngữ, đơn vị nguyên tử của mô hình đó để được đào tạo và đưa ra dự đoán. Mã thông báo thường là một trong những sau:

  • một từ—ví dụ: cụm từ "chó thích mèo" bao gồm 3 từ mã thông báo: "chó", "thích" và "mèo".
  • một ký tự, ví dụ: cụm từ "cá xe đạp" bao gồm 9 mã thông báo ký tự. (Xin lưu ý rằng khoảng trống được tính là một trong các mã thông báo.)
  • từ phụ—trong đó một từ có thể là một mã thông báo hoặc nhiều mã thông báo. Từ phụ bao gồm từ gốc, tiền tố hoặc hậu tố. Ví dụ: một mô hình ngôn ngữ sử dụng từ phụ làm mã thông báo có thể xem từ "chó" dưới dạng hai mã thông báo (từ gốc "chó" và hậu tố số nhiều "s"). Cũng vậy mô hình ngôn ngữ có thể xem từ đơn "taller" dưới dạng hai từ phụ ( từ gốc "cao" và hậu tố "er").

Trong các miền nằm ngoài mô hình ngôn ngữ, mã thông báo có thể đại diện cho các loại đơn vị nguyên tử. Ví dụ: trong thị giác máy tính, mã thông báo có thể là một tập hợp con của một hình ảnh.

tower

Một thành phần của mạng nơron sâu một mạng nơron sâu. Trong một số trường hợp, mỗi tháp đọc dữ liệu từ một nguồn dữ liệu độc lập và các tháp đó vẫn độc lập cho đến khi đầu ra được kết hợp trong lớp cuối cùng. Trong các trường hợp khác, (ví dụ: trong tháp bộ mã hoábộ giải mã của nhiều máy biến áp), tháp có nhiều kết nối cho nhau.

TPU

#TensorFlow
#GoogleCloud

Từ viết tắt của Bộ xử lý cảm biến.

chip TPU

#TensorFlow
#GoogleCloud

Một trình tăng tốc đại số tuyến tính có thể lập trình được tích hợp bộ nhớ băng thông cao trên chip được tối ưu hoá cho khối lượng công việc của học máy. Nhiều chip TPU được triển khai trên một thiết bị TPU.

Thiết bị TPU

#TensorFlow
#GoogleCloud

Một bảng mạch in (PCB) có nhiều chip TPU, giao diện mạng băng thông cao và phần cứng làm mát hệ thống.

Bậc thầy TPU

#TensorFlow
#GoogleCloud

Quy trình phối hợp tập trung chạy trên máy chủ gửi và nhận dữ liệu, kết quả, chương trình, hiệu suất và thông tin về tình trạng hệ thống đối với nhân viên TPU. TPU chính cũng quản lý quá trình thiết lập và tắt các thiết bị TPU.

Nút TPU

#TensorFlow
#GoogleCloud

Một tài nguyên TPU trên Google Cloud với một Loại TPU. Nút TPU kết nối với Mạng VPC từ mạng VPC ngang hàng. Nút TPU là một tài nguyên được xác định trong API Cloud TPU.

Vỏ TPU

#TensorFlow
#GoogleCloud

Một cấu hình cụ thể của thiết bị TPU trong một ứng dụng Google trung tâm dữ liệu. Tất cả các thiết bị trong một Nhóm TPU đều được kết nối với nhau qua mạng tốc độ cao chuyên dụng. Nhóm TPU là cấu hình lớn nhất của Thiết bị TPU có sẵn cho một phiên bản TPU cụ thể.

Tài nguyên TPU

#TensorFlow
#GoogleCloud

Một thực thể TPU trên Google Cloud mà bạn tạo, quản lý hoặc sử dụng. Cho Ví dụ: nút TPUloại TPU là Tài nguyên TPU.

Lát TPU

#TensorFlow
#GoogleCloud

Lát cắt TPU là một phần nhỏ của thiết bị TPU trong một Nhóm TPU. Tất cả thiết bị trong một lát cắt TPU đã được kết nối với nhau qua mạng tốc độ cao chuyên dụng.

Loại TPU

#TensorFlow
#GoogleCloud

Cấu hình của một hoặc nhiều thiết bị TPU có một Phiên bản phần cứng TPU. Bạn chọn một loại TPU khi tạo nút TPU trên Google Cloud. Ví dụ: v2-8 Loại TPU là thiết bị TPU phiên bản 2 đơn lẻ có 8 nhân. Một loại TPU v3-2048 có 256 các thiết bị TPU phiên bản 3 được nối mạng và tổng cộng 2048 lõi. Các loại TPU là một tài nguyên được xác định trong API Cloud TPU.

Trình chạy TPU

#TensorFlow
#GoogleCloud

Một quy trình chạy trên máy chủ lưu trữ và thực thi các chương trình học máy trên thiết bị TPU.

đào tạo

#fundamentals

Quá trình xác định tham số lý tưởng (trọng số và thiên kiến) bao gồm mô hình. Trong quá trình huấn luyện, hệ thống sẽ đọc ví dụ rồi dần điều chỉnh các tham số. Quá trình huấn luyện sử dụng mỗi ví dụ từ vài lần đến hàng tỷ lần.

ngừng huấn luyện

#fundamentals

Một chỉ số thể hiện sự sụt giảm của một mô hình trong một khoảng thời gian lặp đi lặp lại huấn luyện cụ thể. Ví dụ: giả sử hàm mất là Lỗi bình phương trung bình. Có thể là thời gian mất đào tạo (trung bình Squared Error) cho lần lặp thứ 10 là 2.2 và tổn thất huấn luyện cho lần lặp thứ 100 là 1.9.

Đường cong tổn thất thể hiện số lượng lỗ hổng huấn luyện so với số lượng lặp lại. Đường cong tổn thất cung cấp các gợi ý sau đây về việc huấn luyện:

  • Độ dốc hướng xuống cho biết mô hình đang cải thiện.
  • Độ dốc hướng lên cho biết mô hình đang giảm dần.
  • Độ dốc bằng phẳng ngụ ý rằng mô hình đã đạt đến sự hội tụ.

Ví dụ: đường cong tổn thất được lý tưởng hoá đôi chút sau đây cho thấy:

  • Đường dốc hướng xuống trong vòng lặp ban đầu, ngụ ý rằng cải tiến mô hình nhanh chóng.
  • Đường dốc phẳng dần (nhưng vẫn đi xuống) cho đến gần cuối huấn luyện, tức là ngụ ý việc liên tục cải tiến mô hình với mức độ chậm hơn trong vòng lặp đầu tiên.
  • Một độ dốc phẳng về cuối quá trình huấn luyện, gợi ý sự hội tụ.

Sơ đồ về sự mất mát trong quá trình huấn luyện so với số lần lặp lại. Đường cong mức tổn thất này bắt đầu
     có độ dốc đứng xuống. Đường dốc phẳng dần cho đến khi
     hệ số góc trở thành 0.

Mặc dù lượng thời gian huấn luyện mất đi là rất quan trọng, hãy xem thêm tổng quát hoá.

lệch hướng phân phát huấn luyện

#fundamentals

Sự khác biệt giữa hiệu suất của mô hình trong khoảng thời gian huấn luyện và hiệu suất của cùng mô hình đó trong khoảng thời gian phân phát.

tập huấn luyện

#fundamentals

Tập hợp con của tập dữ liệu được dùng để huấn luyện một mô hình.

Thông thường, các ví dụ trong tập dữ liệu được chia thành 3 nhóm các tập hợp con riêng biệt:

Tốt nhất là mỗi ví dụ trong tập dữ liệu chỉ nên thuộc về một trong các tập hợp con trước đó. Ví dụ: một ví dụ không nên thuộc về cả tập huấn luyện và tập xác thực.

quỹ đạo

#rl

Trong học tăng cường, một chuỗi bộ dữ liệu đại diện cho một chuỗi chuyển đổi trạng thái của tác nhân, trong đó mỗi bộ dữ liệu tương ứng với trạng thái, thao tác, reward và trạng thái tiếp theo cho một lượt chuyển đổi trạng thái nhất định.

học chuyển giao

Chuyển thông tin từ công việc học máy này sang công việc khác trong công nghệ học máy. Ví dụ: trong mô hình học đa nhiệm, một mô hình duy nhất giải quyết nhiều nhiệm vụ, chẳng hạn như mô hình sâu có các nút đầu ra khác nhau cho nhiệm vụ khác nhau. Học tập có thể bao gồm việc truyền tải kiến thức từ giải pháp của một nhiệm vụ đơn giản sang nhiệm vụ phức tạp hơn, hoặc liên quan đến chuyển kiến thức từ một nhiệm vụ có nhiều dữ liệu sang nhiệm vụ ở nơi có ít dữ liệu hơn.

Hầu hết các hệ thống học máy đều giải quyết một nhiệm vụ duy nhất. Học tập chuyển giao là bước tới trí tuệ nhân tạo mà một chương trình duy nhất có thể giải quyết nhiều nhiệm vụ.

Biến áp

#language

Một cấu trúc mạng nơron được phát triển tại Google dựa vào cơ chế tự chú ý để chuyển đổi trình tự nhúng đầu vào vào một chuỗi đầu ra các mục nhúng mà không cần dựa vào phép tích hợp hoặc mạng nơron tái phát. Bộ chuyển đổi có thể là được xem dưới dạng một ngăn xếp gồm các lớp tự chú ý.

Bộ chuyển đổi có thể bao gồm bất kỳ phần tử nào sau đây:

Bộ mã hoá biến đổi một chuỗi các mục nhúng thành một chuỗi mới của cùng độ dài. Một bộ mã hoá bao gồm N lớp giống nhau, mỗi lớp trong đó có hai lớp lớp con. Hai lớp con này được áp dụng tại mỗi vị trí của đầu vào trình tự nhúng, biến đổi từng phần tử của trình tự thành một nhúng. Lớp con bộ mã hoá đầu tiên tổng hợp thông tin từ trên chuỗi đầu vào. Lớp con bộ mã hoá thứ hai biến đổi dữ liệu tổng hợp vào nhúng đầu ra.

Bộ giải mã biến đổi một chuỗi các mục nhúng đầu vào thành một chuỗi các nhúng đầu ra, có thể có độ dài khác. Bộ giải mã cũng bao gồm N lớp giống nhau có ba lớp con, có hai lớp trong số đó tương tự như các lớp con của bộ mã hoá. Lớp con của bộ giải mã thứ ba lấy đầu ra của bộ mã hoá và áp dụng cơ chế tự chú ý cho thu thập thông tin từ đó.

Bài đăng trên blog Transformer: Một cấu trúc mạng nơron mới cho ngôn ngữ Tìm hiểu giới thiệu về Transformers.

bất biến dịch

#image

Trong một bài toán phân loại hình ảnh, khả năng thuật toán phân loại hình ảnh ngay cả khi vị trí của các đối tượng trong hình ảnh thay đổi. Ví dụ: thuật toán vẫn có thể xác định một chú chó, cho dù nó nằm trong giữa khung hoặc ở cuối bên trái khung.

Hãy xem thêm về sự bất biến về kích thướcbất biến xoay.

hình bát giác

#seq
#language

N-gram trong đó N=3.

âm tính thật (TN)

#fundamentals

Một ví dụ trong đó mô hình dự đoán chính xác lớp phủ định. Ví dụ: mô hình suy luận rằng một nội dung email cụ thể không phải là thư rác và nội dung email đó thực sự là không phải thư rác.

dương tính thật (TP)

#fundamentals

Một ví dụ trong đó mô hình dự đoán chính xác lớp học tích cực. Ví dụ: mô hình suy luận rằng một nội dung email cụ thể là thư rác và nội dung email đó thực sự là thư rác.

tỷ lệ dương tính thật (TPR)

#fundamentals

Từ đồng nghĩa với recall. Đó là:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Tỷ lệ dương thực là trục y trong đường cong ROC.

U

không nhận biết (thuộc tính nhạy cảm)

#fairness

Một tình huống trong đó thuộc tính nhạy cảm hiện có, nhưng không được đưa vào dữ liệu huấn luyện. Bởi vì thuộc tính nhạy cảm thường tương quan với các thuộc tính khác của dữ liệu, một mô hình được huấn luyện nếu không nhận ra một thuộc tính nhạy cảm vẫn có thể tác động khác nhau đối với thuộc tính đó, hoặc vi phạm các giới hạn khác về tính công bằng.

thiếu vải

#fundamentals

Tạo mô hình có khả năng dự đoán kém vì mô hình đó chưa thể hiện hết mức độ phức tạp của dữ liệu huấn luyện. Nhiều bài toán có thể gây ra tình trạng thiếu cân, bao gồm:

lấy mẫu thiếu

Xoá ví dụ khỏi lớp đại đa số trong một tập dữ liệu không cân bằng về lớp để tạo một tập huấn luyện cân bằng hơn.

Ví dụ: hãy xem xét một tập dữ liệu trong đó tỷ lệ giữa lớp đa số so với lớp tối thiểu là 20:1. Để vượt qua lớp học này do mất cân bằng, bạn có thể tạo một chương trình tập luyện bao gồm tất cả những người thiểu số các ví dụ về lớp, nhưng chỉ một phần mười trong số các ví dụ về lớp đa số. Hãy tạo một tỷ lệ lớp tập huấn luyện là 2:1. Nhờ giảm tần suất lấy mẫu, tập luyện cân bằng có thể tạo ra mô hình tốt hơn. Ngoài ra, có thể không có đủ ví dụ để huấn luyện một nhóm các bài tập cân bằng hơn mô hình hiệu quả.

Tương phản với trường hợp lấy mẫu quá mức.

một chiều

#language

Hệ thống chỉ đánh giá văn bản trước phần văn bản đích. Ngược lại, hệ thống hai chiều sẽ đánh giá cả văn bản trướcsau phần văn bản đích. Xem nội dung hai chiều để biết thêm thông tin.

mô hình ngôn ngữ một chiều

#language

Mô hình ngôn ngữ chỉ dựa vào xác suất mã thông báo xuất hiện trước, không phải sau(các) mã thông báo mục tiêu. Tương phản với mô hình ngôn ngữ hai chiều.

ví dụ chưa gắn nhãn

#fundamentals

Một ví dụ có chứa tính năng nhưng không có nhãn. Ví dụ: bảng sau đây hiển thị ba ví dụ chưa gắn nhãn của một ngôi nhà mô hình định giá, mỗi mô hình có ba tính năng nhưng không có giá trị nội bộ:

Số lượng phòng ngủ Số lượng phòng tắm Tuổi thọ của nhà
3 2 15
2 1 72
4 2 34

Trong công nghệ học máy có giám sát, sẽ huấn luyện dựa trên các ví dụ được gắn nhãn và đưa ra dự đoán về các ví dụ chưa được gắn nhãn.

Trong chế độ bán giám sát và học tập không có sự giám sát, các ví dụ chưa gắn nhãn được dùng trong quá trình huấn luyện.

Đối chiếu ví dụ chưa gắn nhãn với ví dụ có gắn nhãn.

học máy không giám sát

#clustering
#fundamentals

Huấn luyện một mô hình để tìm các mẫu trong một tập dữ liệu, thường là tập dữ liệu chưa gắn nhãn.

Việc sử dụng công nghệ học máy không giám sát phổ biến nhất là Dữ liệu cụm thành các nhóm ví dụ tương tự nhau. Ví dụ: máy không được giám sát thuật toán học tập có thể nhóm các bài hát dựa trên nhiều thuộc tính của bản nhạc. Các cụm thu được có thể trở thành dữ liệu đầu vào cho máy khác các thuật toán học tập (ví dụ: đến dịch vụ đề xuất âm nhạc). Việc phân cụm có thể giúp ích khi không có hoặc có nhãn hữu ích. Ví dụ: trong các miền như chống hành vi sai trái và lừa đảo, các cụm có thể giúp con người sẽ hiểu rõ hơn về dữ liệu.

Trái ngược với công nghệ học máy có giám sát.

lập mô hình mức tăng

Một kỹ thuật lập mô hình, thường được sử dụng trong tiếp thị, giúp lập mô hình "hiệu ứng nhân quả" (còn được gọi là "tác động gia tăng") của "xử lý" trên "cá nhân". Dưới đây là hai ví dụ:

  • Bác sĩ có thể sử dụng quy trình lập mô hình mức tăng để dự đoán mức giảm tỷ lệ tử vong (hiệu quả nhân quả) của một thủ thuật y tế (điều trị) tùy thuộc vào tuổi và tiền sử bệnh của bệnh nhân (cá nhân).
  • Nhà tiếp thị có thể sử dụng quy trình lập mô hình mức tăng để dự đoán mức tăng trong xác suất mua hàng (hiệu ứng nhân quả) do một quảng cáo (thử nghiệm) trên một người (cá nhân).

Quy trình lập mô hình mức tăng khác với việc phân loại hoặc hồi quy trong đó một số nhãn (ví dụ: nhãn trong các nhóm thử nghiệm nhị phân) luôn bị thiếu trong mô hình mức tăng. Ví dụ: bệnh nhân có thể được hoặc không được điều trị; do đó, chúng tôi chỉ có thể quan sát xem liệu bệnh nhân sẽ khỏi hay không chữa trị được chỉ trong một trong hai tình huống này (nhưng không bao giờ chữa lành cả hai). Ưu điểm chính của mô hình mức tăng là có thể tạo ra thông tin dự đoán cho tình huống không quan sát được (phản thực tế) và sử dụng nó để tính toán hiệu ứng nhân quả.

trọng số

Áp dụng trọng số cho lớp downsampled bằng nhau với hệ số mà bạn đã lấy mẫu xuống.

ma trận người dùng

#recsystems

Trong hệ thống đề xuất, vectơ nhúng do phân tích ma trận lưu giữ tín hiệu tiềm ẩn về lựa chọn ưu tiên của người dùng. Mỗi hàng của ma trận người dùng chứa thông tin về biến thể tương đối cường độ của nhiều tín hiệu tiềm ẩn cho một người dùng. Ví dụ: hãy cân nhắc sử dụng hệ thống đề xuất phim. Trong hệ thống này, các tín hiệu tiềm ẩn trong ma trận người dùng có thể thể hiện mối quan tâm của từng người dùng thể loại cụ thể hoặc có thể là những tín hiệu khó diễn giải hơn liên quan đến tương tác phức tạp dựa trên nhiều yếu tố.

Ma trận người dùng có một cột cho từng tính năng tiềm ẩn và một hàng cho từng người dùng. Tức là ma trận người dùng có cùng số hàng với mục tiêu ma trận được phân tích. Ví dụ: giả sử một bộ phim hệ thống đề xuất cho 1.000.000 người dùng, ma trận người dùng sẽ có 1.000.000 hàng.

V

xác thực

#fundamentals

Kết quả đánh giá ban đầu về chất lượng của một mô hình. Chức năng xác thực kiểm tra chất lượng dự đoán của mô hình so với bộ xác thực.

Do bộ xác thực khác với nhóm huấn luyện, quy trình xác thực giúp bảo vệ chống lại tình trạng trang bị quá mức.

Bạn có thể coi việc đánh giá mô hình so với tập hợp xác thực là vòng đầu tiên để thử nghiệm và đánh giá mô hình dựa trên kiểm thử set làm vòng kiểm thử thứ hai.

mất dữ liệu xác thực

#fundamentals

Một chỉ số thể hiện lỗ hổng của một mô hình trên tập hợp xác thực trong một khoảng thời gian lặp lại quá trình huấn luyện.

Xem thêm đường cong tổng quát.

bộ xác thực

#fundamentals

Tập hợp con của tập dữ liệu thực hiện bước đầu tiên dựa trên mô hình đã qua đào tạo. Thông thường, bạn đánh giá mô hình được huấn luyện dựa trên tập hợp xác thực một vài trước khi đánh giá mô hình dựa trên tập kiểm thử.

Thông thường, bạn chia các ví dụ trong tập dữ liệu thành ba nhóm sau các tập hợp con riêng biệt:

Tốt nhất là mỗi ví dụ trong tập dữ liệu chỉ nên thuộc về một trong các tập hợp con trước đó. Ví dụ: một ví dụ không nên thuộc về cả tập huấn luyện và tập xác thực.

tính toán giá trị

Quá trình thay thế giá trị bị thiếu bằng giá trị thay thế được chấp nhận. Khi thiếu một giá trị, bạn có thể loại bỏ toàn bộ ví dụ hoặc bạn có thể sử dụng việc áp dụng giá trị để khôi phục ví dụ.

Ví dụ: hãy xem xét một tập dữ liệu chứa một đối tượng temperature phải được ghi lại mỗi giờ. Tuy nhiên, chỉ số nhiệt độ không khả dụng trong một giờ cụ thể. Dưới đây là một mục của tập dữ liệu:

Dấu thời gian Nhiệt độ
1680561000 10
1680564600 12
1680568200 bị thiếu
1680571800 20
1680575400 21
1680579000 21

Hệ thống có thể xoá ví dụ bị thiếu hoặc áp dụng ví dụ bị thiếu nhiệt độ thông thường là 12, 16, 18 hoặc 20, tùy thuộc vào thuật toán áp dụng.

vấn đề độ dốc biến mất

#seq

Xu hướng của độ dốc của các lớp ẩn ban đầu của một số mạng nơron sâu để trở thành bằng phẳng một cách đáng ngạc nhiên (thấp). Độ dốc càng giảm thì dẫn đến những thay đổi nhỏ hơn đối với trọng số trên các nút trong mạng nơron sâu, dẫn đến ít hoặc không học hỏi nhiều. Các mô hình gặp phải vấn đề về độ dốc biến mất trở nên khó hoặc không thể đào tạo. Các ô Bộ nhớ ngắn hạn dài giải quyết được vấn đề này.

So sánh với vấn đề chuyển màu bùng nổ.

tầm quan trọng thay đổi

#df

Một tập hợp điểm số cho biết tầm quan trọng tương đối của từng chỉ số feature đối với mô hình.

Ví dụ: hãy xem xét cây quyết định ước tính giá nhà. Giả sử cây quyết định này sử dụng đặc điểm: kích thước, độ tuổi và kiểu dáng. Nếu một tập hợp các mức độ quan trọng thay đổi 3 tính năng này sẽ được tính là {size=5,8, tuổi=2,5, style=4,7}, thì kích thước quan trọng hơn đối với cây quyết định hơn độ tuổi hoặc phong cách.

Tồn tại nhiều chỉ số tầm quan trọng khác nhau, điều này có thể cung cấp thông tin Các chuyên gia học máy về các khía cạnh khác nhau của mô hình.

bộ mã hoá biến thiên (VAE)

#language

Một loại bộ mã hoá tự động tận dụng sự khác biệt giữa đầu vào và đầu ra để tạo các phiên bản sửa đổi của đầu vào. Bộ tự động mã hoá biến thể rất hữu ích cho AI tạo sinh.

VAE dựa trên suy luận biến thiên: một kỹ thuật để ước tính các tham số của mô hình xác suất.

vectơ

Thuật ngữ rất quá tải có ý nghĩa khác nhau trong các toán học khác nhau và lĩnh vực khoa học. Trong công nghệ học máy, vectơ có hai thuộc tính:

  • Loại dữ liệu: Các vectơ trong công nghệ học máy thường chứa số dấu phẩy động.
  • Số phần tử: Đây là độ dài của vectơ hoặc kích thước của vectơ.

Ví dụ: hãy xem xét một vectơ đối tượng chứa 8 dấu phẩy động. Vectơ đối tượng này có độ dài hoặc kích thước là 8. Lưu ý rằng các vectơ học máy thường có một số lượng lớn kích thước.

Bạn có thể biểu diễn nhiều loại thông tin khác nhau dưới dạng vectơ. Ví dụ:

  • Bất kỳ vị trí nào trên bề mặt Trái Đất đều có thể được biểu diễn dưới dạng không gian 2 chiều vectơ, trong đó một chiều là vĩ độ và chiều còn lại là kinh độ.
  • Giá hiện tại của mỗi cổ phiếu trong số 500 cổ phiếu có thể được trình bày dưới dạng Vectơ 500 chiều.
  • Có thể biểu diễn hàm phân phối xác suất qua một số lượng lớp hữu hạn dưới dạng vectơ. Ví dụ: một phân loại nhiều lớp giúp dự đoán một trong ba màu đầu ra (đỏ, xanh lục hoặc vàng) có thể cho ra (0.3, 0.2, 0.5) có nghĩa là P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

Bạn có thể nối các vectơ; do đó, có thể có nhiều phương tiện truyền thông khác nhau được biểu diễn dưới dạng một vectơ. Một số mô hình hoạt động trực tiếp trên việc nối nhiều phương thức mã hoá một lần.

Các bộ xử lý chuyên dụng như TPU được tối ưu hoá để thực hiện các phép toán trên vectơ.

Vectơ là một tensor của thứ hạng 1.

W

Sự mất mát của Wasserstein

Một trong những hàm mất dữ liệu thường dùng trong mạng đối nghịch tạo sinh, dựa trên khoảng cách của máy di chuyển trái đất giữa việc phân phối dữ liệu được tạo và dữ liệu thực.

cân nặng

#fundamentals

Một giá trị mà mô hình nhân với một giá trị khác. Huấn luyện là quá trình xác định trọng số lý tưởng của một mô hình; suy luận là quá trình sử dụng các trọng số đã học được để đưa ra dự đoán.

Hình vuông ít thay thế thay thế có trọng số (WALS)

#recsystems

Một thuật toán để giảm thiểu hàm mục tiêu trong khoảng thời gian phân tích ma trận trong hệ thống đề xuất, cho phép giảm trọng số của các ví dụ bị thiếu. WALS giúp giảm thiểu trọng số sai số bình phương giữa ma trận ban đầu và phép tái tạo bằng cách xen kẽ giữa sửa lỗi phân tích hàng và phân tích cột. Có thể giải mỗi loại tối ưu hoá này bằng số bình phương tối thiểu tối ưu hoá mặt đồng hồ. Để biết chi tiết, hãy xem Khoá học về Hệ thống đề xuất.

tổng có trọng số

#fundamentals

Tổng của tất cả các giá trị đầu vào có liên quan nhân với các giá trị tương ứng trọng số. Ví dụ: giả sử dữ liệu đầu vào có liên quan bao gồm:

giá trị nhập trọng số đầu vào
2 -1,3
-1 0,6
3 0,4

Do đó, tổng được trọng số là:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Tổng có trọng số là đối số đầu vào cho một giá trị tổng chức năng kích hoạt.

mô hình rộng

Mô hình tuyến tính thường có nhiều tính năng nhập dữ liệu thưa thớt. Chúng tôi gọi đó là "rộng" từ một mô hình như vậy là một loại mạng nơron đặc biệt với số lượng lớn đầu vào kết nối trực tiếp với nút đầu ra. Kiểu rộng thường dễ gỡ lỗi và kiểm tra hơn so với mô hình sâu. Mặc dù các mô hình rộng không thể biểu thị tính phi tuyến tính thông qua lớp ẩn, có thể sử dụng các phép biến đổi như chuyển tính năngphân giỏ để lập mô hình phi tuyến tính theo nhiều cách.

Tương phản với mô hình sâu.

chiều rộng

Số lượng nơ-ron trong một lớp cụ thể của một mạng nơron.

của đám đông

#df

Ý tưởng cho rằng việc tính trung bình ý kiến hoặc ước tính của một nhóm lớn người dùng ("đám đông") thường tạo ra kết quả tốt đáng ngạc nhiên. Ví dụ: hãy xem xét một trò chơi trong đó mọi người đoán số lượng đậu thạch được đóng gói vào một lọ lớn. Mặc dù hầu hết các cá nhân dự đoán sẽ không chính xác, trung bình của tất cả các phỏng đoán là thực tế cho thấy gần sát với số lượng thực tế đậu phộng trong lọ.

Ensembles là một phần mềm tương tự như trí tuệ của đám đông. Ngay cả khi từng mô hình đưa ra những dự đoán hết sức chính xác, việc lấy trung bình dự đoán của nhiều mô hình thường tạo ra các kết quả đáng ngạc nhiên các dự đoán phù hợp. Ví dụ, mặc dù một cá nhân cây quyết định có thể đưa ra các dự đoán kém hiệu quả, rừng quyết định thường đưa ra các dự đoán rất chính xác.

nhúng từ

#language

Trình bày từng từ trong một nhóm từ trong một vectơ nhúng; tức là đại diện cho mỗi từ như vectơ của các giá trị dấu phẩy động nằm trong khoảng từ 0,0 đến 1,0. Các từ có từ tương tự ý nghĩa được trình bày giống với những từ có nghĩa khác. Ví dụ: cà rốt, cần tâydưa chuột sẽ có tương đối các cách trình bày tương tự nhau, nên các bản trình bày đó rất khác với bản trình bày máy bay, kính râmkem đánh răng.

X

XLA (Đại số tuyến tính gia tốc)

Trình biên dịch học máy nguồn mở cho GPU, CPU và trình tăng tốc học máy.

Trình biên dịch XLA lấy mô hình từ các khung máy học phổ biến như PyTorch, TensorFlowJAX rồi tối ưu hoá chúng để thực thi hiệu suất cao trên nhiều nền tảng phần cứng, bao gồm GPU, CPU và trình tăng tốc học máy.

Z

học tập trung thực

Một loại hình đào tạo học máy mà trong đó model dự đoán dự đoán cho một tác vụ mà công nghệ này chưa được đào tạo cụ thể. Nói cách khác, mô hình không được cung cấp ví dụ huấn luyện theo nhiệm vụ cụ thể nhưng được hỏi để suy luận cho tác vụ đó.

nhắc thủ công

#language
#generativeAI

Lời nhắc không đưa ra ví dụ về cách bạn muốn mô hình ngôn ngữ lớn để phản hồi. Ví dụ:

Các phần của một câu lệnh Ghi chú
Đơn vị tiền tệ chính thức của quốc gia đã chỉ định là gì? Câu hỏi mà bạn muốn LLM trả lời.
Ấn Độ: Cụm từ tìm kiếm thực tế.

Mô hình ngôn ngữ lớn có thể phản hồi với bất kỳ yêu cầu nào sau đây:

  • Rupee
  • INR
  • Đồng rupi Ấn Độ
  • Rupee
  • Rupee Ấn Độ

Tất cả các câu trả lời đều đúng, mặc dù bạn có thể thích một định dạng cụ thể.

So sánh và đối chiếu lời nhắc chụp ảnh 0 chính với các cụm từ sau:

Chuẩn hoá điểm Z

#fundamentals

Kỹ thuật điều chỉnh tỷ lệ thay thế dữ liệu thô Giá trị feature với một giá trị dấu phẩy động biểu thị số độ lệch chuẩn so với giá trị trung bình của đối tượng đó. Ví dụ: hãy xem xét một đối tượng có giá trị trung bình là 800 và có giá trị chuẩn độ lệch là 100. Bảng sau đây trình bày cách chuẩn hoá điểm Z sẽ ánh xạ giá trị thô với điểm Z của nó:

Giá trị thô Điểm Z
800 0
950 +1,5
575 -2,25

Sau đó, mô hình học máy sẽ huấn luyện dựa trên điểm số Z cho tính năng đó thay vì trên các giá trị thô.