Bảng thuật ngữ máy học

Bảng thuật ngữ này trình bày các thuật ngữ chung về máy học, cùng với các thuật ngữ dành riêng cho TensorFlow.

Đáp

sự phá huỷ

Một kỹ thuật để đánh giá tầm quan trọng của một tính năng hoặc thành phần bằng cách tạm thời xoá tính năng đó khỏi mô hình. Sau đó, bạn sẽ huấn luyện lại mô hình mà không có tính năng hoặc thành phần đó. Nếu mô hình được huấn luyện lại hoạt động kém hơn đáng kể, thì tính năng hoặc thành phần đã xoá có thể rất quan trọng.

Ví dụ: giả sử bạn huấn luyện một mô hình phân loại trên 10 tính năng và đạt được độ chính xác 88% trên tập kiểm thử. Để kiểm tra tầm quan trọng của tính năng đầu tiên, bạn có thể huấn luyện lại mô hình chỉ bằng 9 tính năng khác. Nếu mô hình được huấn luyện lại hoạt động kém hơn đáng kể (ví dụ: độ chính xác 55%), thì tính năng bị xoá có thể quan trọng. Ngược lại, nếu mô hình được huấn luyện lại hoạt động hiệu quả như nhau, thì tính năng đó có thể không quan trọng lắm.

Việc loại bỏ cũng có thể giúp xác định tầm quan trọng của:

  • Các thành phần lớn hơn, chẳng hạn như toàn bộ hệ thống con của một hệ thống học máy lớn hơn
  • Các quy trình hoặc kỹ thuật, chẳng hạn như bước xử lý trước dữ liệu

Trong cả hai trường hợp, bạn sẽ quan sát thấy hiệu suất của hệ thống thay đổi (hoặc không thay đổi) sau khi xoá thành phần.

Thử nghiệm A/B

Một phương pháp thống kê để so sánh hai (hoặc nhiều) kỹ thuật – kỹ thuật AB. Thông thường, A là một kỹ thuật hiện có và B là một kỹ thuật mới. Thử nghiệm A/B không chỉ xác định kỹ thuật nào hoạt động hiệu quả hơn mà còn xác định xem sự chênh lệch có ý nghĩa thống kê hay không.

Thử nghiệm A/B thường so sánh một chỉ số duy nhất trên hai kỹ thuật; ví dụ: độ chính xác của mô hình so sánh với hai kỹ thuật như thế nào? Tuy nhiên, thử nghiệm A/B cũng có thể so sánh số lượng chỉ số hữu hạn bất kỳ.

chip tăng tốc

#GoogleCloud

Một danh mục thành phần phần cứng chuyên dụng được thiết kế để thực hiện các phép tính chính cần thiết cho các thuật toán học sâu.

Chip tăng tốc (hay nói ngắn gọn là trình tăng tốc) có thể tăng đáng kể tốc độ và hiệu quả của các tác vụ huấn luyện và suy luận so với CPU đa năng. Đây là định dạng lý tưởng để huấn luyện mạng nơron và các tác vụ tính toán tương tự chuyên sâu.

Ví dụ về khối tăng tốc:

  • Đơn vị xử lý Tensor của Google (TPU) với phần cứng chuyên dụng dành cho công nghệ học sâu.
  • GPU của NVIDIA, mặc dù ban đầu được thiết kế để xử lý đồ hoạ, nhưng được thiết kế để cho phép xử lý song song, nhờ đó có thể tăng đáng kể tốc độ xử lý.

độ chính xác

#fundamentals

Số cụm từ gợi ý phân loại chính xác chia cho tổng số cụm từ gợi ý. Đó là:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ví dụ: một mô hình đưa ra 40 dự đoán chính xác và 10 dự đoán sai sẽ có độ chính xác là:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Phân loại nhị phân cung cấp tên cụ thể cho các danh mục cụm từ gợi ý chính xáccụm từ gợi ý không chính xác. Vì vậy, công thức chính xác để phân loại nhị phân như sau:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

trong đó:

So sánh và đối chiếu độ chính xác với độ chính xácrecall.

hành động

#rl

Trong học tăng cường, cơ chế mà tác nhân chuyển đổi giữa các trạng thái của môi trường. Tác nhân sẽ chọn hành động bằng cách sử dụng một chính sách.

hàm kích hoạt

#fundamentals

Một hàm cho phép mạng nơron tìm hiểu mối quan hệ phi tuyến (phức tạp) giữa các tính năng và nhãn.

Các hàm kích hoạt phổ biến bao gồm:

Biểu đồ của các hàm kích hoạt không bao giờ là các đường thẳng đơn. Ví dụ: biểu đồ của hàm kích hoạt ReLU bao gồm 2 đường thẳng:

Biểu đồ Cartesian gồm hai dòng. Dòng đầu tiên có giá trị y không đổi bằng 0, chạy dọc theo trục x từ -vô cực,0 đến 0,-0.
          Dòng thứ hai bắt đầu từ 0,0. Đường này có hệ số góc +1, vì vậy, nó chạy từ 0,0 đến +vô cùng,+vô cùng.

Biểu đồ của hàm kích hoạt sigmoid có dạng như sau:

Một biểu đồ cong hai chiều có các giá trị x trong miền từ vô cực đến + dương, trong khi các giá trị y nằm trong khoảng gần từ 0 đến gần 1. Khi x bằng 0, y là 0,5. Độ dốc của đường cong luôn là số dương, với độ dốc cao nhất là 0,0,5 và giảm dần độ dốc khi giá trị tuyệt đối của x tăng.

học tập chủ động

Phương pháp đào tạo, trong đó thuật toán chọn một số dữ liệu mà thuật toán học được. Phương pháp học chủ động đặc biệt có giá trị khi các ví dụ có gắn nhãn không có nhiều hoặc rất tốn kém. Thay vì tìm kiếm một cách mù quáng những ví dụ có gắn nhãn, một thuật toán học tập chủ động sẽ tìm kiếm một cách có chọn lọc các ví dụ cụ thể cần thiết cho quá trình học.

AdaGrad

Một thuật toán giảm độ dốc tinh vi giúp điều chỉnh độ dốc của từng tham số, đem lại cho mỗi tham số một tốc độ học tập độc lập một cách hiệu quả. Để biết nội dung giải thích đầy đủ, hãy xem bài viết này về AdaGrad.

nhân viên hỗ trợ

#rl

Trong học tăng cường, thực thể sử dụng chính sách để tối đa hoá lợi tức dự kiến nhận được từ việc chuyển đổi giữa các trạng thái của môi trường.

Nói chung, tác nhân là một phần mềm có khả năng tự lập kế hoạch và thực hiện một loạt hành động để theo đuổi mục tiêu, với khả năng thích ứng với những thay đổi trong môi trường. Ví dụ: các nhân viên hỗ trợ dựa trên LLM có thể sử dụng LLM để tạo ra một kế hoạch, thay vì áp dụng một chính sách học củng cố.

cụm tổng hợp

#clustering

Hãy xem nội dung phân cụm phân cấp.

phát hiện hoạt động bất thường

Quá trình xác định các điểm ngoại lai. Ví dụ: nếu giá trị trung bình của một tính năng nhất định là 100 với độ lệch chuẩn là 10, thì tính năng phát hiện hoạt động bất thường sẽ gắn cờ giá trị 200 là đáng ngờ.

Thực tế tăng cường (AR)

Từ viết tắt cho thực tế tăng cường.

diện tích dưới đường cong PR

Xem PR AUC (Vùng dưới đường cong PR).

diện tích dưới đường cong ROC

Xem AUC (Diện tích dưới đường cong ROC).

trí tuệ nhân tạo tổng quát

Một cơ chế không do con người thực hiện, thể hiện nhiều hoạt động giải quyết vấn đề, khả năng sáng tạo và khả năng thích ứng. Ví dụ: một chương trình thể hiện trí tuệ nhân tạo nói chung có thể dịch văn bản, soạn bản giao hưởng vượt trội trong các trò chơi chưa được phát minh.

trí tuệ nhân tạo

#fundamentals

Một model hoặc chương trình không do con người thực hiện có thể giải quyết những công việc phức tạp. Ví dụ: một chương trình hoặc mô hình dịch văn bản hoặc một chương trình hoặc mô hình xác định bệnh qua hình ảnh phóng xạ đều thể hiện trí tuệ nhân tạo.

Về chính thức, máy học là một lĩnh vực phụ của trí tuệ nhân tạo. Tuy nhiên, trong những năm gần đây, một số tổ chức đã bắt đầu sử dụng các thuật ngữ trí tuệ nhân tạohọc máy thay thế cho nhau.

chú ý

#language

Một cơ chế dùng trong mạng nơron cho biết tầm quan trọng của một từ hoặc một phần cụ thể của từ. Sự chú ý sẽ nén lượng thông tin mà một mô hình cần để dự đoán mã thông báo/từ tiếp theo. Một cơ chế chú ý điển hình có thể bao gồm tổng có trọng số trên một tập hợp các dữ liệu đầu vào, trong đó, trọng số cho mỗi đầu vào được tính toán bằng một phần khác của mạng nơron.

Hãy tham khảo thêm cả tính năng tự chú ýtự chú ý nhiều đầu, là các khối dựng của Transformers.

phân bổ

#fairness

Từ đồng nghĩa với tính năng.

Khi nói đến tính công bằng của công nghệ học máy, thuộc tính thường đề cập đến các đặc điểm liên quan đến các cá nhân.

lấy mẫu thuộc tính

#df

Một chiến thuật để huấn luyện một rừng quyết định, trong đó mỗi cây quyết định chỉ xem xét một tập hợp con ngẫu nhiên gồm các tính năng có thể có khi tìm hiểu điều kiện. Nhìn chung, một nhóm nhỏ tính năng khác nhau sẽ được lấy mẫu cho mỗi nút. Ngược lại, khi huấn luyện cây quyết định mà không lấy mẫu thuộc tính, tất cả các tính năng có thể có đều được xem xét cho mỗi nút.

AUC (Diện tích dưới đường cong ROC)

#fundamentals

Một số từ 0,0 đến 1,0 thể hiện khả năng của mô hình phân loại nhị phân trong việc phân tách các lớp dương khỏi lớp phủ định. AUC càng gần 1.0 thì khả năng phân tách các lớp của mô hình càng tốt.

Ví dụ: hình minh hoạ sau đây cho thấy một mô hình thuật toán phân loại giúp phân tách các lớp dương (hình bầu dục màu xanh lục) khỏi các lớp phủ định (hình chữ nhật màu tím) một cách hoàn hảo. Mô hình hoàn hảo đến phi thực tế này có AUC là 1.0:

Một dòng số có 8 ví dụ khẳng định ở một bên và 9 ví dụ phủ định ở bên còn lại.

Ngược lại, hình minh hoạ sau đây cho thấy kết quả của một mô hình thuật toán phân loại đã tạo ra kết quả ngẫu nhiên. Mô hình này có AUC là 0,5:

Một dòng số có 6 ví dụ khẳng định và 6 ví dụ phủ định.
          Trình tự các ví dụ là dương, âm, dương, âm, dương, âm, dương, âm, dương âm, dương, âm.

Có, mô hình trước có AUC là 0, 5, không phải 0, 0.

Hầu hết các mô hình đều nằm đâu đó giữa hai cực trị. Ví dụ: mô hình sau đây phân biệt giá trị dương với giá trị âm một phần, do đó có AUC ở khoảng từ 0, 5 đến 1:

Một dòng số có 6 ví dụ khẳng định và 6 ví dụ phủ định.
          Trình tự các ví dụ là phủ định, âm, phủ định, phủ định, khẳng định, phủ định, tích cực, khẳng định, phủ định, khẳng định, khẳng định, khẳng định.

AUC sẽ bỏ qua mọi giá trị mà bạn đã đặt cho ngưỡng phân loại. Thay vào đó, AUC sẽ xem xét tất cả các ngưỡng phân loại có thể xảy ra.

thực tế tăng cường

#image

Một công nghệ xếp chồng hình ảnh do máy tính tạo lên góc nhìn của người dùng về thế giới thực, từ đó cung cấp khung hiển thị tổng hợp.

bộ mã hoá tự động

#language
#image

Một hệ thống học cách trích xuất thông tin quan trọng nhất từ dữ liệu đầu vào. Bộ tự động mã hoá là sự kết hợp giữa bộ mã hoábộ giải mã. Bộ tự động mã hoá hoạt động theo quy trình hai bước sau đây:

  1. Bộ mã hoá sẽ ánh xạ đầu vào sang một định dạng chiều thấp (trung gian) có tổn hao.
  2. Bộ giải mã tạo ra một phiên bản có tổn hao của dữ liệu đầu vào ban đầu bằng cách ánh xạ định dạng đầu vào chiều thấp hơn với định dạng đầu vào chiều cao ban đầu.

Bộ mã hoá tự động được huấn luyện từ đầu đến cuối bằng cách yêu cầu bộ giải mã cố gắng tái tạo lại dữ liệu đầu vào ban đầu từ định dạng trung gian của bộ mã hoá một cách sát sao nhất có thể. Vì định dạng trung gian nhỏ hơn (chiều thấp hơn) so với định dạng ban đầu, nên bộ mã hoá tự động buộc phải tìm hiểu thông tin nào trong đầu vào là thiết yếu và đầu ra sẽ không hoàn toàn giống với đầu vào.

Ví dụ:

  • Nếu dữ liệu đầu vào là hình ảnh đồ hoạ, thì bản sao không chính xác sẽ tương tự như hình ảnh gốc, nhưng được sửa đổi đôi chút. Có thể bản sao không chính xác sẽ loại bỏ nhiễu khỏi đồ hoạ gốc hoặc điền vào một số pixel bị thiếu.
  • Nếu dữ liệu đầu vào là văn bản, thì bộ mã hoá tự động sẽ tạo văn bản mới mô phỏng (nhưng không giống hệt) văn bản gốc.

Hãy xem thêm về bộ mã hoá tự động đa dạng.

thiên kiến tự động

#fairness

Khi người ra quyết định là con người ưu tiên các đề xuất của hệ thống ra quyết định tự động hơn là thông tin được tạo ra mà không có tính năng tự động hoá, ngay cả khi hệ thống ra quyết định tự động gặp lỗi.

AutoML

Bất kỳ quy trình tự động nào để xây dựng mô hình máy học. AutoML có thể tự động thực hiện những việc như sau:

AutoML rất hữu ích cho các nhà khoa học dữ liệu vì có thể giúp họ tiết kiệm thời gian và công sức trong việc phát triển quy trình học máy cũng như cải thiện độ chính xác của thông tin dự đoán. API này cũng hữu ích cho những người không phải chuyên gia, bằng cách giúp họ dễ tiếp cận các công việc học máy phức tạp hơn.

mô hình hồi quy tự động

#language
#image
#AI tạo sinh

model dự đoán thông tin dự đoán dựa trên các dự đoán trước đó của chính mô hình đó. Ví dụ: các mô hình ngôn ngữ tự động hồi quy sẽ dự đoán mã thông báo tiếp theo dựa trên mã thông báo được dự đoán trước đó. Tất cả mô hình ngôn ngữ lớn dựa trên Transformer đều tự động hồi quy.

Ngược lại, các mô hình hình ảnh dựa trên GAN thường không tự động hồi quy vì các mô hình này tạo ra hình ảnh theo một truyền tiến và không lặp lại trong các bước. Tuy nhiên, một số mô hình tạo hình ảnh nhất định tính năng tự động hồi quy vì các mô hình này tạo ra hình ảnh theo bước.

tổn thất phụ trợ

Hàm mất – dùng cùng với hàm mất chính của mạng nơron của mô hình nhằm giúp tăng tốc quá trình huấn luyện trong vòng lặp đầu tiên khi trọng số được khởi tạo ngẫu nhiên.

Các hàm suy hao phụ trợ sẽ đẩy độ dốc hiệu quả đến các lớp trước đó. Việc này giúp tạo điều kiện sự hội tụ trong quá trình huấn luyện bằng cách chống lại vấn đề về độ dốc biến mất.

độ chính xác trung bình

Chỉ số để tóm tắt hiệu suất của một chuỗi kết quả được xếp hạng. Độ chính xác trung bình được tính bằng cách lấy giá trị trung bình của các giá trị độ chính xác cho từng kết quả liên quan (mỗi kết quả trong danh sách được xếp hạng mà số lượt thu hồi tăng so với kết quả trước đó).

Xem thêm Khu vực dưới đường cong PR.

điều kiện căn chỉnh theo trục

#df

Trong cây quyết định, một điều kiện chỉ liên quan đến một tính năng. Ví dụ: nếu khu vực là một đối tượng, thì sau đây là điều kiện căn chỉnh theo trục:

area > 200

Tương phản với điều kiện xiên.

B

lan truyền ngược

#fundamentals

Thuật toán triển khai quá trình giảm độ dốc trong mạng nơron.

Việc huấn luyện mạng nơron liên quan đến nhiều vòng lặp của chu kỳ 2 vòng sau đây:

  1. Trong lượt chuyển tiếp, hệ thống sẽ xử lý một gói gồm ví dụ để tạo ra(các) thông tin dự đoán. Hệ thống sẽ so sánh từng gợi ý với từng giá trị label. Trong ví dụ đó, sự khác biệt giữa thông tin dự đoán và giá trị nhãn là mất. Hệ thống sẽ tổng hợp các mức tổn thất cho tất cả ví dụ để tính toán tổng mức tổn thất cho lô hiện tại.
  2. Trong quá trình truyền ngược (truyền ngược), hệ thống giúp giảm tổn thất bằng cách điều chỉnh trọng số của tất cả nơ-ron thần kinh trong tất cả (các) lớp ẩn.

Mạng nơron thường chứa nhiều nơron trong nhiều lớp ẩn. Mỗi nơron này góp phần gây ra tình trạng mất mát tổng thể theo những cách khác nhau. Tính năng lan truyền ngược xác định xem liệu có tăng hay giảm trọng số áp dụng cho các nơron cụ thể hay không.

Tốc độ học là một hệ số kiểm soát mức độ tăng hoặc giảm của mỗi trọng số. Tốc độ học lớn sẽ tăng hoặc giảm từng trọng số nhiều hơn so với tốc độ học nhỏ.

Trong thuật toán, phương pháp lan truyền ngược triển khai quy tắc chuỗi của thuật toán. Tức là kỹ thuật lan truyền ngược tính toán đạo hàm một phần của lỗi tương ứng với từng tham số.

Nhiều năm trước, các chuyên viên công nghệ học máy phải viết mã để triển khai kỹ thuật lan truyền ngược. Giờ đây, các API học máy hiện đại như TensorFlow triển khai kỹ thuật lan truyền ngược cho bạn. Chà!

hành lý

#df

Phương thức để huấn luyện một tập hợp trong đó mỗi mô hình cấu thành sẽ huấn luyện trên một tập hợp con ngẫu nhiên các ví dụ huấn luyện được lấy mẫu bằng phương thức thay thế. Ví dụ: khu rừng ngẫu nhiên là tập hợp các cây quyết định được huấn luyện có đóng gói.

Thuật ngữ bagging là viết tắt của bootstrap aggregating.

túi từ

#language

Biểu thị các từ trong một cụm từ hoặc đoạn văn, không phân biệt thứ tự. Ví dụ: túi từ biểu thị giống hệt nhau cho 3 cụm từ sau:

  • chú chó nhảy lên
  • nhảy chó
  • chú chó nhảy

Mỗi từ được liên kết với một chỉ mục trong vectơ thưa, trong đó vectơ có một chỉ mục cho mọi từ trong từ vựng. Ví dụ: cụm từ chó nhảy được ánh xạ thành một vectơ đặc trưng có các giá trị khác 0 ở ba chỉ mục tương ứng với các từ chó, chónhảy. Giá trị khác 0 có thể là bất kỳ giá trị nào sau đây:

  • Số 1 để cho biết một từ đã có mặt.
  • Số lần một từ xuất hiện trong túi. Ví dụ: nếu cụm từ là chó màu nâu sẫm là chó có bộ lông màu nâu sẫm, thì cả màu nâu sẫmchó sẽ được biểu thị là 2, trong khi các từ khác sẽ được biểu thị là 1.
  • Một số giá trị khác, chẳng hạn như lôgarit của số lần một từ xuất hiện trong túi.

đường cơ sở

model được dùng làm điểm tham chiếu để so sánh hiệu suất của một mô hình khác (thường là một mô hình phức tạp hơn). Ví dụ: mô hình hồi quy logistic có thể đóng vai trò là đường cơ sở phù hợp cho mô hình sâu.

Đối với một vấn đề cụ thể, đường cơ sở giúp các nhà phát triển mô hình định lượng hiệu suất dự kiến tối thiểu mà một mô hình mới phải đạt được để mô hình mới trở nên hữu ích.

#fundamentals

Tập hợp ví dụ được sử dụng trong một vòng lặp huấn luyện. Kích thước lô xác định số lượng ví dụ trong một lô.

Vui lòng xem phần epoch (thời gian bắt đầu của hệ thống) để biết nội dung giải thích về mối liên hệ của một lô với một khoảng thời gian bắt đầu của hệ thống.

suy luận theo lô

#TensorFlow
#GoogleCloud

Quá trình suy luận dự đoán trên nhiều ví dụ chưa được gắn nhãn được chia thành các tập con nhỏ hơn ("các lô").

Suy luận theo lô có thể tận dụng các tính năng song song của khối tăng tốc. Điều đó có nghĩa là nhiều trình tăng tốc có thể cùng lúc dự đoán thông tin dự đoán về nhiều lô ví dụ chưa gắn nhãn, làm tăng đáng kể số lượng suy luận mỗi giây.

chuẩn hoá theo lô

Chuẩn hoá dữ liệu đầu vào hoặc đầu ra của các hàm kích hoạt trong một lớp ẩn. Việc chuẩn hoá theo lô có thể mang lại các lợi ích sau:

kích thước lô

#fundamentals

Số lượng ví dụ trong một gói. Ví dụ: nếu kích thước lô là 100 thì mô hình sẽ xử lý 100 ví dụ mỗi vòng lặp.

Sau đây là các chiến lược kích thước lô phổ biến:

  • Xuống dốc chuyển màu ngẫu nhiên (SGD), trong đó kích thước lô là 1.
  • Toàn bộ lô, trong đó kích thước lô là số lượng ví dụ trong toàn bộ tập hợp huấn luyện. Ví dụ: nếu tập huấn luyện chứa một triệu ví dụ, thì kích thước lô sẽ là một triệu ví dụ. Toàn bộ lô thường là một chiến lược không hiệu quả.
  • lô nhỏ trong đó kích thước lô thường nằm trong khoảng từ 10 đến 1000. Lô nhỏ thường là chiến lược hiệu quả nhất.

Mạng nơron Bayes

Một mạng nơron xác suất có tính đến sự không chắc chắn về trọng số và đầu ra. Mô hình hồi quy mạng nơron chuẩn thường dự đoán một giá trị vô hướng; ví dụ: mô hình chuẩn dự đoán giá nhà là 853.000. Ngược lại, mạng nơron Bayes dự đoán sự phân phối giá trị; ví dụ: mô hình Bayes dự đoán giá nhà là 853.000 với độ lệch chuẩn là 67.200.

Mạng nơron Bayes dựa vào Định lý Bayes để tính toán những yếu tố không chắc chắn về trọng số và thông tin dự đoán. Mạng nơron Bayes có thể hữu ích khi cần quan trọng trong việc định lượng độ bất định, chẳng hạn như trong các mô hình liên quan đến dược phẩm. Mạng nơron Bayes cũng có thể giúp ngăn chặn hiện tượng kết hợp quá mức.

Tối ưu hoá Bayes

Kỹ thuật mô hình hồi quy xác suất để tối ưu hoá các hàm mục tiêu tốn kém tính toán bằng cách tối ưu hoá một giá trị thay thế giúp định lượng độ không chắc chắn bằng kỹ thuật học Bayes. Vì bản thân quá trình tối ưu hoá Bayesian cũng rất tốn kém, nên phương pháp này thường dùng để tối ưu hoá các tác vụ tốn kém để đánh giá có ít tham số, chẳng hạn như chọn siêu tham số.

Phương trình Bellman

#rl

Trong phương pháp học tăng cường, danh tính sau đây được hàm Q tối ưu đáp ứng:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Các thuật toán Học tăng cường áp dụng danh tính này để tạo Q- Learning thông qua quy tắc cập nhật sau đây:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Ngoài phương pháp học tăng cường, phương trình Bellman cũng có các ứng dụng trong lập trình động. Vui lòng xem mục trên Wikipedia cho phương trình Bellman.

BERT (Bộ mã hoá hai chiều Bản trình bày từ bộ chuyển đổi)

#language

Cấu trúc mô hình cho phần trình bày văn bản. Mô hình BERT đã qua huấn luyện có thể hoạt động như một phần của một mô hình lớn hơn để phân loại văn bản hoặc các tác vụ học máy khác.

BERT có các đặc điểm sau:

Các biến thể của BERT bao gồm:

Xem bài viết Tìm nguồn mở BERT: Khoá đào tạo trước tiên tiến về lĩnh vực xử lý ngôn ngữ tự nhiên để biết thông tin tổng quan về BERT.

thiên kiến (đạo đức/công bằng)

#fairness
#fundamentals

1. Định kiến, định kiến hoặc thiên vị đối với một số thứ, con người hoặc nhóm người hơn những thứ khác. Những thiên kiến này có thể ảnh hưởng đến việc thu thập và diễn giải dữ liệu, thiết kế hệ thống và cách người dùng tương tác với hệ thống. Các hình thức của loại thiên vị này bao gồm:

2. Lỗi hệ thống do quy trình lấy mẫu hoặc báo cáo gây ra. Các hình thức của loại thiên vị này bao gồm:

Đừng nhầm lẫn với thuật ngữ thiên vị trong các mô hình học máy hoặc thiên kiến dự đoán.

thiên kiến (toán) hoặc thuật ngữ thiên kiến

#fundamentals

Giao điểm hoặc bù trừ so với một nguồn gốc. Độ lệch là một tham số trong các mô hình học máy, được ký hiệu bằng một trong các tham số sau:

  • b
  • t0

Ví dụ: độ lệch là b trong công thức sau:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Trong một đường hai chiều đơn giản, độ lệch chỉ có nghĩa là "giao điểm y". Ví dụ: độ lệch của đường trong hình minh hoạ sau là 2.

Đồ thị của một đường thẳng có hệ số góc bằng 0,5 và độ chệch (giao điểm y) bằng 2.

Độ lệch tồn tại vì không phải mọi mô hình đều bắt đầu từ nguồn gốc (0,0). Ví dụ: giả sử một công viên giải trí có giá vé vào cửa là 2 Euro và thêm 0,5 Euro cho mỗi giờ khách hàng lưu trú. Do đó, một mô hình ánh xạ tổng chi phí có độ chệch là 2 vì chi phí thấp nhất là 2 Euro.

Đừng nhầm lẫn giữa thiên vị với thiên vị trong đạo đức và công bằng hoặc thiên vị dự đoán.

hai chiều

#language

Thuật ngữ dùng để mô tả hệ thống đánh giá văn bản cả trướcsau một phần văn bản mục tiêu. Ngược lại, hệ thống một chiều chỉ đánh giá văn bản trước một phần văn bản đích.

Ví dụ: hãy xem xét một mô hình ngôn ngữ được che giấu phải xác định xác suất của từ hoặc các từ thể hiện dấu gạch dưới trong câu hỏi sau:

Bạn _____ ở đâu?

Mô hình ngôn ngữ một chiều sẽ chỉ phải dựa trên xác suất của nó dựa trên ngữ cảnh được cung cấp qua các từ "What", "is" và "the". Ngược lại, mô hình ngôn ngữ hai chiều cũng có thể nhận được ngữ cảnh từ "với" và "bạn", điều này có thể giúp mô hình này đưa ra dự đoán chính xác hơn.

mô hình ngôn ngữ hai chiều

#language

Mô hình ngôn ngữ xác định xác suất một mã thông báo nhất định sẽ hiện diện ở một vị trí nhất định trong phần trích dẫn văn bản dựa trên văn bản trướcsau.

Bigram

#seq
#language

N-gram trong đó N=2.

phân loại nhị phân

#fundamentals

Loại tác vụ phân loại dự đoán một trong hai lớp loại trừ lẫn nhau:

Ví dụ: hai mô hình học máy sau đây đều thực hiện việc phân loại nhị phân:

  • Một mô hình xác định xem email là thư rác (lớp khẳng định) hay không phải là thư rác (lớp phủ định).
  • Một mô hình đánh giá các triệu chứng y tế để xác định xem một người có mắc bệnh cụ thể (nhóm dương tính) hay không mắc bệnh đó (nhóm âm tính).

Trái ngược với phương thức phân loại nhiều lớp.

Hãy xem thêm bài viết về hồi quy logisticngưỡng phân loại.

điều kiện nhị phân

#df

Trong cây quyết định, một điều kiện chỉ có hai kết quả có thể xảy ra, thường là hoặc không. Ví dụ: sau đây là một điều kiện nhị phân:

temperature >= 100

Tương phản với tình trạng phi nhị giới.

phân thùng

Từ đồng nghĩa với phân giỏ hàng.

BLEU (Nghiên cứu đánh giá song ngữ)

#language

Điểm số nằm trong khoảng từ 0, 0 đến 1, 0, cho biết chất lượng của bản dịch giữa hai ngôn ngữ của con người (ví dụ: giữa tiếng Anh và tiếng Nga). Điểm BLEU là 1.0 cho thấy bản dịch hoàn hảo; điểm BLEU 0.0 cho thấy bản dịch rất kém.

tăng cường

Một kỹ thuật học máy kết hợp lặp lại một tập hợp các thuật toán phân loại đơn giản và không chính xác lắm (gọi là thuật toán phân loại "yếu") thành một thuật toán phân loại có độ chính xác cao (thuật toán phân loại "mạnh") bằng cách chia trọng số các ví dụ mà mô hình hiện đang phân loại sai.

hộp giới hạn

#image

Trong một hình ảnh, toạ độ (x, y) của một hình chữ nhật xung quanh một khu vực quan tâm, chẳng hạn như chú chó trong hình bên dưới.

Ảnh chụp một chú chó đang ngồi trên ghế sofa. Một hộp giới hạn màu xanh lục có toạ độ trên cùng bên trái là (275, 1271) và toạ độ dưới cùng bên phải là (2954, 2761) bao quanh cơ thể chú chó

đang phát sóng

Mở rộng hình dạng của một toán hạng trong phép toán ma trận theo chiều tương thích với toán tử đó. Ví dụ: đại số tuyến tính yêu cầu hai toán hạng trong phép cộng ma trận phải có cùng kích thước. Do đó, bạn không thể thêm ma trận có hình dạng (m, n) vào vectơ có độ dài n. Tính năng truyền tin cho phép thao tác này bằng cách mở rộng một cách ảo vectơ có độ dài n thành ma trận có hình dạng (m, n) bằng cách sao chép các giá trị giống nhau xuống từng cột.

Ví dụ: với các định nghĩa sau đây, đại số tuyến tính cấm A+B vì A và B có các kích thước khác nhau:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Tuy nhiên, tính năng phát sóng cho phép hoạt động A+B bằng cách mở rộng ảo B thành:

 [[2, 2, 2],
  [2, 2, 2]]

Do đó, A+B hiện là một toán tử hợp lệ:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Hãy xem nội dung mô tả sau đây về hoạt động truyền tin trong NumPy để biết thêm thông tin chi tiết.

phân giỏ

#fundamentals

Việc chuyển đổi một tính năng duy nhất thành nhiều tính năng nhị phân được gọi là bộ chứa hoặc thùng, thường dựa trên phạm vi giá trị. Tính năng cắt nhỏ thường là tính năng liên tục.

Ví dụ: thay vì biểu thị nhiệt độ dưới dạng một tính năng dấu phẩy động liên tục, bạn có thể cắt phạm vi nhiệt độ thành các nhóm riêng biệt, chẳng hạn như:

  • <= 10 độ C sẽ được coi là bộ chứa "lạnh".
  • 11 - 24 độ C sẽ là vùng "ôn hoà".
  • >= 25 độ C sẽ là thùng "ấm".

Mô hình này sẽ xử lý giống nhau mọi giá trị trong cùng một bộ chứa. Ví dụ: giá trị 1322 đều nằm trong bộ chứa ôn hoà, vì vậy, mô hình sẽ xử lý hai giá trị này giống hệt nhau.

C

tầng hiệu chỉnh

Mức điều chỉnh sau khi dự đoán, thường để tính đến thiên vị dự đoán. Các thông tin dự đoán và xác suất được điều chỉnh phải khớp với cách phân phối một tập hợp nhãn quan sát được.

tạo ứng viên

#recsystems

Nhóm đề xuất ban đầu do hệ thống đề xuất lựa chọn. Ví dụ: hãy xem xét một hiệu sách cung cấp 100.000 đầu sách. Giai đoạn tạo đề xuất sẽ tạo ra một danh sách nhỏ hơn nhiều gồm các sách phù hợp cho một người dùng cụ thể, chẳng hạn như 500. Tuy nhiên, ngay cả 500 cuốn sách cũng là quá nhiều để đề xuất cho người dùng. Sau đó, các giai đoạn tốn kém hơn của hệ thống đề xuất (chẳng hạn như tính điểmxếp hạng lại) sẽ giảm 500 đó xuống một tập hợp các đề xuất nhỏ hơn và hữu ích hơn nhiều.

lấy mẫu ứng viên

Quá trình tối ưu hoá tại thời điểm huấn luyện sẽ tính toán xác suất cho tất cả các nhãn dương, chẳng hạn như sử dụng softmax, nhưng chỉ cho một mẫu nhãn âm ngẫu nhiên. Ví dụ: trong một ví dụ có nhãn beagledog, việc lấy mẫu đề xuất sẽ tính toán xác suất dự đoán và điều khoản tổn thất tương ứng cho:

  • beagle
  • chó
  • một tập hợp con ngẫu nhiên trong số các lớp phủ định còn lại (ví dụ: cat, lollipop, fence).

Ý tưởng là các lớp phủ định có thể học từ việc tăng cường phủ định ít thường xuyên hơn, miễn là các lớp tích cực luôn nhận được củng cố tích cực thích hợp và điều này thực sự được quan sát theo kinh nghiệm.

Việc lấy mẫu đề xuất hiệu quả hơn về mặt tính toán so với các thuật toán huấn luyện giúp tính toán thông tin dự đoán cho tất cả các lớp phủ định, đặc biệt là khi số lượng lớp phủ định là rất lớn.

dữ liệu phân loại

#fundamentals

Các tính năng có một tập hợp cụ thể các giá trị có thể có. Ví dụ: hãy xem xét một tính năng phân loại có tên traffic-light-state. Tính năng này chỉ có thể có một trong 3 giá trị có thể có sau đây:

  • red
  • yellow
  • green

Bằng cách thể hiện traffic-light-state dưới dạng một tính năng phân loại, một mô hình có thể tìm hiểu các tác động khác nhau của red, greenyellow đối với hành vi của người lái xe.

Các tính năng phân loại đôi khi được gọi là tính năng riêng biệt.

Trái ngược với dữ liệu số.

mô hình ngôn ngữ nhân quả

#language

Từ đồng nghĩa với mô hình ngôn ngữ một chiều.

Xem mô hình ngôn ngữ hai chiều để tương phản các phương pháp tiếp cận theo hướng khác nhau trong mô hình ngôn ngữ.

tâm

#clustering

Tâm của cụm do thuật toán k-means hoặc k-median xác định. Ví dụ: nếu k là 3, thì thuật toán k-means hoặc k-median sẽ tìm 3 trọng tâm.

phân cụm dựa trên tâm

#clustering

Một danh mục thuật toán cụm sắp xếp dữ liệu vào các cụm không phân cấp. k-means là thuật toán phân cụm dựa trên trọng tâm được sử dụng rộng rãi nhất.

Trái ngược với các thuật toán phân cụm phân cấp.

gợi nhắc chuỗi suy nghĩ

#language
#AI tạo sinh

Kỹ thuật kỹ thuật câu lệnh khuyến khích mô hình ngôn ngữ lớn (LLM) giải thích lý do của mô hình đó từng bước. Ví dụ: hãy xem xét lời nhắc sau đây, đặc biệt chú ý đến câu thứ hai:

Người lái xe sẽ gặp bao nhiêu lực g trong một chiếc ô tô đi từ 0 đến 60 dặm mỗi giờ trong 7 giây? Trong câu trả lời, hãy trình bày tất cả phép tính có liên quan.

Câu trả lời của LLM có thể là:

  • Cho thấy một chuỗi các công thức vật lý, nhập các giá trị 0, 60 và 7 ở những vị trí thích hợp.
  • Giải thích lý do chọn công thức đó và ý nghĩa của các biến.

Việc nhắc chuỗi suy nghĩ buộc LLM thực hiện tất cả các phép tính, nhờ đó có thể đưa ra câu trả lời chính xác hơn. Ngoài ra, việc nhắc chuỗi suy nghĩ cho phép người dùng kiểm tra các bước của LLM để xác định xem câu trả lời có hợp lý hay không.

trò chuyện

#language
#AI tạo sinh

Nội dung của cuộc hội thoại qua lại với hệ thống học máy, thường là mô hình ngôn ngữ lớn. Hoạt động tương tác trước đó trong một cuộc trò chuyện (nội dung bạn đã nhập và cách mô hình ngôn ngữ lớn trả lời) sẽ trở thành ngữ cảnh cho các phần tiếp theo của cuộc trò chuyện.

Chatbot là một ứng dụng của mô hình ngôn ngữ lớn.

chốt kiểm tra

Dữ liệu ghi lại trạng thái tham số của mô hình ở một lần lặp lại quá trình huấn luyện cụ thể. Các điểm kiểm tra cho phép xuất trọng số mô hình hoặc thực hiện huấn luyện trên nhiều phiên. Các điểm kiểm tra cũng cho phép quá trình huấn luyện tiếp tục xảy ra các lỗi trong quá khứ (ví dụ: giành quyền làm việc).

Khi điều chỉnh, điểm bắt đầu để huấn luyện mô hình mới sẽ là một điểm kiểm tra cụ thể của mô hình huấn luyện trước.

lớp

#fundamentals

Danh mục có thể thuộc về nhãn. Ví dụ:

  • Trong mô hình phân loại nhị phân phát hiện nội dung rác, hai lớp có thể là nội dung ráckhông phải nội dung rác.
  • Trong mô hình phân loại nhiều lớp xác định các giống chó, các lớp đó có thể là chó poodle, beagle, pug, v.v.

Mô hình phân loại dự đoán một lớp. Ngược lại, mô hình hồi quy sẽ dự đoán một số thay vì một lớp.

mô hình phân loại

#fundamentals

Một model có dự đoán là một model. Ví dụ: sau đây là tất cả các mô hình phân loại:

  • Mô hình dự đoán ngôn ngữ của câu nhập (tiếng Pháp? Tiếng Tây Ban Nha? Tiếng Ý?).
  • Một mô hình dự đoán các loài cây (Maple? Oak? Baobab?).
  • Một mô hình dự đoán lớp dương hoặc lớp âm tính cho một tình trạng y tế cụ thể.

Ngược lại, mô hình hồi quy sẽ dự đoán số thay vì lớp.

Hai loại mô hình phân loại phổ biến là:

ngưỡng phân loại

#fundamentals

Trong phân loại nhị phân, một số từ 0 đến 1 chuyển đổi đầu ra thô của mô hình hồi quy logistic thành thông tin dự đoán cho lớp dương hoặc lớp âm. Xin lưu ý rằng ngưỡng phân loại là giá trị do con người chọn, không phải giá trị do quá trình huấn luyện mô hình chọn.

Mô hình hồi quy logistic đưa ra giá trị thô trong khoảng từ 0 đến 1. Sau đó:

  • Nếu giá trị thô này lớn hơn ngưỡng phân loại, thì lớp dương sẽ được dự đoán.
  • Nếu giá trị thô này nhỏ hơn ngưỡng phân loại, thì lớp phủ định sẽ được dự đoán.

Ví dụ: giả sử ngưỡng phân loại là 0, 8. Nếu giá trị thô là 0, 9 thì mô hình sẽ dự đoán lớp dương. Nếu giá trị thô là 0, 7 thì mô hình sẽ dự đoán lớp âm.

Lựa chọn ngưỡng phân loại ảnh hưởng rất nhiều đến số lượng lỗi dương tính giảâm tính giả.

tập dữ liệu bất cân bằng về lớp

#fundamentals

Tập dữ liệu cho một bài toán phân loại trong đó tổng số nhãn của mỗi lớp khác nhau đáng kể. Ví dụ: hãy xem xét một tập dữ liệu phân loại nhị phân có hai nhãn được chia như sau:

  • 1.000.000 nhãn âm
  • 10 nhãn khẳng định

Tỷ lệ nhãn âm và nhãn dương là 100.000:1,vì vậy, đây là một tập dữ liệu không cân bằng về lớp.

Ngược lại, tập dữ liệu sau đây không bị mất cân bằng về lớp vì tỷ lệ nhãn âm so với nhãn dương tương đối gần bằng 1:

  • 517 nhãn phủ định
  • 483 nhãn dương

Tập dữ liệu nhiều lớp cũng có thể không cân bằng về lớp. Ví dụ: tập dữ liệu phân loại nhiều lớp sau đây cũng không cân bằng về lớp vì một nhãn có nhiều ví dụ hơn hai nhãn còn lại:

  • 1.000.000 nhãn có phân loại "xanh"
  • 200 nhãn có lớp "màu tím"
  • 350 nhãn có loại "cam"

Hãy xem thêm entropy, lớp đa sốlớp thiểu số.

cắt đoạn

#fundamentals

Kỹ thuật xử lý các điểm ngoại lai bằng cách thực hiện một hoặc cả hai cách sau đây:

  • Giảm các giá trị feature lớn hơn ngưỡng tối đa xuống ngưỡng tối đa đó.
  • Tăng các giá trị tính năng nhỏ hơn một ngưỡng tối thiểu cho tới ngưỡng tối thiểu đó.

Ví dụ: giả sử rằng <0, 5% giá trị của một tính năng cụ thể nằm ngoài phạm vi 40 – 60. Trong trường hợp này, bạn có thể làm như sau:

  • Cắt tất cả các giá trị trên 60 (ngưỡng tối đa) thành chính xác 60.
  • Cắt tất cả các giá trị dưới 40 (ngưỡng tối thiểu) thành chính xác 40.

Các giá trị ngoại lai có thể làm hỏng mô hình, đôi khi khiến trọng số bị tràn trong quá trình huấn luyện. Một số điểm ngoại lai cũng có thể làm hỏng đáng kể các chỉ số như độ chính xác. Cắt đoạn là một kỹ thuật phổ biến để hạn chế thiệt hại.

Thao tác Cắt dần buộc các giá trị gradient trong một phạm vi được chỉ định trong quá trình huấn luyện.

Cloud TPU

#TensorFlow
#GoogleCloud

Một trình tăng tốc phần cứng chuyên biệt được thiết kế để tăng tốc tải công việc học máy trên Google Cloud.

phân cụm

#clustering

Nhóm các ví dụ có liên quan, đặc biệt là trong giai đoạn học không giám sát. Sau khi tất cả ví dụ được nhóm lại, người dùng có thể tuỳ ý cung cấp ý nghĩa cho từng cụm.

Hiện có nhiều thuật toán phân cụm. Ví dụ: các ví dụ về cụm thuật toán k-means dựa trên độ gần của chúng với trung tâm, như trong sơ đồ sau:

Biểu đồ hai chiều trong đó trục x được gắn nhãn chiều rộng cây và trục y được gắn nhãn chiều cao cây. Biểu đồ chứa 2 tâm điểm và hàng chục điểm dữ liệu. Các điểm dữ liệu được phân loại dựa trên mức độ gần. Tức là các điểm dữ liệu gần nhất với một tâm sẽ được phân loại là cụm 1, trong khi các điểm gần nhất với tâm khác được phân loại là cụm 2.

Sau đó, một nhà nghiên cứu có thể xem xét các cụm đó và chẳng hạn như gắn nhãn cụm 1 là "cây lùn" và cụm 2 là "cây có kích thước đầy đủ".

Một ví dụ khác, hãy xem xét thuật toán phân cụm dựa trên khoảng cách của ví dụ từ điểm trung tâm, được minh hoạ như sau:

Hàng chục điểm dữ liệu được sắp xếp trong các vòng tròn đồng tâm, gần giống như các lỗ xung quanh tâm của bảng phi tiêu. Vòng trong cùng của các điểm dữ liệu được phân loại là vòng 1, vòng ở giữa được phân loại là cụm 2 và vòng ngoài cùng được phân loại là cụm 3.

thích ứng

Khi các nơron dự đoán các mẫu trong dữ liệu huấn luyện bằng cách gần như dựa vào dữ liệu đầu ra của các nơron cụ thể khác thay vì dựa vào toàn bộ hành vi của mạng. Khi các mẫu gây ra hiện tượng đồng điều chỉnh không có trong dữ liệu xác thực, thì quá trình đồng điều chỉnh sẽ gây ra hiện tượng quá mức. Quy trình điều chỉnh bỏ qua làm giảm quá trình đồng thích ứng vì tách rời đảm bảo các nơron không thể chỉ dựa vào các nơron cụ thể khác.

lọc cộng tác

#recsystems

Đưa ra dự đoán về mối quan tâm của một người dùng dựa trên mối quan tâm của nhiều người dùng khác. Tính năng lọc cộng tác thường được dùng trong các hệ thống đề xuất.

sự trôi dạt khái niệm

Thay đổi trong mối quan hệ giữa các tính năng và nhãn. Theo thời gian, sự trôi dạt về khái niệm sẽ làm giảm chất lượng của mô hình.

Trong quá trình huấn luyện, mô hình sẽ tìm hiểu mối quan hệ giữa các tính năng và nhãn của chúng trong tập huấn luyện. Nếu các nhãn trong tập huấn luyện là proxy phù hợp cho thế giới thực, thì mô hình đó phải đưa ra dự đoán chính xác trong thực tế. Tuy nhiên, do sự trôi dạt khái niệm, thông tin dự đoán của mô hình có xu hướng suy giảm theo thời gian.

Ví dụ: hãy cân nhắc một mô hình phân loại nhị phân giúp dự đoán liệu một mẫu ô tô nhất định có "tiết kiệm nhiên liệu" hay không. Tức là các tính năng có thể:

  • trọng lượng ô tô
  • nén động cơ
  • loại truyền dữ liệu

trong khi nhãn đang:

  • tiết kiệm nhiên liệu
  • không tiết kiệm nhiên liệu

Tuy nhiên, khái niệm "ô tô tiết kiệm nhiên liệu" không ngừng thay đổi. Một mẫu ô tô được gắn nhãn tiết kiệm nhiên liệu vào năm 1994 gần như chắc chắn sẽ được gắn nhãn không tiết kiệm nhiên liệu vào năm 2024. Một mô hình bị ảnh hưởng bởi sự trôi dạt về khái niệm có xu hướng đưa ra các dự đoán ít hữu ích hơn theo thời gian.

So sánh và đối chiếu với tính không ổn định.

điều kiện

#df

Trong cây quyết định, mọi nút đánh giá một biểu thức. Ví dụ: phần sau của cây quyết định chứa hai điều kiện:

Cây quyết định bao gồm hai điều kiện: (x > 0) và (y > 0).

Một điều kiện còn được gọi là phân tách hoặc kiểm thử.

Điều kiện tương phản với leaf.

Xem thêm:

nói chuyện phiếm

#language

Từ đồng nghĩa với ảo giác.

Phỏng đoán có lẽ là thuật ngữ chính xác hơn về mặt kỹ thuật chứ không phải ảo tưởng. Tuy nhiên, ảo giác trở nên phổ biến trước.

cấu hình

Quá trình chỉ định các giá trị thuộc tính ban đầu dùng để huấn luyện một mô hình, bao gồm:

Trong các dự án học máy, bạn có thể định cấu hình thông qua một tệp cấu hình đặc biệt hoặc sử dụng các thư viện cấu hình như sau:

thiên kiến xác nhận

#fairness

Xu hướng tìm kiếm, diễn giải, ưu tiên và nhớ lại thông tin theo cách xác nhận niềm tin hoặc giả thuyết đã có từ trước của một người. Các nhà phát triển công nghệ học máy có thể vô tình thu thập hoặc gắn nhãn dữ liệu theo những cách ảnh hưởng đến kết quả nhằm củng cố niềm tin hiện tại của họ. Thiên kiến xác nhận là một dạng thiên kiến ngầm.

Thiên kiến của người thử nghiệm là một dạng thiên kiến xác nhận, trong đó người thử nghiệm tiếp tục các mô hình huấn luyện cho đến khi một giả thuyết đã có trước được xác nhận.

ma trận nhầm lẫn

#fundamentals

Bảng NxN tóm tắt số lượng dự đoán chính xác và không chính xác mà mô hình phân loại đưa ra. Ví dụ: hãy xem xét ma trận nhầm lẫn sau đây cho mô hình phân loại nhị phân:

Khối u (dự đoán) Không phải khối u (dự đoán)
Khối u (dữ liệu thực tế) 18 (TP) 1 (FN)
Không phải khối u (sự thật) 6 (FP) 452 (TN)

Ma trận nhầm lẫn trước đó cho thấy những điều sau:

  • Trong số 19 thông tin dự đoán có thông tin chính xác là Tumor, mô hình này đã phân loại chính xác 18 và phân loại không chính xác là 1.
  • Trong số 458 thông tin dự đoán mà thông tin thực tế là Không phải Khối u, mô hình này đã phân loại chính xác 452 và phân loại không chính xác là 6.

Ma trận nhầm lẫn cho bài toán phân loại nhiều lớp có thể giúp bạn xác định các quy luật sai lầm. Ví dụ: hãy xem xét ma trận nhầm lẫn sau đây cho mô hình phân loại nhiều lớp 3 lớp giúp phân loại 3 loại mống mắt khác nhau (Virginica, Versicolor và Setosa). Khi sự thật thực tế là Virginica, ma trận nhầm lẫn cho thấy rằng mô hình có nhiều khả năng dự đoán nhầm Versicolor hơn Setosa:

  Setosa (dự đoán) Versicolor (dự đoán) Virginica (dự đoán)
Setosa (sự thật trên mặt đất) 88 12 0
Versicolor (thực tế) 6 141 7
Virginica (sự thật) 2 27 109

Một ví dụ khác, ma trận nhầm lẫn có thể cho biết rằng một mô hình được huấn luyện để nhận dạng các chữ số viết tay có xu hướng dự đoán nhầm 9 thay vì 4, hoặc dự đoán nhầm 1 thay vì 7.

Ma trận nhầm lẫn chứa đủ thông tin để tính toán nhiều chỉ số hiệu suất, bao gồm độ chính xácmức độ ghi nhớ.

phân tích cú pháp khu vực bầu cử

#language

Chia một câu thành các cấu trúc ngữ pháp nhỏ hơn ("thành phần"). Phần sau của hệ thống ML, chẳng hạn như mô hình hiểu ngôn ngữ tự nhiên, có thể phân tích cú pháp các thành phần dễ dàng hơn câu gốc. Ví dụ: hãy xem xét câu sau:

Bạn tôi nuôi hai con mèo.

Một trình phân tích cú pháp khu vực bầu cử có thể chia câu này thành 2 thành phần sau:

  • Bạn của tôi là một cụm danh từ.
  • con mèo đã nhận nuôi là một cụm động từ.

Các thành phần này có thể được chia nhỏ hơn nữa thành các thành phần nhỏ hơn. Ví dụ: cụm động từ

nhận nuôi hai chú mèo

có thể được chia nhỏ hơn nữa thành:

  • đã cho phép là một động từ.
  • hai con mèo là một cụm danh từ khác.

nhúng ngôn ngữ theo ngữ cảnh

#language
#AI tạo sinh

Nội dung nhúng giúp "hiểu được" các từ và cụm từ theo cách mà người bản địa có thể làm. Kỹ thuật nhúng ngôn ngữ theo ngữ cảnh có thể hiểu được cú pháp, ngữ nghĩa và ngữ cảnh phức tạp.

Ví dụ: hãy xem xét việc nhúng từ tiếng Anh cow. Các mục nhúng cũ hơn như word2vec có thể biểu thị các từ tiếng Anh sao cho khoảng cách trong không gian nhúng từ đến bò đực tương tự như khoảng cách từ bò cái (cừu cái) đến ram (cừu đực) hoặc từ nữ đến đực. Việc nhúng ngôn ngữ theo ngữ cảnh có thể tiến xa hơn nữa khi nhận ra rằng người nói tiếng Anh đôi khi vô tình dùng từ cow (bò) để chỉ con bò hoặc bò đực.

cửa sổ ngữ cảnh

#language
#AI tạo sinh

Số lượng mã thông báo mà mô hình có thể xử lý trong một lời nhắc nhất định. Cửa sổ ngữ cảnh càng lớn, mô hình càng có thể sử dụng nhiều thông tin hơn để đưa ra câu trả lời mạch lạc và nhất quán cho lời nhắc.

tính chất liên tục

#fundamentals

Tính năng dấu phẩy động với phạm vi giá trị có thể sử dụng là vô hạn, chẳng hạn như nhiệt độ hoặc trọng lượng.

Tương phản với tính năng tách biệt.

lấy mẫu tiện lợi

Sử dụng tập dữ liệu không được thu thập một cách khoa học để chạy các thử nghiệm nhanh. Sau này, bạn cần phải chuyển sang một tập dữ liệu được thu thập một cách khoa học.

sự hội tụ

#fundamentals

Trạng thái đạt đến khi các giá trị mất thay đổi rất ít hoặc hoàn toàn không thay đổi sau mỗi vòng lặp. Ví dụ: đường cong suy giảm sau đây cho thấy sự hội tụ ở khoảng 700 lần lặp:

Cốt truyện Descartes. Trục X biểu thị sự mất mát. Trục Y là số lần lặp lại huấn luyện. Tỷ lệ mất rất cao trong vài lần lặp lại đầu tiên, nhưng giảm mạnh. Sau khoảng 100 lần lặp lại, mức độ mất đi vẫn giảm dần nhưng chậm hơn rất nhiều. Sau khoảng 700 lần lặp lại, dữ liệu không bị mất vẫn không thay đổi.

Một mô hình chuyển đổi khi huấn luyện thêm sẽ không cải thiện được mô hình đó.

Trong học sâu, giá trị tổn hao đôi khi không đổi hoặc gần như vậy trong nhiều lần lặp lại trước khi giảm dần. Trong một khoảng thời gian dài của các giá trị tổn hao liên tục, bạn có thể tạm thời có cảm giác nhầm lẫn về sự hội tụ.

Hãy xem thêm mục dừng sớm.

hàm lồi

Một hàm mà trong đó vùng phía trên đồ thị của hàm số là một tập hợp lồi. Hàm lồi nguyên mẫu có hình dạng giống như chữ cái U. Ví dụ: sau đây là tất cả hàm lồi:

Đường cong hình chữ U, mỗi đường cong có một điểm tối thiểu duy nhất.

Ngược lại, hàm sau không lồi. Lưu ý vì sao vùng phía trên biểu đồ không phải là một tập lồi:

Một đường cong hình chữ W có hai điểm tối thiểu cục bộ khác nhau.

Một hàm lồi nghiêm ngặt có chính xác một điểm tối thiểu cục bộ, đây cũng là điểm tối thiểu toàn cục. Hàm hình chữ U cổ điển là hàm lồi nghiêm ngặt. Tuy nhiên, một số hàm lồi (ví dụ: đường thẳng) không có hình chữ U.

tối ưu hoá lồi

Quá trình sử dụng các kỹ thuật toán học như giảm độ dốc để tìm giá trị tối thiểu của hàm lồi. Rất nhiều nghiên cứu về công nghệ học máy tập trung vào việc hình thành nhiều vấn đề dưới dạng bài toán tối ưu hoá lồi và giải quyết các vấn đề đó một cách hiệu quả hơn.

Để biết đầy đủ thông tin, vui lòng xem bài viết của Boyd và Vandenberghe, bài viết Tối ưu hoá lồi.

tập lồi

Một tập hợp con không gian Euclide sao cho một đường thẳng được vẽ giữa hai điểm bất kỳ trong tập con vẫn nằm hoàn toàn trong tập hợp con. Ví dụ: 2 hình dạng sau đây là các tập hợp lồi:

Một hình minh hoạ một hình chữ nhật. Một hình minh hoạ khác về hình bầu dục.

Ngược lại, hai hình dạng sau đây không phải là tập hợp lồi:

Một hình minh hoạ biểu đồ hình tròn bị thiếu một lát cắt.
          Hình minh hoạ khác về một đa giác không đều đặn.

tích chập

#image

Trong toán học, nói một cách đơn giản, đó là sự kết hợp của hai hàm. Trong công nghệ học máy, tích chập kết hợp bộ lọc tích chập và ma trận đầu vào để huấn luyện trọng số.

Thuật ngữ "tích chập" trong công nghệ học máy thường là cách gọi ngắn để chỉ phép tích chập hoặc lớp tích chập.

Nếu không có tích chập, thuật toán học máy sẽ phải biết trọng số riêng biệt cho mỗi ô trong một tensor lớn. Ví dụ: thuật toán học máy huấn luyện hình ảnh 2K x 2K sẽ buộc phải tìm trọng số riêng biệt là 4M. Nhờ tích chập, thuật toán học máy chỉ phải tìm trọng số cho mọi ô trong bộ lọc tích chập, làm giảm đáng kể bộ nhớ cần thiết cho việc huấn luyện mô hình. Khi bộ lọc tích chập được áp dụng, bộ lọc chỉ được sao chép trên các ô sao cho mỗi ô được nhân với bộ lọc.

bộ lọc tích chập

#image

Một trong hai tác nhân trong một hoạt động tích chập. (Tác nhân còn lại là một lát cắt của ma trận đầu vào.) Bộ lọc tích chập là một ma trận có cùng thứ hạng với ma trận đầu vào, nhưng có hình dạng nhỏ hơn. Ví dụ: với ma trận đầu vào có kích thước 28x28, bộ lọc có thể là bất kỳ ma trận 2D nào có kích thước nhỏ hơn 28x28.

Trong thao tác chụp ảnh, tất cả các ô trong bộ lọc tích chập thường được đặt thành một mẫu không đổi gồm các giá trị x và 0. Trong công nghệ học máy, bộ lọc tích chập thường được khởi đầu bằng các số ngẫu nhiên, sau đó mạng đào tạo các giá trị lý tưởng.

lớp tích chập

#image

Một lớp của mạng nơron sâu trong đó bộ lọc tích chập truyền qua ma trận đầu vào. Ví dụ: hãy xem xét bộ lọc tích chập 3x3 sau đây:

Ma trận 3x3 với các giá trị sau: [[0,1,0], [1,0,1], [0,1,0]]

Ảnh động sau đây cho thấy một lớp tích chập bao gồm 9 phép tích chập liên quan đến ma trận đầu vào 5x5. Lưu ý rằng mỗi phép chập hoạt động trên một lát cắt 3x3 khác của ma trận đầu vào. Ma trận 3x3 thu được (ở bên phải) bao gồm kết quả của 9 phép chập:

Ảnh động minh hoạ 2 ma trận. Ma trận đầu tiên là ma trận 5x5: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179,4].
          Ma trận thứ hai là ma trận 3x3:
          [[181.303.618], [115.338.605], [169.351.560]].
          Ma trận thứ hai được tính bằng cách áp dụng bộ lọc tích chập [[0, 1, 0], [1, 0, 1], [0, 1, 0]] trên các tập con 3x3 khác nhau của ma trận 5x5.

mạng nơron tích chập

#image

Một mạng nơron trong đó ít nhất một lớp là lớp tích chập. Một mạng nơron tích chập thông thường bao gồm một số tổ hợp gồm các lớp sau:

Mạng nơron tích chập đã thành công lớn trong một số loại vấn đề, chẳng hạn như nhận dạng hình ảnh.

phép tích chập

#image

Phép toán hai bước sau đây:

  1. Phép nhân trên các phần tử của bộ lọc tích chập và một lát cắt của ma trận đầu vào. (Lát cắt của ma trận đầu vào có cùng thứ hạng và kích thước với bộ lọc tích chập.)
  2. Tổng của tất cả các giá trị trong ma trận tích thu được.

Ví dụ: hãy xem xét ma trận đầu vào 5x5 sau:

Ma trận 5x5: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,4]

Giờ hãy tưởng tượng bộ lọc tích chập 2x2 sau đây:

Ma trận 2x2: [[1, 0], [0, 1]]

Mỗi toán tử tích chập liên quan đến một lát cắt 2x2 của ma trận đầu vào. Ví dụ: giả sử chúng ta sử dụng lát cắt 2x2 ở trên cùng bên trái của ma trận đầu vào. Vì vậy, phép tích chập trên lát cắt này sẽ có dạng như sau:

Áp dụng bộ lọc tích chập [[1, 0], [0, 1]] cho phần 2x2 trên cùng bên trái của ma trận đầu vào, là [[128,97], [35,22]].
          Bộ lọc tích chập giữ nguyên giá trị 128 và 22, nhưng sẽ loại bỏ giá trị 97 và 35. Do đó, phép tích chập mang lại giá trị 150 (128+22).

Lớp tích chập bao gồm một loạt phép toán tích chập, mỗi phép toán hoạt động trên một lát cắt khác nhau của ma trận đầu vào.

chi phí

Từ đồng nghĩa với mất.

đồng đào tạo

Phương pháp học bán có giám sát đặc biệt hữu ích khi tất cả các điều kiện sau đây đều đúng:

Việc cùng huấn luyện về cơ bản sẽ khuếch đại các tín hiệu độc lập thành tín hiệu mạnh hơn. Ví dụ: hãy xem xét mô hình phân loại để phân loại từng ô tô đã qua sử dụng là Tốt hoặc Kém. Một bộ tính năng dự đoán có thể tập trung vào các đặc điểm tổng hợp như năm sản xuất, hãng xe và mẫu xe. Một bộ tính năng dự đoán khác có thể tập trung vào hồ sơ lái xe của chủ sở hữu trước và nhật ký bảo dưỡng ô tô.

Bài viết quan trọng về hoạt động đồng đào tạo là về chủ đề Kết hợp dữ liệu có gắn nhãn và không được gắn nhãn với hoạt động đồng huấn luyện của Blum và Mike.

tính công bằng phản thực tế

#fairness

Chỉ số về tính công bằng giúp kiểm tra xem thuật toán phân loại có tạo ra cùng một kết quả cho một cá nhân giống như cho một cá nhân khác giống hệt với cá nhân đầu tiên, ngoại trừ một hoặc nhiều thuộc tính nhạy cảm. Việc đánh giá thuật toán phân loại để xác định tính công bằng phản thực tế là một phương pháp để chỉ ra các nguồn có thể gây sai lệch trong một mô hình.

Vui lòng xem phần "Khi các thế giới xung đột: Tích hợp các giả định phản thực tế khác nhau về tính công bằng" để thảo luận chi tiết hơn về tính công bằng phản thực tế.

thiên kiến về phạm vi bao phủ

#fairness

Hãy xem phần thiên vị lựa chọn.

hoa va chạm

#language

Câu hoặc cụm từ có nghĩa mơ hồ. Hoa lỗi dẫn đến sự cố là một vấn đề đáng kể về hiểu ngôn ngữ tự nhiên. Ví dụ: dòng tiêu đề Red Tape giữ lên tòa nhà chọc trời là một sự cố phát sinh từ sự cố vì mô hình NLU có thể diễn giải dòng tiêu đề theo nghĩa đen hoặc theo nghĩa bóng.

nhà phê bình

#rl

Từ đồng nghĩa với Deep Q-Network.

đồng entropy

Thông tin tổng quát về Mất nhật ký đối với các vấn đề về phân loại nhiều lớp. Entropy chéo định lượng sự khác biệt giữa hai mức phân phối xác suất. Hãy xem thêm về độ phức tạp.

xác thực chéo

Một cơ chế để ước tính mức độ hiệu quả của một model sẽ tổng quát hoá dữ liệu mới bằng cách kiểm thử mô hình đó với một hoặc nhiều tập hợp con dữ liệu không chồng chéo được giữ lại từ model.

hàm phân phối tích lũy (CDF)

Một hàm xác định tần suất của mẫu nhỏ hơn hoặc bằng giá trị mục tiêu. Ví dụ: hãy xem xét hàm phân phối chuẩn của các giá trị liên tục. CDF cho bạn biết rằng khoảng 50% mẫu phải nhỏ hơn hoặc bằng giá trị trung bình và khoảng 84% mẫu phải nhỏ hơn hoặc bằng một độ lệch chuẩn trên trung bình.

D

phân tích dữ liệu

Hiểu được dữ liệu bằng cách xem xét các mẫu, đo lường và trực quan hoá. Việc phân tích dữ liệu có thể đặc biệt hữu ích khi nhận được tập dữ liệu lần đầu, trước khi tạo model đầu tiên. Điều này cũng rất quan trọng trong việc hiểu rõ các thử nghiệm và gỡ lỗi sự cố với hệ thống.

tăng cường dữ liệu

#image

Dùng phương pháp giả tạo để tăng phạm vi và số lượng ví dụ đào tạo bằng cách chuyển đổi ví dụ hiện có để tạo thêm ví dụ. Ví dụ: giả sử hình ảnh là một trong các tính năng của bạn, nhưng tập dữ liệu của bạn không chứa đủ ví dụ về hình ảnh để mô hình tìm hiểu các mối liên kết hữu ích. Tốt nhất là bạn nên thêm đủ hình ảnh được gắn nhãn vào tập dữ liệu để giúp mô hình được huấn luyện đúng cách. Nếu không thể, tính năng tăng cường dữ liệu có thể xoay, kéo giãn và phản ánh từng hình ảnh để tạo ra nhiều biến thể của ảnh gốc, có thể mang lại đủ dữ liệu được gắn nhãn để cho phép huấn luyện hiệu quả.

DataFrame

#fundamentals

Loại dữ liệu gấu trúc phổ biến để biểu thị tập dữ liệu trong bộ nhớ.

DataFrame tương tự như một bảng hoặc một bảng tính. Mỗi cột của DataFrame có một tên (tiêu đề) và mỗi hàng được xác định bằng một số duy nhất.

Mỗi cột trong DataFrame có cấu trúc như một mảng 2D, ngoại trừ việc mỗi cột có thể được chỉ định một loại dữ liệu riêng.

Ngoài ra, hãy xem trang tham khảo chính thức của pandas.DataFrame.

tính song song dữ liệu

Một cách mở rộng quy mô huấn luyện hoặc suy luận để sao chép toàn bộ mô hình trên nhiều thiết bị, sau đó truyền một tập hợp con dữ liệu đầu vào đến mỗi thiết bị. Tính song song dữ liệu có thể cho phép huấn luyện và suy luận về kích thước lô rất lớn; tuy nhiên, tính song song dữ liệu yêu cầu mô hình đủ nhỏ để vừa với tất cả các thiết bị.

Tính song song dữ liệu thường tăng tốc độ huấn luyện và suy luận.

Xem thêm về mô hình song song.

tập dữ liệu hoặc tập dữ liệu

#fundamentals

Một tập hợp dữ liệu thô, thường (nhưng không chỉ) được sắp xếp theo một trong các định dạng sau:

  • một bảng tính
  • tệp ở định dạng CSV (giá trị được phân tách bằng dấu phẩy)

API Tập dữ liệu (tf.data)

#TensorFlow

Một API TensorFlow cấp cao để đọc và biến dữ liệu thành dạng mà thuật toán học máy yêu cầu. Đối tượng tf.data.Dataset đại diện cho một chuỗi các phần tử, trong đó mỗi phần tử chứa một hoặc nhiều Tensor. Đối tượng tf.data.Iterator cung cấp quyền truy cập vào các phần tử của Dataset.

Để biết thông tin chi tiết về Dataset API, hãy xem bài viết tf.data: Xây dựng quy trình nhập dữ liệu TensorFlow trong Hướng dẫn lập trình TensorFlow.

ranh giới quyết định

Dòng phân cách giữa các lớp do một mô hình học trong lớp nhị phân hoặc vấn đề về phân loại nhiều lớp. Ví dụ: trong hình sau đây minh hoạ một vấn đề phân loại nhị phân, ranh giới quyết định là ranh giới giữa lớp cam và lớp màu xanh dương:

Ranh giới được xác định rõ ràng giữa lớp này và lớp khác.

rừng quyết định

#df

Mô hình được tạo từ nhiều cây quyết định. Rừng quyết định đưa ra thông tin dự đoán bằng cách tổng hợp thông tin dự đoán của các cây quyết định. Các loại rừng quyết định phổ biến bao gồm rừng ngẫu nhiêncây được tăng cường độ dốc.

ngưỡng quyết định

Từ đồng nghĩa với ngưỡng phân loại.

cây quyết định

#df

Mô hình học tập có giám sát bao gồm một tập hợp conditionsconditions được sắp xếp theo hệ phân cấp. Ví dụ: sau đây là cây quyết định:

Một cây quyết định bao gồm 4 điều kiện được sắp xếp theo hệ phân cấp, dẫn đến 5 lá.

bộ giải mã

#language

Nhìn chung, mọi hệ thống học máy chuyển đổi từ biểu diễn bên trong, mật độ hoặc đã được xử lý sang dạng trình bày thô, thưa thớt hoặc bên ngoài hơn.

Bộ giải mã thường là một thành phần của mô hình lớn hơn, thường được ghép nối với một bộ mã hoá.

Trong các tác vụ theo trình tự, bộ giải mã sẽ bắt đầu với trạng thái nội bộ do bộ mã hoá tạo ra để dự đoán trình tự tiếp theo.

Tham khảo Bộ biến áp để biết định nghĩa về bộ giải mã trong cấu trúc Bộ biến áp.

mô hình sâu

#fundamentals

Một mạng nơron chứa nhiều hơn một lớp ẩn.

Mô hình sâu còn được gọi là mạng nơron sâu.

Tương phản với mô hình rộng.

mạng nơron sâu

Từ đồng nghĩa với mô hình sâu.

Mạng Q sâu (DQN)

#rl

Trong học hỏi, một mạng nơron sâu sẽ dự đoán hàm Q.

Phê bình là từ đồng nghĩa với Mạng Q-S sâu.

sự tương đồng về nhân khẩu học

#fairness

Một chỉ số về tính công bằng sẽ được đáp ứng nếu kết quả phân loại mô hình không phụ thuộc vào một thuộc tính nhạy cảm nhất định.

Ví dụ: nếu cả người Lilliputian và người Brobdingnagian đều đăng ký vào Đại học Grubdubdrib, thì mức tương đương về nhân khẩu học sẽ đạt được nếu tỷ lệ phần trăm người Lilliputian được nhận giống với tỷ lệ người Brobdingnagian được nhận vào, bất kể trung bình một nhóm có đủ tiêu chuẩn hơn nhóm kia hay không.

Trái ngược với tỷ lệ chênh lệch bằngbằng cơ hội, cho phép kết quả phân loại tổng hợp phụ thuộc vào các thuộc tính nhạy cảm, nhưng không cho phép kết quả phân loại cho một số nhãn thông tin thực tế nhất định phụ thuộc vào các thuộc tính nhạy cảm. Xem bài viết "Tấn công phân biệt đối xử bằng công nghệ học máy thông minh" để biết hình ảnh trực quan về cách khám phá các yếu tố đánh đổi khi tối ưu hoá sự tương đồng về nhân khẩu học.

khử nhiễu

#language

Một phương pháp phổ biến đối với hình thức học tự giám sát, trong đó:

  1. Tiếng ồn được thêm một cách giả tạo vào tập dữ liệu.
  2. model sẽ cố gắng loại bỏ tiếng ồn.

Tính năng khử nhiễu giúp bạn học hỏi từ các ví dụ chưa được gắn nhãn. Tập dữ liệu ban đầu đóng vai trò mục tiêu hoặc nhãn và dữ liệu gây nhiễu đóng vai trò là dữ liệu đầu vào.

Một số mô hình ngôn ngữ được che giấu sử dụng tính năng khử nhiễu như sau:

  1. Tiếng ồn được thêm một cách giả tạo vào một câu chưa gắn nhãn bằng cách che một số mã thông báo.
  2. Mô hình sẽ cố gắng dự đoán mã thông báo ban đầu.

tính chất mật độ cao

#fundamentals

Một tính năng trong đó hầu hết hoặc tất cả các giá trị đều khác 0, thường là một Tensor của các giá trị dấu phẩy động. Ví dụ: Tensor 10 phần tử sau đây có mật độ cao vì 9 giá trị của chuỗi này khác 0:

8 3 7 5 2 4 0 4 9 6

Tương phản với tính năng thưa thớt.

lớp dày đặc

Từ đồng nghĩa với lớp được kết nối hoàn toàn.

chiều sâu

#fundamentals

Tổng của những giá trị sau trong mạng nơron:

Ví dụ: một mạng nơron có 5 lớp ẩn và một lớp đầu ra có độ sâu là 6.

Lưu ý rằng lớp đầu vào không ảnh hưởng đến chiều sâu.

mạng nơron tích chập phân tách theo chiều sâu (sepCNN)

#image

Cấu trúc mạng nơron tích chập dựa trên Inception, nhưng trong đó các mô-đun Inception được thay thế bằng các mô-đun tích chập có thể phân tách theo chiều sâu. Còn được gọi là Xception.

Tích chập phân tách theo chiều sâu (còn gọi là tích chập có thể tách rời) đưa tích chập 3D chuẩn thành hai phép chập riêng biệt hiệu quả hơn về mặt tính toán: đầu tiên là tích chập sâu, với độ sâu là 1 (n x n mới 1), và sau đó là tích chập 1 x 1 (với chiều dài và chiều rộng x 1).

Để tìm hiểu thêm, hãy xem bài viết Xception: Deep Learning with depthwise Separable Convolution.

nhãn phái sinh

Từ đồng nghĩa với nhãn proxy.

thiết bị

#TensorFlow
#GoogleCloud

Thuật ngữ quá tải có thể có hai định nghĩa sau đây:

  1. Một danh mục phần cứng có thể chạy phiên TensorFlow, bao gồm CPU, GPU và TPU.
  2. Khi huấn luyện một mô hình học máy trên chip tăng tốc (GPU hoặc TPU), phần của hệ thống thực sự điều khiển tensortính năng nhúng. Thiết bị chạy trên vi mạch trình tăng tốc. Ngược lại, máy chủ lưu trữ thường chạy trên CPU.

sự riêng tư biệt lập

Trong công nghệ học máy, đó là một phương pháp ẩn danh để bảo vệ mọi dữ liệu nhạy cảm (ví dụ: thông tin cá nhân của một cá nhân) trong tập hợp huấn luyện của mô hình không bị tiết lộ. Phương pháp này đảm bảo rằng model không học hoặc nhớ nhiều về một cá nhân cụ thể. Điều này được thực hiện bằng cách lấy mẫu và thêm độ nhiễu trong quá trình huấn luyện mô hình để che khuất các điểm dữ liệu riêng lẻ, giảm thiểu nguy cơ làm lộ dữ liệu huấn luyện nhạy cảm.

Sự riêng tư biệt lập cũng được dùng bên ngoài công nghệ học máy. Ví dụ: đôi khi, các nhà khoa học dữ liệu sử dụng cơ chế sự riêng tư biệt lập để bảo vệ quyền riêng tư cá nhân khi tính toán số liệu thống kê về việc sử dụng sản phẩm cho nhiều nhóm nhân khẩu học.

giảm kích thước

Giảm số lượng kích thước dùng để biểu thị một đối tượng cụ thể trong vectơ đối tượng, thường bằng cách chuyển đổi thành vectơ nhúng.

phương diện

Thuật ngữ quá tải có bất kỳ định nghĩa nào sau đây:

  • Số lượng toạ độ trong Tensor. Ví dụ:

    • Một đại lượng vô hướng có kích thước bằng 0; ví dụ: ["Hello"].
    • Vectơ có một chiều; ví dụ: [3, 5, 7, 11].
    • Ma trận có hai chiều; ví dụ: [[2, 4, 18], [5, 7, 14]].

    Bạn có thể chỉ định riêng một ô cụ thể trong vectơ một chiều bằng 1 toạ độ; bạn cần có 2 toạ độ để chỉ định duy nhất một ô cụ thể trong ma trận hai chiều.

  • Số phần tử trong vectơ đối tượng.

  • Số lượng phần tử trong một lớp nhúng.

nhắc trực tiếp

#language
#AI tạo sinh

Từ đồng nghĩa với lời nhắc thực hiện bằng 0.

tính chất rời rạc

#fundamentals

Một tính năng có một tập hợp hữu hạn các giá trị có thể có. Ví dụ: một tính năng có giá trị chỉ có thể là động vật, rau củ hoặc khoáng sản là một tính năng riêng biệt (hoặc phân loại).

Tương phản với tính năng liên tục.

mô hình phân biệt đối xử

model dự đoán model từ một tập hợp gồm một hoặc nhiều model. Một cách chính thức hơn, các mô hình phân biệt xác định xác suất có điều kiện của một đầu ra dựa trên các tính năng và trọng số; đó là:

p(output | features, weights)

Ví dụ: mô hình dự đoán liệu một email có phải là thư rác từ các tính năng và trọng số là một mô hình phân biệt đối xử hay không.

Phần lớn mô hình học tập có giám sát, bao gồm cả mô hình phân loại và hồi quy, đều là các mô hình phân biệt.

Trái ngược với mô hình tạo sinh.

giá trị phân biệt

Một hệ thống xác định xem ví dụ là thật hay giả.

Ngoài ra, hệ thống con trong một mạng đối nghịch tạo sinh sẽ xác định xem các ví dụ do trình tạo tạo là thật hay giả.

tác động riêng rẽ

#fairness

Đưa ra quyết định về những người gây ảnh hưởng không cân đối đến các nhóm nhóm dân số khác nhau. Điều này thường đề cập đến những tình huống mà quy trình đưa ra quyết định dựa trên thuật toán gây hại hoặc mang lại lợi ích cho một số nhóm con nhiều hơn các nhóm khác.

Ví dụ: giả sử một thuật toán xác định rằng người Lilliputian đủ điều kiện hưởng khoản vay để mua nhà thu nhỏ có nhiều khả năng phân loại họ là "không đủ điều kiện" nếu địa chỉ gửi thư của người đó chứa một mã bưu chính nhất định. Nếu người lớn ở Big-Endian Lilliputian có nhiều khả năng có địa chỉ gửi thư có mã bưu chính này hơn so với Little-Endian Lilliputians, thì thuật toán này có thể dẫn đến tác động khác.

Trái ngược với phương pháp xử lý khác biệt, vốn tập trung vào những điểm khác biệt xảy ra khi các đặc điểm của nhóm con là thông tin đầu vào rõ ràng cho quá trình đưa ra quyết định dựa trên thuật toán.

đối xử tách biệt

#fairness

Phân loại các thuộc tính nhạy cảm của chủ thể vào một quy trình ra quyết định dựa trên thuật toán sao cho các nhóm con người khác nhau được xử lý theo cách khác nhau.

Ví dụ: hãy xem xét một thuật toán giúp xác định liệu người Lilliputian có đủ điều kiện để vay tiền để mua nhà dạng thu nhỏ hay không dựa trên dữ liệu mà họ cung cấp trong hồ sơ vay tiền. Nếu thuật toán sử dụng dữ liệu đầu vào là mối liên kết của Lilliputian như Big-Endian hoặc Little-Endian, thì hệ thống sẽ thực thi quá trình xử lý khác nhau cùng với chiều đó.

Trái ngược với tác động khác biệt, tập trung vào sự chênh lệch về tác động xã hội của các quyết định dựa trên thuật toán đối với các nhóm con, bất kể các nhóm con đó có phải là dữ liệu đầu vào cho mô hình hay không.

chưng cất

#AI tạo sinh

Quá trình giảm kích thước của một model (còn gọi là model) thành một mô hình nhỏ hơn (còn gọi là model) mô phỏng một cách trung thực các dự đoán của mô hình ban đầu nhất có thể. Tính năng chưng cất rất hữu ích vì mô hình nhỏ hơn có hai lợi ích chính so với mô hình lớn hơn (giáo viên):

  • Thời gian suy luận nhanh hơn
  • Giảm mức sử dụng bộ nhớ và năng lượng

Tuy nhiên, dự đoán của học sinh thường không chính xác như dự đoán của giáo viên.

Phép lọc sẽ huấn luyện mô hình học viên để giảm thiểu hàm mất dựa trên sự khác biệt giữa kết quả dự đoán của mô hình học viên và giáo viên.

So sánh và đối chiếu quá trình chưng cất với các thuật ngữ sau:

Phân phối

Tần suất và phạm vi của các giá trị khác nhau cho một tính năng hoặc nhãn nhất định. Phân phối ghi lại khả năng xảy ra một giá trị cụ thể.

Hình ảnh sau đây cho thấy biểu đồ của hai mức phân phối khác nhau:

  • Ở bên trái là sự phân bổ theo luật sức mạnh của sự giàu có so với số người sở hữu của cải đó.
  • Ở bên phải là mức phân bổ chuẩn của chiều cao so với số người có chiều cao đó.

Hai biểu đồ. Một biểu đồ cho thấy sự phân phối định luật năng lượng với giá trị của cải trên trục x và số người giàu có trên trục y. Đa số mọi người đều rất ít tài sản trong khi một số ít người lại có rất nhiều tài sản. Biểu đồ còn lại cho thấy mức phân phối chuẩn với chiều cao trên trục x và số người có chiều cao đó trên trục y. Hầu hết mọi người tập trung ở một nơi nào đó gần mức trung bình.

Khi hiểu rõ cách phân phối của từng tính năng và nhãn, bạn có thể xác định cách chuẩn hoá các giá trị và phát hiện các điểm ngoại lai.

Cụm từ ngoài phân phối dùng để chỉ một giá trị không xuất hiện trong tập dữ liệu hoặc rất hiếm. Ví dụ: một hình ảnh của hành tinh sao Thổ sẽ được coi là không phân phối cho một tập dữ liệu có hình ảnh mèo.

phân cụm phân cụm

#clustering

Hãy xem nội dung phân cụm phân cấp.

giảm tần số lấy mẫu

#image

Thuật ngữ quá tải có thể có nghĩa là một trong những trường hợp sau:

  • Giảm lượng thông tin trong một tính năng để huấn luyện một mô hình hiệu quả hơn. Ví dụ: trước khi huấn luyện một mô hình nhận dạng hình ảnh, hãy giảm tần số lấy mẫu hình ảnh có độ phân giải cao xuống định dạng có độ phân giải thấp hơn.
  • Huấn luyện về một tỷ lệ thấp không cân xứng các ví dụ về lớp được biểu thị quá mức để cải thiện việc huấn luyện mô hình trên các lớp được biểu thị dưới mức. Ví dụ: trong một tập dữ liệu không cân bằng về lớp, các mô hình có xu hướng tìm hiểu nhiều về lớp phần lớn và không đủ thông tin về lớp phần tử nhỏ. Việc giảm tần số lấy mẫu giúp cân bằng lượng đào tạo dành cho các tầng lớp đa số và thiểu số.

QN

#rl

Từ viết tắt của Deep Q-Network.

điều chỉnh tỷ lệ bỏ ngang

Một hình thức chính quy rất hữu ích trong việc huấn luyện mạng nơron. Quy trình điều chỉnh bỏ qua sẽ xoá lựa chọn ngẫu nhiên một số đơn vị cố định trong một lớp mạng cho một bước chuyển màu duy nhất. Càng nhiều đơn vị bị loại bỏ thì quá trình điều chỉnh càng mạnh. Việc này cũng tương tự như việc huấn luyện mạng mô phỏng một tập hợp lớn theo cấp số nhân gồm các mạng nhỏ hơn. Để biết toàn bộ thông tin chi tiết, hãy xem bài viết Bỏ qua: Cách đơn giản để ngăn mạng nơron hoạt động quá mức.

linh động

#fundamentals

Việc nào đó được thực hiện thường xuyên hoặc liên tục. Các cụm từ độngtrực tuyến là các từ đồng nghĩa với công nghệ học máy. Sau đây là một số cách sử dụng phổ biến của tính năng độngtrực tuyến trong công nghệ học máy:

  • Mô hình động (hoặc mô hình trực tuyến) là một mô hình được huấn luyện lại thường xuyên hoặc liên tục.
  • Đào tạo động (hoặc đào tạo trực tuyến) là quá trình đào tạo thường xuyên hoặc liên tục.
  • Suy luận động (hoặc suy luận trực tuyến) là quá trình đưa ra thông tin dự đoán theo yêu cầu.

mô hình linh động

#fundamentals

Một model thường xuyên (thậm chí có thể liên tục) được huấn luyện lại. Mô hình linh động là một "học viên học suốt đời" và luôn thích ứng với dữ liệu không ngừng thay đổi. Mô hình linh động còn được gọi là mô hình trực tuyến.

Tương phản với mô hình tĩnh.

E

thực thi háo hức

#TensorFlow

Một môi trường lập trình TensorFlow trong đó operations sẽ chạy ngay lập tức. Ngược lại, các toán tử được gọi trong thực thi biểu đồ không chạy cho đến khi chúng được đánh giá rõ ràng. Thực thi háo hức là một giao diện bắt buộc, giống như mã trong hầu hết các ngôn ngữ lập trình. Các chương trình thực thi háo hức thường dễ gỡ lỗi hơn nhiều so với các chương trình thực thi biểu đồ.

dừng sớm

#fundamentals

Phương thức chính quy liên quan đến việc kết thúc huấn luyện trước khi số lượng người dùng ngừng huấn luyện giảm bớt. Trong quá trình dừng sớm, bạn có ý định ngừng huấn luyện mô hình khi mức độ tổn thất trên một tập dữ liệu xác thực bắt đầu tăng lên; tức là khi hiệu suất tổng quát hoá trở nên kém hơn.

khoảng cách động đất (EMD)

Đo lường mức độ tương đối tương đối của hai phân phối. Quãng đường di chuyển của trái đất càng thấp thì sự phân bố càng giống nhau.

chỉnh sửa khoảng cách

#language

Phép đo mức độ tương tự của hai chuỗi văn bản với nhau. Trong công nghệ học máy, việc chỉnh sửa khoảng cách rất hữu ích vì đây là cách tính toán đơn giản và hiệu quả để so sánh hai chuỗi được biết là tương tự nhau hoặc để tìm các chuỗi tương tự với một chuỗi nhất định.

Có một số định nghĩa về khoảng cách chỉnh sửa, mỗi định nghĩa sử dụng các thao tác chuỗi khác nhau. Ví dụ: Khoảng cách Levenshtein sẽ xem xét các thao tác xoá, chèn và thay thế ít nhất.

Ví dụ: khoảng cách Levenshtein giữa từ "trái tim" và "phi tiêu" là 3 vì 3 nội dung chỉnh sửa sau đây là những thay đổi ít nhất để biến một từ thành từ khác:

  1. trái tim → dấu móc (thay "h" bằng "d")
  2. deart → phi tiêu (xoá "e")
  3. phi tiêu → phi tiêu (chèn "s")

Ký hiệu Einsum

Một ký hiệu hiệu quả để mô tả cách kết hợp 2 tensor. Các tensor này được kết hợp bằng cách nhân các phần tử của một tensor này với các phần tử của một tensor kia, sau đó tính tổng các tích. Ký hiệu Einsum sử dụng các ký hiệu để xác định trục của từng tensor và các ký hiệu đó được sắp xếp lại để chỉ định hình dạng của tensor thu được mới.

NumPy cung cấp cách triển khai Einsum phổ biến.

lớp nhúng

#language
#fundamentals

Một lớp ẩn đặc biệt huấn luyện trên tính năng phân loại chiều cao để tìm hiểu dần một vectơ nhúng chiều thấp hơn. Lớp nhúng cho phép mạng nơron huấn luyện hiệu quả hơn nhiều so với việc huấn luyện chỉ dựa trên tính năng phân loại chiều cao.

Ví dụ, Trái đất hiện hỗ trợ khoảng 73.000 loài cây. Giả sử các loại cây là một tính năng trong mô hình của bạn, do đó,lớp đầu vào của mô hình bao gồm một vectơ một nóng dài 73.000 phần tử. Ví dụ: có thể baobab sẽ được biểu thị như sau:

Một mảng có 73.000 phần tử. 6.232 phần tử đầu tiên có giá trị 0. Phần tử tiếp theo chứa giá trị 1. 66.767 phần tử cuối cùng có giá trị bằng 0.

Mảng 73.000 phần tử là rất dài. Nếu bạn không thêm lớp nhúng vào mô hình, thì việc huấn luyện sẽ tốn rất nhiều thời gian do nhân 72.999 giá trị 0. Có thể bạn sẽ chọn lớp nhúng bao gồm 12 chiều. Do đó, lớp nhúng sẽ dần học một vectơ nhúng mới cho từng loài cây.

Trong một số trường hợp nhất định, phương pháp băm là một giải pháp thay thế hợp lý cho lớp nhúng.

không gian nhúng

#language

Không gian vectơ d chiều đặc trưng từ không gian vectơ chiều cao hơn sẽ được ánh xạ tới. Lý tưởng nhất là không gian nhúng chứa một cấu trúc mang lại kết quả toán học có ý nghĩa; ví dụ: trong một không gian nhúng lý tưởng, phép cộng và trừ các mục nhúng có thể giải quyết các nhiệm vụ tương tự.

Sản phẩm chấm của hai mục nhúng là thước đo mức độ tương đồng của chúng.

vectơ nhúng

#language

Nói chung, một mảng các số dấu phẩy động được lấy từ bất kỳ lớp ẩn nào mô tả dữ liệu đầu vào cho lớp ẩn đó. Thông thường, vectơ nhúng là một mảng gồm các số dấu phẩy động được huấn luyện trong một lớp nhúng. Ví dụ: giả sử một lớp nhúng phải học một vectơ nhúng cho mỗi loài trong số 73.000 loài cây trên Trái Đất. Có thể mảng sau đây là vectơ nhúng cho một cây bao báp:

Một mảng gồm 12 phần tử, mỗi phần tử chứa một số dấu phẩy động từ 0,0 đến 1,0.

Vectơ nhúng không phải là một loạt các số ngẫu nhiên. Lớp nhúng xác định các giá trị này thông qua quá trình huấn luyện, tương tự như cách mạng nơron học các trọng số khác trong quá trình huấn luyện. Mỗi phần tử của mảng là một điểm xếp hạng theo một đặc điểm nào đó của một loài cây. Phần tử nào thể hiện đặc điểm của loài cây nào? Con người rất khó xác định.

Phần đáng chú ý về mặt toán học của vectơ nhúng là các mục tương tự có bộ số dấu phẩy động tương tự. Ví dụ: các loài cây tương tự có tập hợp số dấu phẩy động giống nhau hơn so với các loài cây khác nhau. Cây hồng sam và cây cự sam là các loài cây có liên quan đến nhau, vì vậy chúng sẽ có bộ số dấu phẩy động giống nhau hơn so với cây hồng sam và cây cọ dừa. Các số trong vectơ nhúng sẽ thay đổi mỗi khi bạn huấn luyện lại mô hình, ngay cả khi bạn huấn luyện lại mô hình với dữ liệu đầu vào giống hệt nhau.

hàm phân phối tích lũy theo kinh nghiệm (eCDF hoặc EDF)

hàm phân phối tích luỹ dựa trên phép đo thực nghiệm từ một tập dữ liệu thực. Giá trị của hàm tại bất kỳ điểm nào dọc theo trục x là tỷ lệ số quan sát trong tập dữ liệu nhỏ hơn hoặc bằng giá trị đã chỉ định.

giảm thiểu rủi ro theo thực nghiệm (ERM)

Chọn hàm giảm thiểu tổn thất trên tập huấn luyện. Trái ngược với giảm thiểu rủi ro theo cấu trúc.

bộ mã hóa

#language

Nhìn chung, mọi hệ thống học máy chuyển đổi từ bản trình bày thô, thưa thớt hoặc bên ngoài thành bản trình bày được xử lý nhiều hơn, dày đặc hơn hoặc nội bộ hơn.

Bộ mã hoá thường là một thành phần của mô hình lớn hơn, thường được ghép nối với bộ giải mã. Một số Transformer ghép nối bộ mã hoá với bộ giải mã, trong khi các Bộ chuyển đổi khác chỉ sử dụng bộ mã hoá hoặc chỉ sử dụng bộ giải mã.

Một số hệ thống sử dụng đầu ra của bộ mã hoá làm dữ liệu đầu vào cho mạng phân loại hoặc hồi quy.

Trong các tác vụ theo trình tự, bộ mã hoá sẽ lấy một trình tự đầu vào và trả về trạng thái bên trong (một vectơ). Sau đó, bộ giải mã sẽ sử dụng trạng thái nội bộ đó để dự đoán trình tự tiếp theo.

Tham khảo Bộ chuyển đổi để biết định nghĩa về bộ mã hoá trong cấu trúc Bộ chuyển đổi.

quần áo

Một tập hợp mô hình được huấn luyện độc lập với các thông tin dự đoán được tính trung bình hoặc tổng hợp. Trong nhiều trường hợp, một tập thể sẽ tạo ra kết quả dự đoán tốt hơn so với một mô hình đơn lẻ. Ví dụ: khu rừng ngẫu nhiên là một tập hợp được xây dựng từ nhiều cây quyết định. Lưu ý rằng không phải khu vực quyết định nào cũng là tập hợp.

entropy

#df

Trong lý thuyết thông tin, phần mô tả về mức độ khó đoán của phân phối xác suất. Ngoài ra, entropy cũng được định nghĩa là lượng thông tin mà mỗi ví dụ chứa. Một bản phân phối có entropy cao nhất có thể khi tất cả các giá trị của một biến ngẫu nhiên đều có khả năng bằng nhau.

Entropy của một tập hợp có hai giá trị có thể là "0" và "1" (ví dụ: các nhãn trong bài toán phân loại nhị phân) có công thức như sau:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

trong đó:

  • H là entropy.
  • p là phần nhỏ của các ví dụ "1".
  • q là phân số của các ví dụ "0". Lưu ý rằng q = (1 - p)
  • nhật ký thường là nhật ký2. Trong trường hợp này, đơn vị entropy là một chút.

Ví dụ: giả sử như sau:

  • 100 ví dụ chứa giá trị "1"
  • 300 ví dụ chứa giá trị "0"

Do đó, giá trị entropy là:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit cho mỗi ví dụ

Một tập hợp hoàn toàn cân bằng (ví dụ: 200 "0" và 200 "1") sẽ có entropy là 1, 0 bit cho mỗi ví dụ. Khi một tập hợp ngày càng không cân bằng hơn, entropy của tập hợp đó sẽ dịch chuyển về 0.0.

Trong cây quyết định, entropy giúp lập công thức thu thập thông tin để giúp bộ chia chọn điều kiện trong quá trình tăng trưởng cây quyết định phân loại.

So sánh entropy với:

Entropy thường được gọi là entropy Shannon.

môi trường

#rl

Trong phương pháp học tăng cường, thế giới chứa tác nhân và cho phép tác nhân quan sát trạng thái của thế giới đó. Ví dụ: thế giới được mô tả có thể là một trò chơi như cờ vua hoặc một thế giới thực như mê cung. Khi tác nhân áp dụng một thao tác cho môi trường, thì môi trường sẽ chuyển đổi giữa các trạng thái.

tập

#rl

Trong phương pháp học tăng cường, mỗi lần thử lặp lại của tác nhân để tìm hiểu một môi trường.

thời gian bắt đầu của hệ thống

#fundamentals

Một lượt huấn luyện đầy đủ sẽ được truyền qua toàn bộ tập hợp huấn luyện, sao cho mỗi ví dụ được xử lý một lần.

Một thời gian bắt đầu của hệ thống đại diện cho N/kích thước lô huấn luyện vòng lặp, trong đó N là tổng số ví dụ.

Ví dụ: giả sử như sau:

  • Tập dữ liệu này có 1.000 ví dụ.
  • Kích thước lô là 50 ví dụ.

Do đó, một thời gian bắt đầu của hệ thống sẽ yêu cầu 20 lần lặp lại:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

chính sách tham lam của epsilon

#rl

Trong học tăng cường, chính sách sẽ tuân theo một chính sách ngẫu nhiên với xác suất epsilon hoặc một chính sách tham lam nếu không tuân thủ. Ví dụ: nếu epsilon là 0, 9, thì chính sách sẽ tuân theo một chính sách ngẫu nhiên trong 90% thời gian và chính sách tham lam là 10% thời gian.

Qua các tập liên tiếp, thuật toán sẽ giảm giá trị của epsilon để chuyển từ việc tuân theo một chính sách ngẫu nhiên sang tuân theo một chính sách tham lam. Bằng cách thay đổi chính sách, trước tiên, tác nhân sẽ khám phá ngẫu nhiên môi trường, sau đó khai thác tối đa kết quả của quá trình khám phá ngẫu nhiên.

bình đẳng về cơ hội

#fairness

Chỉ số về độ công bằng để đánh giá xem một mô hình có dự đoán kết quả mong muốn một cách hiệu quả như nhau cho mọi giá trị của một thuộc tính nhạy cảm hay không. Nói cách khác, nếu kết quả mong muốn cho một mô hình là lớp dương, thì mục tiêu sẽ là có tỷ lệ dương thực như nhau cho tất cả các nhóm.

Sự bằng nhau về cơ hội liên quan đến tỷ lệ chênh lệch nhau, tức là cả tỷ lệ dương tính thực và tỷ lệ dương tính giả là như nhau cho tất cả các nhóm.

Giả sử Đại học Glrushdubdrib chấp nhận cả hai người Lilliputian và Brobdingnagian vào một chương trình toán nghiêm ngặt. Các trường trung học của Lilliputian cung cấp một chương trình giảng dạy toán học mạnh mẽ, và phần lớn học sinh đều đủ điều kiện vào chương trình đại học. Các trường trung học ở Brobdingnagian không cung cấp lớp toán. Do đó, số học sinh đủ điều kiện của họ rất ít. Bạn có thể hài lòng với nhãn ưu tiên "được nhận" đối với quốc tịch (Lilliputian hoặc Brobdingnagian) nếu khả năng sinh viên đủ điều kiện được nhận là như nhau, bất kể họ là người Lilliputian hay người Brobdingnagian.

Ví dụ: giả sử 100 người Lilliputian và 100 người dân Anh đăng ký vào Đại học Grudubdrib và các quyết định tuyển sinh sẽ được đưa ra như sau:

Bảng 1. Ứng viên người Lilliput (90% là đủ điều kiện)

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Đã cho phép 45 3
Bị từ chối 45 7
Tổng 90 10
Tỷ lệ phần trăm sinh viên đủ điều kiện được nhận: 45/90 = 50%
Tỷ lệ phần trăm sinh viên không đủ điều kiện bị từ chối: 7/10 = 70%
Tổng tỷ lệ phần trăm sinh viên Lilliputian được nhận: (45+3)/100 = 48%

 

Bảng 2. Ứng viên Bỉ (10% đủ điều kiện):

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Đã cho phép 5 9
Bị từ chối 5 81
Tổng 10 90
Tỷ lệ sinh viên đủ điều kiện được nhận: 5/10 = 50%
Tỷ lệ sinh viên không đủ điều kiện bị từ chối: 81/90 = 90%
Tổng tỷ lệ sinh viên Brobdingnagian được nhận vào: (5+9)/100 = 14%

Những ví dụ trên thoả mãn sự bình đẳng về cơ hội được chấp nhận học sinh đủ điều kiện vì cả hai ngôn ngữ Lilliputian và Brobdingnagian đủ điều kiện đều có 50% cơ hội được nhận.

Mặc dù mức độ cân bằng về cơ hội được thoả mãn, nhưng hai chỉ số công bằng sau đây sẽ không được thoả mãn:

  • Sự đồng nhất về nhân khẩu học: Người Lilliputian và người Brobdingnagian được nhận vào trường đại học theo tỷ lệ khác nhau; 48% sinh viên Lilliputian được nhận, nhưng chỉ 14% sinh viên Brobdingnagian được nhận vào.
  • tỷ lệ chênh lệch bằng nhau: Mặc dù sinh viên đủ điều kiện ở Lilliputian và Brobdingnagian đều có cơ hội được nhận như nhau, nhưng cả trường hợp sinh viên không đủ điều kiện của Lilliputian và Brobdingnagian đều có khả năng bị từ chối như nhau sẽ không được thoả mãn. Người Lilliputian chưa đủ điều kiện có tỷ lệ bị từ chối là 70%, trong khi người dân Brobdingnagian chưa đủ điều kiện có tỷ lệ bị từ chối là 90%.

Xem bài viết "Sự bình đẳng của cơ hội trong phương pháp học có giám sát" để thảo luận chi tiết hơn về cơ hội bình đẳng. Ngoài ra, hãy xem bài viết "Tấn công phân biệt đối xử bằng công nghệ học máy thông minh" để biết hình ảnh trực quan về cách khám phá các yếu tố đánh đổi khi tối ưu hoá để có cơ hội bình đẳng.

tỷ lệ cược cân bằng

#fairness

Chỉ số công bằng để đánh giá xem một mô hình có dự đoán kết quả tốt như nhau cho mọi giá trị của một thuộc tính nhạy cảm khi xét đến cả lớp dươnglớp phủ định hay không, chứ không chỉ một lớp hay một lớp khác. Nói cách khác, cả tỷ lệ dương tính thậttỷ lệ âm tính giả đều phải giống nhau đối với tất cả các nhóm.

Tỷ lệ chênh lệch liên quan đến cơ hội bình đẳng, tức là chỉ tập trung vào tỷ lệ lỗi của một lớp (dương hoặc âm).

Ví dụ: giả sử Đại học Gl môtdrib chấp nhận cả người Lilliputian và người Anh (Brobdingnagians) vào một chương trình toán nghiêm ngặt. Các trường trung học của Lilliputian có một chương trình giảng dạy môn toán phong phú, và phần lớn học sinh đều đủ điều kiện tham gia chương trình đại học. Các trường cấp hai ở Brobdingnagian không cung cấp lớp toán. Do đó, số học sinh đủ điều kiện sẽ rất thấp. Tỷ lệ được cân bằng là chấp nhận được, miễn là ứng viên là người Lilliputian hay người Brobdingnagian, nếu đủ điều kiện, thì khả năng được nhận vào chương trình bằng nhau. Nếu không đủ điều kiện, thì khả năng bị từ chối của họ cũng bằng nhau.

Giả sử 100 người Lilliputian và 100 người Anh đăng ký vào trường Đại học Glraffdubdrib và quyết định tuyển sinh được đưa ra như sau:

Bảng 3. Ứng viên người Lilliput (90% là đủ điều kiện)

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Đã cho phép 45 2
Bị từ chối 45 8
Tổng 90 10
Tỷ lệ phần trăm sinh viên đủ điều kiện được nhận: 45/90 = 50%
Tỷ lệ phần trăm sinh viên không đủ điều kiện bị từ chối: 8/10 = 80%
Tổng tỷ lệ phần trăm sinh viên Lilliputian được nhận: (45+2)/100 = 47%

 

Bảng 4. Ứng viên Bỉ (10% đủ điều kiện):

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Đã cho phép 5 18
Bị từ chối 5 72
Tổng 10 90
Tỷ lệ sinh viên đủ điều kiện được nhận: 5/10 = 50%
Tỷ lệ sinh viên không đủ điều kiện bị từ chối: 72/90 = 80%
Tổng tỷ lệ sinh viên Brobdingnagian được nhận: (5+18)/100 = 23%

Tỷ lệ chênh lệch được cân bằng được thoả mãn vì sinh viên đủ điều kiện ở Lilliputian và Brobdingnagian đều có 50% cơ hội được nhận, còn sinh viên Lilliputian và Brobdingnagian không đủ tiêu chuẩn có 80% cơ hội bị từ chối.

Tỷ lệ chênh lệch được định nghĩa chính thức trong phần "Sự bình đẳng của cơ hội trong hoạt động học có giám sát" như sau: "trình dự đoán khía đáp ứng tỷ lệ cân bằng đối với thuộc tính A được bảo vệ và kết quả Y nếu khía và A là độc lập, có điều kiện trên Y".

Công cụ ước tính

#TensorFlow

Một API TensorFlow không dùng nữa. Sử dụng tf.keras thay vì Công cụ ước tính.

đánh giá

Quá trình đo lường chất lượng của các dự đoán của mô hình học máy. Trong khi phát triển mô hình, bạn thường áp dụng các chỉ số đánh giá không chỉ trên tập hợp huấn luyện mà còn trên tập hợp xác thựctập kiểm thử. Bạn cũng có thể sử dụng các chỉ số đánh giá để so sánh các mô hình khác nhau.

ví dụ

#fundamentals

Giá trị của một hàng features và có thể là label. Ví dụ trong học có giám sát thuộc 2 danh mục chung:

  • Ví dụ được gắn nhãn bao gồm một hoặc nhiều tính năng và một nhãn. Các ví dụ có gắn nhãn sẽ được dùng trong quá trình huấn luyện.
  • Một ví dụ chưa được gắn nhãn bao gồm một hoặc nhiều tính năng nhưng không có nhãn. Các ví dụ không được gắn nhãn sẽ được sử dụng trong quá trình suy luận.

Ví dụ: giả sử bạn đang huấn luyện một mô hình để xác định ảnh hưởng của điều kiện thời tiết đối với điểm kiểm tra của học sinh. Dưới đây là ba ví dụ có gắn nhãn:

Tính năng Hãng nhạc
Nhiệt độ Độ ẩm Áp lực Điểm kiểm tra
15 47 998 Tốt
19 34 1020 Rất tốt
18 92 1012 Kém

Dưới đây là ba ví dụ chưa gắn nhãn:

Nhiệt độ Độ ẩm Áp lực  
12 62 1014  
21 47 1017  
19 41 1021  

Hàng của một tập dữ liệu thường là nguồn thô để lấy ví dụ. Tức là một ví dụ thường bao gồm một tập hợp con các cột trong tập dữ liệu. Ngoài ra, các tính năng trong một ví dụ cũng có thể bao gồm các tính năng tổng hợp, chẳng hạn như nhiều tính năng.

phát lại trải nghiệm

#rl

Trong phương pháp học tăng cường, kỹ thuật DQN dùng để giảm mối tương quan về thời gian trong dữ liệu huấn luyện. Tác nhân lưu trữ các lượt chuyển đổi trạng thái trong vùng đệm phát lại, sau đó chuyển đổi mẫu từ vùng đệm phát lại để tạo dữ liệu huấn luyện.

thiên kiến của người thử nghiệm

#fairness

Hãy xem phần xu hướng xác nhận.

bài toán độ dốc bùng nổ

#seq

Xu hướng độ dốc trong mạng nơron sâu (đặc biệt là mạng nơron tái diễn) trở nên dốc (cao) một cách bất ngờ. Độ dốc đứng thường gây ra các cập nhật rất lớn cho trọng số của từng nút trong mạng nơron sâu.

Các mô hình gặp phải vấn đề về hiệu ứng chuyển màu bùng nổ sẽ trở nên khó khăn hoặc không thể huấn luyện. Tính năng Cắt dần có thể giảm thiểu vấn đề này.

So sánh với bài toán biến mất độ dốc.

F

F1

Chỉ số phân loại nhị phân "tổng hợp" dựa vào cả độ chính xáclệnh gọi lại. Dưới đây là công thức:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Ví dụ như sau:

  • độ chính xác = 0,6
  • thu hồi = 0,4
$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Khi độ chính xác và mức độ gọi lại tương đối giống nhau (như trong ví dụ trước), F1 sẽ gần bằng với giá trị trung bình. Khi độ chính xác và mức độ gọi lại có sự khác biệt đáng kể, F1 sẽ gần với giá trị thấp hơn. Ví dụ:

  • độ chính xác = 0,9
  • thu hồi = 0,1
$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

quy tắc ràng buộc về tính công bằng

#fairness
Áp dụng một quy tắc ràng buộc cho thuật toán để đảm bảo đáp ứng một hoặc nhiều định nghĩa về tính công bằng. Sau đây là một số ví dụ về những hạn chế liên quan đến sự công bằng:

chỉ số về tính công bằng

#fairness

Một định nghĩa trong toán học về sự "công bằng" có thể đo lường. Sau đây là một số chỉ số thường dùng về mức độ công bằng:

Có nhiều chỉ số về tính công bằng loại trừ lẫn nhau. Hãy xem các chỉ số về tính công bằng không tương thích.

âm tính giả (FN)

#fundamentals

Một ví dụ trong đó mô hình dự đoán nhầm lớp âm. Ví dụ: mô hình dự đoán rằng một email cụ thể không phải là thư rác (lớp phủ định), nhưng email đó thực sự là thư rác.

tỷ lệ âm tính giả

Tỷ lệ các ví dụ thực tế tích cực mà mô hình đã dự đoán nhầm lớp phủ định. Công thức sau đây tính tỷ lệ âm giả:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

dương tính giả (FP)

#fundamentals

Một ví dụ trong đó mô hình dự đoán nhầm lớp dương. Ví dụ: mô hình này dự đoán rằng một email cụ thể là thư rác (lớp khẳng định), nhưng email đó thực sự không phải là thư rác.

tỷ lệ dương tính giả (FPR)

#fundamentals

Tỷ lệ các ví dụ phủ định trên thực tế mà mô hình đã dự đoán nhầm lớp dương. Công thức sau đây tính tỷ lệ dương tính giả:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Tỷ lệ dương tính giả là trục x trong đường cong ROC.

đối tượng

#fundamentals

Biến đầu vào cho mô hình học máy. Ví dụ bao gồm một hoặc nhiều tính năng. Ví dụ: giả sử bạn đang huấn luyện một mô hình để xác định ảnh hưởng của điều kiện thời tiết đối với điểm kiểm tra của học viên. Bảng sau đây trình bày 3 ví dụ, mỗi ví dụ chứa 3 tính năng và 1 nhãn:

Tính năng Hãng nhạc
Nhiệt độ Độ ẩm Áp lực Điểm kiểm tra
15 47 998 92
19 34 1020 84
18 92 1012 87

Tương phản với nhãn.

hình chữ thập

#fundamentals

Một tính năng tổng hợp được hình thành bằng cách "kết hợp" các tính năng phân loại hoặc phân giỏ.

Ví dụ: hãy xem xét mô hình "dự báo tâm trạng" biểu thị nhiệt độ ở một trong 4 nhóm sau:

  • freezing
  • chilly
  • temperate
  • warm

Và biểu thị tốc độ gió ở một trong ba nhóm sau:

  • still
  • light
  • windy

Nếu không có đối tượng chéo, mô hình tuyến tính sẽ huấn luyện độc lập trên từng nhóm trong số 7 bộ chứa trước đó. Chẳng hạn, mô hình này sẽ huấn luyện trên freezing độc lập với quá trình huấn luyện trên windy chẳng hạn.

Ngoài ra, bạn có thể tạo một chuỗi đặc điểm gồm nhiệt độ và tốc độ gió. Tính năng tổng hợp này sẽ có thể có 12 giá trị sau đây:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Nhờ các kết hợp tính năng, mô hình này có thể biết được những điểm khác biệt về tâm trạng giữa freezing-windy ngày và freezing-still ngày.

Nếu bạn tạo một tính năng tổng hợp từ 2 tính năng, trong đó mỗi tính năng có nhiều bộ chứa khác nhau, thì kết hợp tính năng thu được sẽ có một số lượng lớn các tổ hợp có thể có. Ví dụ: nếu một tính năng có 1.000 bộ chứa và tính năng còn lại có 2.000 bộ chứa, thì kết quả của tính năng chéo sẽ có 2.000.000 bộ chứa.

Về chính thức, chữ thập là một sản phẩm của Cartesian.

Các phép kết hợp tính năng chủ yếu được dùng với mô hình tuyến tính và hiếm khi dùng với mạng nơron.

kỹ thuật trích xuất tính chất

#fundamentals
#TensorFlow

Một quy trình bao gồm các bước sau:

  1. Xác định tính năng nào có thể hữu ích trong việc huấn luyện mô hình.
  2. Chuyển đổi dữ liệu thô từ tập dữ liệu thành các phiên bản hiệu quả của các tính năng đó.

Ví dụ: bạn có thể xác định rằng temperature có thể là một tính năng hữu ích. Sau đó, bạn có thể thử nghiệm bằng phân giỏ hàng để tối ưu hoá những gì mô hình có thể học hỏi từ các phạm vi temperature khác nhau.

Kỹ thuật trích xuất tính năng đôi khi được gọi là trích xuất tính năng hoặc kết hợp.

trích xuất tính năng

Thuật ngữ quá tải có một trong các định nghĩa sau:

tầm quan trọng của tính năng

#df

Từ đồng nghĩa với tầm quan trọng thay đổi.

bộ tính năng

#fundamentals

Nhóm tính năngmô hình trong máy học của bạn huấn luyện. Ví dụ: mã bưu chính, quy mô của bất động sản và tình trạng của cơ sở lưu trú có thể bao gồm một bộ tính năng đơn giản cho mô hình dự đoán giá nhà ở.

thông số tính năng

#TensorFlow

Mô tả thông tin cần thiết để trích xuất dữ liệu tính năng từ vùng đệm giao thức tf.Example. Vì vùng đệm giao thức tf.Example chỉ là vùng chứa dữ liệu, nên bạn phải chỉ định những thông tin sau:

  • Dữ liệu cần trích xuất (tức là các khoá cho các tính năng)
  • Loại dữ liệu (ví dụ: số thực có độ chính xác đơn hoặc số nguyên)
  • Độ dài (cố định hoặc thay đổi)

vectơ đối tượng

#fundamentals

Mảng các giá trị feature bao gồm một ví dụ. Vectơ đối tượng được nhập vào trong quá trình huấn luyện và trong quá trình suy luận. Ví dụ: vectơ đặc điểm cho một mô hình có hai tính năng riêng biệt có thể là:

[0.92, 0.56]

Bốn lớp: một lớp đầu vào, hai lớp ẩn và một lớp đầu ra.
          Lớp đầu vào chứa hai nút, một nút chứa giá trị 0,92 và nút còn lại chứa giá trị 0,56.

Mỗi ví dụ đều cung cấp các giá trị khác nhau cho vectơ đối tượng, vì vậy vectơ đối tượng cho ví dụ tiếp theo có thể có dạng như sau:

[0.73, 0.49]

Kỹ thuật tính năng xác định cách biểu thị các đối tượng trong vectơ đối tượng. Ví dụ: một tính năng phân loại nhị phân có 5 giá trị có thể có có thể được biểu thị bằng mã hoá một nóng. Trong trường hợp này, phần của vectơ đối tượng cho một ví dụ cụ thể sẽ bao gồm 4 số 0 và một giá trị 1.0 ở vị trí thứ ba, như sau:

[0.0, 0.0, 1.0, 0.0, 0.0]

Một ví dụ khác, giả sử mô hình của bạn bao gồm ba tính năng:

  • một tính năng phân loại nhị phân có năm giá trị có thể có được biểu thị bằng phương thức mã hoá một lần; ví dụ: [0.0, 1.0, 0.0, 0.0, 0.0]
  • một tính năng phân loại nhị phân khác có ba giá trị có thể có được biểu thị bằng phương thức mã hoá một lần (một tính năng mã hoá nóng); ví dụ: [0.0, 0.0, 1.0]
  • đối tượng dấu phẩy động; ví dụ: 8.3.

Trong trường hợp này, vectơ tính năng của từng ví dụ sẽ được biểu thị bằng 9 giá trị. Với các giá trị mẫu trong danh sách trên, vectơ tính năng sẽ là:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

liên kết

Quá trình trích xuất các tính năng từ một nguồn đầu vào, chẳng hạn như tài liệu hoặc video và ánh xạ các tính năng đó thành một vectơ đối tượng.

Một số chuyên gia về công nghệ học máy coi việc liên kết là từ đồng nghĩa với kỹ thuật trích xuất tính năng hoặc trích xuất tính năng.

học liên kết

Một phương pháp học máy phân tán huấn luyện các mô hình học máy bằng cách sử dụng các ví dụ phi tập trung trên các thiết bị như điện thoại thông minh. Trong phương pháp học liên kết, một nhóm nhỏ thiết bị sẽ tải mô hình hiện tại xuống từ máy chủ điều phối trung tâm. Các thiết bị sử dụng các ví dụ được lưu trữ trên thiết bị để cải thiện mô hình. Sau đó, các thiết bị sẽ tải các điểm cải tiến về mô hình (nhưng không phải ví dụ huấn luyện) lên máy chủ điều phối. Tại đây, chúng được tổng hợp với các bản cập nhật khác để mang lại mô hình toàn cầu được cải thiện. Sau khi tổng hợp, các bản cập nhật mô hình do thiết bị tính toán không còn cần thiết và có thể bị loại bỏ.

Vì các ví dụ huấn luyện không bao giờ được tải lên, nên phương pháp học liên kết tuân theo các nguyên tắc về quyền riêng tư liên quan đến việc thu thập dữ liệu có trọng tâm và giảm tối đa việc thu thập dữ liệu.

Để biết thêm thông tin về phương pháp học liên kết, hãy xem hướng dẫn này.

vòng hồi tiếp

#fundamentals

Trong công nghệ học máy, một tình huống trong đó dự đoán của mô hình ảnh hưởng đến dữ liệu huấn luyện cho cùng một mô hình hoặc mô hình khác. Ví dụ: mô hình đề xuất phim sẽ ảnh hưởng đến phim mà mọi người xem, sau đó sẽ ảnh hưởng đến các mô hình đề xuất phim tiếp theo.

mạng nơron tiến lên (FFN)

Mạng nơron không có kết nối tuần hoàn hoặc đệ quy. Ví dụ: mạng nơron sâu truyền thống là mạng nơron tiến lên. Trái ngược với mạng nơron tái phát (có tính tuần hoàn).

học từ một vài dữ liệu

Một phương pháp học máy, thường dùng để phân loại đối tượng, được thiết kế để huấn luyện các thuật toán phân loại có hiệu quả chỉ từ một số ít ví dụ huấn luyện.

Bạn cũng có thể xem thêm nội dung học một lầnhọc từ chối một lần.

nhắc một vài thông tin

#language
#AI tạo sinh

Câu lệnh có nhiều (một "vài") ví dụ minh hoạ cách mô hình ngôn ngữ lớn sẽ phản hồi. Ví dụ: câu lệnh dài sau đây chứa 2 ví dụ minh hoạ một mô hình ngôn ngữ lớn về cách trả lời một truy vấn.

Các phần của một câu lệnh Ghi chú
Đơn vị tiền tệ chính thức của quốc gia đã chỉ định là gì? Câu hỏi mà bạn muốn LLM trả lời.
Pháp: EUR Một ví dụ.
Vương quốc Anh: GBP Ví dụ khác.
Ấn Độ: Cụm từ tìm kiếm thực tế.

Lời nhắc thêm một vài lần thường mang lại kết quả mong muốn hơn so với lời nhắc bằng cách dùng 0 thao tácnhắc nhở một lần. Tuy nhiên, việc nhắc một vài lần cần phải có một lời nhắc dài hơn.

Nhắc vài lần là một hình thức học vài lần áp dụng cho học dựa trên câu lệnh.

Đàn vĩ cầm

#language

Một thư viện cấu hình ưu tiên Python giúp đặt giá trị của các hàm và lớp mà không cần mã hoặc cơ sở hạ tầng xâm phạm. Trong trường hợp Pax và các cơ sở mã học máy khác, các hàm và lớp này đại diện cho mô hìnhhuấn luyện siêu tham số.

Fiddle giả định rằng các cơ sở mã học máy thường được chia thành:

  • Mã thư viện xác định các lớp và trình tối ưu hoá.
  • Mã "glue" của tập dữ liệu gọi các thư viện và kết nối mọi thứ với nhau.

Fiddle ghi lại cấu trúc lệnh gọi của mã kết nối ở dạng chưa được đánh giá và có thể biến đổi.

tinh chỉnh

#language
#image
#AI tạo sinh

Lượt huấn luyện thứ hai, dành riêng cho từng tác vụ được thực hiện trên mô hình huấn luyện trước để tinh chỉnh các tham số cho một trường hợp sử dụng cụ thể. Ví dụ: trình tự huấn luyện đầy đủ cho một số mô hình ngôn ngữ lớn như sau:

  1. Huấn luyện trước: Đào tạo một mô hình ngôn ngữ lớn trên một tập dữ liệu tổng quát rộng lớn, chẳng hạn như tất cả các trang Wikipedia bằng tiếng Anh.
  2. Điều chỉnh: Đào tạo mô hình đã qua huấn luyện để thực hiện một nhiệm vụ cụ thể, chẳng hạn như phản hồi các truy vấn y tế. Quá trình tinh chỉnh thường liên quan đến hàng trăm hoặc hàng nghìn ví dụ tập trung vào tác vụ cụ thể.

Một ví dụ khác, trình tự huấn luyện đầy đủ cho mô hình hình ảnh lớn như sau:

  1. Huấn luyện trước: Đào tạo một mô hình hình ảnh lớn trên một tập dữ liệu hình ảnh chung lớn, chẳng hạn như tất cả hình ảnh trong Wikimedia commons.
  2. Tinh chỉnh: Đào tạo mô hình đã huấn luyện trước để thực hiện một tác vụ cụ thể, chẳng hạn như tạo hình ảnh của cá voi sát thủ.

Việc tinh chỉnh có thể gồm bất kỳ sự kết hợp nào của các chiến lược sau đây:

  • Sửa đổi tất cả tham số hiện có của mô hình huấn luyện trước. Quá trình này đôi khi được gọi là tinh chỉnh đầy đủ.
  • Chỉ sửa đổi một số tham số hiện có của mô hình huấn luyện trước (thường là các lớp gần nhất với lớp đầu ra), trong khi giữ nguyên các tham số hiện có khác (thường là các lớp gần với lớp đầu vào nhất). Xem phần điều chỉnh hiệu quả thông số.
  • Thêm nhiều lớp hơn, thường là ở trên cùng các lớp hiện có gần nhất với lớp đầu ra.

Tinh chỉnh là một hình thức học chuyển tiếp. Do đó, quá trình tinh chỉnh có thể sử dụng một hàm suy hao hoặc một kiểu mô hình khác với các mô hình dùng để huấn luyện mô hình huấn luyện trước. Ví dụ: bạn có thể tinh chỉnh mô hình hình ảnh lớn được huấn luyện trước để tạo một mô hình hồi quy trả về số lượng chim trong hình ảnh đầu vào.

So sánh và đối chiếu tính năng tinh chỉnh với các thuật ngữ sau:

Cây lanh

#language

Một thư viện nguồn mở có hiệu suất cao dành cho phương pháp học sâu, được xây dựng dựa trên JAX. Flax cung cấp các hàm để huấn luyện mạng nơron, cũng như các phương thức để đánh giá hiệu suất của chúng.

Vải lanh

#language

Thư viện Transformer nguồn mở, được xây dựng trên Flax, được thiết kế chủ yếu cho hoạt động xử lý ngôn ngữ tự nhiên và nghiên cứu đa phương thức.

quên cổng

#seq

Phần của ô Bộ nhớ ngắn hạn dài hạn điều chỉnh luồng thông tin qua ô. Bỏ qua việc cổng duy trì ngữ cảnh bằng cách quyết định thông tin nào cần loại bỏ khỏi trạng thái ô.

CANNOT TRANSLATE

Từ đồng nghĩa với softmax.

Ngược lại với tính năng lấy mẫu đề xuất.

tầng liên kết đầy đủ

Một lớp ẩn trong đó mỗi nút được kết nối với mọi nút trong lớp ẩn tiếp theo.

Lớp được kết nối đầy đủ còn được gọi là lớp dày đặc.

biến đổi hàm

Hàm nhận một hàm làm dữ liệu đầu vào và trả về một hàm đã chuyển đổi làm kết quả. JAX sử dụng các phép biến đổi hàm.

G

GAN (GAN)

Từ viết tắt của mạng đối nghịch tạo sinh.

tổng quát hoá

#fundamentals

Khả năng của mô hình để đưa ra dự đoán chính xác về dữ liệu mới chưa từng thấy trước đây. Một mô hình có thể khái quát hoá là mô hình ngược lại với mô hình trang bị quá mức.

đường cong tổng quát

#fundamentals

Biểu đồ của cả mất mát khi huấn luyệnmất hiệu lực xác thực dưới dạng một hàm của số vòng lặp.

Đường cong tổng quát hoá có thể giúp bạn phát hiện khả năng điều chỉnh quá mức. Ví dụ: đường cong tổng quát hoá sau đây cho thấy tình trạng áp dụng quá mức vì về lâu dài, tình trạng mất xác thực sẽ cao hơn đáng kể so với tổn thất huấn luyện.

Một đồ thị Descartes, trong đó trục y được gắn nhãn là mất đi và trục x được gắn nhãn là số lặp. Hai lô đất xuất hiện. Một biểu đồ cho thấy mức độ mất quyền huấn luyện và biểu đồ còn lại cho thấy mức độ mất xác thực.
          Hai biểu đồ này có khởi đầu tương tự nhau, nhưng mức mất huấn luyện cuối cùng lại giảm nhiều so với mức mất xác thực.

mô hình tuyến tính tổng quát

Tổng quát về các mô hình hồi quy ít bình phương nhất (dựa trên độ nhiễu Gaussian) cho các loại mô hình khác dựa trên các loại nhiễu khác, chẳng hạn như nhiễu Poisson hoặc nhiễu phân loại. Ví dụ về mô hình tuyến tính tổng quát:

Bạn có thể tìm thấy các tham số của mô hình tuyến tính tổng quát thông qua quá trình tối ưu hoá mặt lồi.

Mô hình tuyến tính tổng quát thể hiện những thuộc tính sau:

  • Dự đoán trung bình của mô hình hồi quy bình phương tối thiểu bằng nhãn trung bình trên dữ liệu huấn luyện.
  • Xác suất trung bình mà mô hình hồi quy logistic tối ưu dự đoán bằng nhãn trung bình trên dữ liệu huấn luyện.

Sức mạnh của mô hình tuyến tính tổng quát bị giới hạn bởi các đối tượng của nó. Không giống như mô hình chuyên sâu, mô hình tuyến tính tổng quát không thể "tìm hiểu các tính năng mới".

mạng đối nghịch tạo sinh (GAN)

Một hệ thống tạo dữ liệu mới trong đó trình tạo tạo dữ liệu và bộ phân biệt sẽ xác định liệu dữ liệu đã tạo đó là hợp lệ hay không hợp lệ.

AI tạo sinh

#language
#image
#AI tạo sinh

Một trường biến đổi mới xuất hiện mà không có định nghĩa chính thức. Dù vậy, hầu hết các chuyên gia đều đồng ý rằng các mô hình AI tạo sinh có thể tạo ra nội dung đáp ứng tất cả các yêu cầu sau:

  • phức tạp
  • mạch lạc
  • gốc

Ví dụ: một mô hình AI tạo sinh có thể tạo ra các bài luận hoặc hình ảnh phức tạp.

Một số công nghệ cũ, bao gồm LSTMRNN, cũng có thể tạo ra nội dung nguyên bản và mạch lạc. Một số chuyên gia xem những công nghệ trước đây này là AI tạo sinh, trong khi một số khác lại cho rằng AI tạo sinh thực sự đòi hỏi kết quả phức tạp hơn so với những công nghệ trước đó có thể tạo ra.

Trái ngược với công nghệ học máy dự đoán.

mô hình tạo sinh

Trên thực tế, một mô hình thực hiện một trong những việc sau:

  • Tạo (tạo) ví dụ mới từ tập dữ liệu huấn luyện. Ví dụ: một mô hình tạo sinh có thể tạo ra những bài thơ sau khi được huấn luyện trên một tập dữ liệu các bài thơ. Phần trình tạo của mạng đối nghịch tạo sinh thuộc danh mục này.
  • Xác định xác suất mà một ví dụ mới đến từ tập hợp huấn luyện hoặc được tạo từ chính cơ chế đã tạo tập hợp huấn luyện. Ví dụ: sau khi huấn luyện về một tập dữ liệu bao gồm các câu tiếng Anh, mô hình tạo sinh có thể xác định xác suất mà dữ liệu đầu vào mới là một câu tiếng Anh hợp lệ.

Về mặt lý thuyết, mô hình tạo sinh có thể nhận biết sự phân phối của các ví dụ hoặc các tính năng cụ thể trong một tập dữ liệu. Đó là:

p(examples)

Các mô hình học tập không giám sát là mô hình tạo sinh.

Trái ngược với các mô hình phân biệt.

trình tạo

Hệ thống con trong một mạng đối nghịch tạo sinh có chức năng tạo ra các ví dụ mới.

Trái ngược với mô hình phân biệt.

tạp chất gini

#df

Một chỉ số tương tự như entropy. Bộ chia sử dụng các giá trị thu được từ độ không tinh khiết gini hoặc entropy để kết hợp điều kiện cho cây quyết định phân loại. Mức nhận thông tin bắt nguồn từ entropy. Không có thuật ngữ tương đương nào được chấp nhận trên toàn cầu cho chỉ số bắt nguồn từ tạp chất gini; tuy nhiên, chỉ số chưa đặt tên này cũng quan trọng không kém mức tăng thông tin.

Tạp chất Gini còn được gọi là chỉ số gini hoặc đơn giản là gini.

tập dữ liệu vàng

Một tập hợp dữ liệu được tuyển chọn thủ công để ghi lại thông tin thực tế. Các nhóm có thể sử dụng một hoặc nhiều tập dữ liệu vàng để đánh giá chất lượng của một mô hình.

Một số tập dữ liệu quan trọng thu thập được nhiều miền con của thông tin thực tế. Ví dụ: tập dữ liệu vàng để phân loại hình ảnh có thể ghi lại các điều kiện ánh sáng và độ phân giải của hình ảnh.

GPT (Trình chuyển đổi được huấn luyện trước và tạo sinh)

#language

Một dòng mô hình ngôn ngữ lớn dựa trên Transformer do OpenAI phát triển.

Các biến thể GPT có thể áp dụng cho nhiều phương thức, bao gồm:

  • tạo hình ảnh (ví dụ: ImageGPT)
  • tạo văn bản thành hình ảnh (ví dụ: DALL-E).

chuyển màu

Vectơ của đạo hàm một phần đối với tất cả các biến độc lập. Trong công nghệ học máy, độ dốc là vectơ của đạo hàm riêng phần của hàm mô hình. Các điểm chuyển màu theo hướng đi lên dốc nhất.

tích luỹ độ dốc

Kỹ thuật truyền ngược chỉ cập nhật tham số một lần cho mỗi thời gian bắt đầu của hệ thống thay vì một lần cho mỗi vòng lặp. Sau khi xử lý từng lô nhỏ, hoạt động tích luỹ độ dốc chỉ cần cập nhật tổng số độ dốc đang chạy. Tiếp theo, sau khi xử lý lô nhỏ cuối cùng trong thời gian bắt đầu của hệ thống, hệ thống cuối cùng sẽ cập nhật các tham số dựa trên tổng tất cả các thay đổi về độ dốc.

Tính năng tích luỹ dốc rất hữu ích khi kích thước lô là rất lớn so với dung lượng bộ nhớ còn trống để huấn luyện. Khi bộ nhớ là một vấn đề, xu hướng thông thường là giảm kích thước lô. Tuy nhiên, việc giảm kích thước lô trong phương pháp truyền ngược ngược thông thường sẽ làm tăng số lần cập nhật tham số. Tính năng tích luỹ dần dần cho phép mô hình này tránh các vấn đề về bộ nhớ nhưng vẫn huấn luyện hiệu quả.

Cây tăng độ dốc (quyết định) (GBT)

#df

Một loại rừng quyết định trong đó:

tăng độ dốc

#df

Một thuật toán huấn luyện trong đó các mô hình yếu được huấn luyện để liên tục cải thiện chất lượng (giảm tình trạng mất mát) của một mô hình mạnh. Ví dụ: một mô hình yếu có thể là mô hình cây quyết định tuyến tính hoặc nhỏ. Mô hình mạnh sẽ trở thành tổng hợp của tất cả mô hình yếu được huấn luyện trước đó.

Trong hình thức tăng độ dốc đơn giản nhất, ở mỗi lần lặp, một mô hình yếu sẽ được huấn luyện để dự đoán độ dốc mất của mô hình mạnh. Sau đó, đầu ra của mô hình mạnh sẽ được cập nhật bằng cách trừ đi độ dốc dự đoán, tương tự như tính năng giảm độ dốc.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

trong đó:

  • $F_{0}$ là mô hình khởi đầu mạnh mẽ.
  • $F_{i+1}$ là mô hình mạnh mẽ tiếp theo.
  • $F_{i}$ là mô hình mạnh hiện tại.
  • $\xi$ là một giá trị từ 0.0 đến 1.0, có tên là rút gọn, tương tự như tốc độ học trong tính năng giảm độ dốc.
  • $f_{i}$ là mô hình yếu được huấn luyện để dự đoán độ dốc của mức mất mát của $F_{i}$.

Các biến thể hiện đại của tính năng tăng độ dốc cũng bao gồm đạo hàm thứ hai (Hessian) của mức hao hụt trong phép tính.

Cây quyết định thường được dùng làm mô hình yếu trong tính năng tăng độ dốc. Xem cây tăng cường độ dốc (quyết định).

cắt dạng chuyển màu

#seq

Một cơ chế thường dùng để giảm thiểu vấn đề chuyển màu bị nổ bằng cách giả tạo (cắt) giá trị tối đa của độ dốc khi sử dụng tính năng giảm độ dốc để huấn luyện mô hình.

phương pháp giảm độ dốc

#fundamentals

Một kỹ thuật toán học để giảm thiểu mất mát. Việc hạ dần dần điều chỉnh lặp đi lặp lại trọng sốđộ lệch, để dần tìm ra tổ hợp tốt nhất để giảm thiểu tổn thất.

Quá trình gốc chuyển màu cũ hơn – lâu đời hơn nhiều – so với công nghệ học máy.

đồ thị

#TensorFlow

Trong TensorFlow, một quy cách tính toán. Các nút trong biểu đồ đại diện cho các thao tác. Các cạnh được định hướng và đại diện cho việc truyền kết quả của một thao tác (Tensor) dưới dạng một toán tử sang một toán tử khác. Sử dụng TensorBoard để trực quan hoá một biểu đồ.

thực thi biểu đồ

#TensorFlow

Một môi trường lập trình TensorFlow, trong đó, trước tiên chương trình sẽ tạo một biểu đồ rồi thực thi toàn bộ hoặc một phần của biểu đồ đó. Thực thi biểu đồ là chế độ thực thi mặc định trong TensorFlow 1.x.

Trái ngược với kiểu thực thi mong muốn.

chính sách tham lam

#rl

Trong học tăng cường, chính sách luôn chọn hành động có lợi tức dự kiến cao nhất.

thông tin thực tế

#fundamentals

Thực tế.

Điều thực sự đã xảy ra.

Ví dụ: hãy xem xét mô hình phân loại nhị phân dự đoán liệu một sinh viên trong năm đầu tiên đại học có tốt nghiệp trong vòng 6 năm hay không. Cơ sở thực tế cho mô hình này là liệu sinh viên đó có thực sự tốt nghiệp trong vòng 6 năm hay không.

thiên kiến phân bổ nhóm

#fairness

Giả sử rằng những gì đúng với một cá nhân cũng đúng với mọi người trong nhóm đó. Tác động của xu hướng phân bổ nhóm có thể trở nên trầm trọng hơn nếu sử dụng phương pháp lấy mẫu thuận tiện để thu thập dữ liệu. Trong một mẫu không mang tính đại diện, các thông tin ghi nhận sự đóng góp có thể không phản ánh thực tế.

Ngoài ra, hãy xem thêm về thiên vị về tính đồng nhất ngoài nhómthiên vị trong nhóm.

Số lần bị đánh trúng bóng

ảo tưởng

#language

Việc tạo ra đầu ra có vẻ hợp lý nhưng thực tế lại không chính xác bằng mô hình AI tạo sinh với mục đích đưa ra một khẳng định về thế giới thực. Ví dụ: một mô hình AI tạo sinh tuyên bố rằng Barack Obama qua đời vào năm 1865 sẽ gây ảo giác.

băm

Trong công nghệ học máy, một cơ chế để phân giỏ dữ liệu phân loại, đặc biệt là khi số lượng danh mục lớn, nhưng số lượng danh mục thực sự xuất hiện trong tập dữ liệu thì tương đối nhỏ.

Ví dụ như Trái Đất là nhà của khoảng 73.000 loài cây. Bạn có thể trình bày từng loại trong số 73.000 loài cây trong 73.000 bộ chứa phân loại riêng biệt. Ngoài ra, nếu chỉ có 200 loài cây đó thực sự xuất hiện trong một tập dữ liệu, thì bạn có thể sử dụng hàm băm để chia các loài cây thành 500 nhóm.

Một bộ chứa có thể chứa nhiều loài cây. Ví dụ: thao tác băm có thể đặt baobabphong đỏ (hai loài không giống nhau về gen) vào cùng một bộ chứa. Mặc dù vậy, băm vẫn là một cách hay để liên kết các tập hợp phân loại lớn vào số lượng bộ chứa đã chọn. Thao tác băm sẽ biến một tính năng phân loại có số lượng lớn các giá trị có thể có thành số lượng giá trị nhỏ hơn nhiều bằng cách nhóm các giá trị theo cách xác định.

phỏng đoán

Một giải pháp đơn giản và được triển khai nhanh chóng cho một vấn đề. Ví dụ: "Với phương pháp phỏng đoán, chúng tôi đã đạt được độ chính xác 86%. Khi chúng tôi chuyển sang dùng mạng nơron sâu, độ chính xác lên tới 98%."

lớp ẩn

#fundamentals

Một lớp trong mạng nơron giữa lớp đầu vào (các tính năng) và lớp đầu ra (lớp dự đoán). Mỗi lớp ẩn bao gồm một hoặc nhiều nơ-ron. Ví dụ: mạng nơron sau đây chứa hai lớp ẩn, lớp đầu tiên có 3 nơron và lớp thứ hai có 2 nơron:

4 lớp. Lớp đầu tiên là lớp đầu vào chứa hai đối tượng. Lớp thứ hai là một lớp ẩn chứa ba nơron. Lớp thứ ba là một lớp ẩn chứa hai nơron. Lớp thứ tư là lớp đầu ra. Mỗi đối tượng chứa 3 cạnh, mỗi cạnh trỏ đến một nơron khác nhau trong lớp thứ hai. Mỗi nơron trong lớp thứ hai chứa hai cạnh, mỗi cạnh trỏ đến một nơron khác nhau ở lớp thứ ba. Mỗi nơron trong lớp thứ ba chứa một cạnh, mỗi cạnh chỉ đến lớp đầu ra.

Một mạng nơron sâu chứa nhiều lớp ẩn. Ví dụ: hình minh hoạ trước là một mạng nơron sâu vì mô hình này chứa 2 lớp ẩn.

phân cụm phân cấp

#clustering

Một danh mục thuật toán cụm tạo ra cây cụm. Phân cụm phân cấp rất phù hợp với dữ liệu phân cấp, chẳng hạn như dữ liệu phân loại thực vật. Có 2 loại thuật toán cụm phân cấp:

  • Trước tiên, tính năng phân cụm tổng hợp sẽ gán từng ví dụ cho cụm riêng của nó rồi hợp nhất các cụm gần nhất để tạo một cây phân cấp.
  • Trước tiên, phân cụm phân cụm sẽ nhóm tất cả ví dụ vào một cụm rồi phân chia lặp lại cụm đó thành một cây phân cấp.

Ngược lại với phương pháp phân cụm dựa trên tâm.

tổn thất khớp nối

Một nhóm các hàm mất để phân loại được thiết kế để tìm ranh giới quyết định càng xa càng tốt trong mỗi ví dụ huấn luyện, nhờ đó tối đa hoá khoảng cách giữa các ví dụ và ranh giới. KSVM sử dụng tổn thất bản lề (hoặc một hàm có liên quan, chẳng hạn như tổn thất bản lề vuông). Để phân loại nhị phân, hàm mất bản lề được định nghĩa như sau:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

trong đó y là nhãn thực, -1 hoặc +1 và y' là đầu ra thô của mô hình thuật toán phân loại:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Do đó, đồ thị tổn thất bản lề so với (y * y') trông như sau:

Biểu đồ Descartes bao gồm hai đoạn thẳng đã kết hợp. Đoạn dòng đầu tiên bắt đầu tại (-3, 4) và kết thúc tại (1, 0). Đoạn dòng thứ hai bắt đầu tại (1; 0) và tiếp tục vô thời hạn với độ dốc bằng 0.

thiên kiến lịch sử

#fairness

Một loại thiên vị đã tồn tại trên thế giới và đã xuất hiện trong tập dữ liệu. Những thành kiến này có xu hướng phản ánh những định kiến văn hoá hiện có, sự bất bình đẳng về nhân khẩu học và định kiến đối với một số nhóm xã hội nhất định.

Ví dụ: hãy xem xét mô hình phân loại để dự đoán liệu người đăng ký vay có mặc định về khoản vay hay không, vốn được huấn luyện dựa trên dữ liệu mặc định trước đây về khoản vay từ những năm 1980 từ các ngân hàng địa phương trong hai cộng đồng khác nhau. Nếu những người đăng ký trước đây của Cộng đồng A có khả năng không vay được khoản vay cao gấp 6 lần so với những người đăng ký thuộc Cộng đồng B, thì mô hình này có thể sẽ học được độ lệch trước đây, dẫn đến việc mô hình ít có khả năng phê duyệt các khoản vay trong Cộng đồng A hơn, ngay cả khi các điều kiện trong quá khứ dẫn đến việc tỷ lệ mặc định cao hơn của cộng đồng đó không còn phù hợp nữa.

dữ liệu giữ lại

Ví dụ cố ý không sử dụng ("bị giữ bên ngoài") trong quá trình huấn luyện. Tập dữ liệu xác thựctập dữ liệu kiểm thử là các ví dụ về dữ liệu giữ lại. Dữ liệu giữ lại giúp đánh giá khả năng tổng quát hoá của mô hình thành dữ liệu khác với dữ liệu mà mô hình đã được huấn luyện. Tổn thất trong tập dữ liệu giữ chân đưa ra số liệu ước tính chính xác hơn về tổn thất trên một tập dữ liệu không nhìn thấy so với tổn thất trong tập huấn luyện.

người tổ chức

#TensorFlow
#GoogleCloud

Khi huấn luyện một mô hình học máy trên chip tăng tốc (GPU hoặc TPU), phần này của hệ thống sẽ kiểm soát cả hai yếu tố sau:

  • Luồng tổng thể của mã.
  • Trích xuất và biến đổi quy trình đầu vào.

Máy chủ lưu trữ thường chạy trên CPU chứ không phải trên chip tăng tốc; thiết bị điều khiển tensor trên chip tăng tốc.

siêu tham số

#fundamentals

Các biến mà bạn hoặc dịch vụ điều chỉnh siêu tham sốsẽ điều chỉnh trong các lần huấn luyện mô hình liên tiếp. Ví dụ: tốc độ học là một siêu tham số. Bạn có thể đặt tốc độ học thành 0,01 trước một phiên huấn luyện. Nếu xác định rằng 0,01 là quá cao, bạn có thể đặt tốc độ học thành 0,003 cho phiên đào tạo tiếp theo.

Ngược lại, tham số là các trọng sốđộ lệch khác nhau mà mô hình học được trong quá trình huấn luyện.

siêu mặt phẳng

Ranh giới phân tách không gian thành hai không gian con. Ví dụ: một đường thẳng là siêu mặt phẳng với hai chiều và một mặt phẳng là siêu mặt phẳng với ba chiều. Thông thường trong công nghệ học máy, siêu mặt phẳng là ranh giới phân tách không gian có chiều cao. Máy vectơ hỗ trợ kernel sử dụng siêu mặt phẳng để phân tách các lớp dương khỏi lớp phủ định, thường trong một không gian rất lớn.

I

phân phối độc lập và đồng nhất

Từ viết tắt cho phân phối độc lập và giống hệt.

nhận dạng hình ảnh

#image

Quá trình phân loại (các) đối tượng, (các) mẫu hoặc khái niệm trong một hình ảnh. Tính năng nhận dạng hình ảnh còn được gọi là phân loại hình ảnh.

Để biết thêm thông tin, hãy xem bài viết Thực hành học máy: Phân loại hình ảnh.

tập dữ liệu không cân bằng

Từ đồng nghĩa với tập dữ liệu không cân bằng về lớp.

thiên kiến ngầm

#fairness

Tự động đưa ra mối liên kết hoặc giả định dựa trên mô hình tư duy và ký ức của mỗi người. Thành kiến ngầm có thể ảnh hưởng đến những vấn đề sau:

  • Cách dữ liệu được thu thập và phân loại.
  • Cách các hệ thống học máy được thiết kế và phát triển.

Ví dụ: khi tạo một thuật toán phân loại để xác định ảnh cưới, một kỹ sư có thể sử dụng tính năng của một chiếc váy trắng trong ảnh. Tuy nhiên, váy trắng chỉ có thông lệ trong một số thời kỳ và ở một số nền văn hoá nhất định.

Hãy xem thêm bài viết về thiên vị xác nhận.

thao túng

Dạng ngắn của việc phân bổ giá trị.

không tương thích các chỉ số về tính công bằng

#fairness

Ý tưởng cho rằng một số khái niệm về công bằng không tương thích lẫn nhau và không thể được thoả mãn cùng một lúc. Do đó, không có một chỉ số chung nào để định lượng tính công bằng có thể áp dụng cho mọi vấn đề về học máy.

Mặc dù điều này có vẻ đáng ngại, nhưng sự không tương thích giữa các chỉ số về tính công bằng không có nghĩa là những nỗ lực về sự công bằng không mang lại kết quả. Thay vào đó, mô hình này đề xuất rằng tính công bằng phải được xác định theo ngữ cảnh cho một vấn đề nhất định về máy học, với mục tiêu ngăn chặn các thiệt hại cụ thể cho các trường hợp sử dụng của nó.

Hãy xem bài viết "Khả năng không thể xảy ra của sự công bằng" để thảo luận chi tiết hơn về chủ đề này.

học tập theo ngữ cảnh

#language
#AI tạo sinh

Từ đồng nghĩa với lời nhắc một vài lần.

được phân phối độc lập và đồng nhất (i.i.d)

#fundamentals

Dữ liệu được lấy từ một bản phân phối không thay đổi và nơi mỗi giá trị được vẽ không phụ thuộc vào các giá trị đã được vẽ trước đó. I.d. là khí lý tưởng của công nghệ học máy – một cấu trúc toán học hữu ích nhưng hầu như không bao giờ tìm thấy chính xác trong thế giới thực. Ví dụ: sự phân phối khách truy cập vào trang web có thể là trong một khoảng thời gian ngắn; tức là sự phân phối không thay đổi trong khoảng thời gian ngắn đó và lượt truy cập của một người thường không phụ thuộc vào lượt truy cập của người khác. Tuy nhiên, nếu bạn mở rộng khoảng thời gian đó, sự khác biệt theo mùa về khách truy cập trang web có thể xuất hiện.

Hãy xem thêm về vấn đề tình trạng không ổn định.

sự công bằng cá nhân

#fairness

Chỉ số công bằng kiểm tra xem các cá nhân tương tự có được phân loại tương tự nhau hay không. Ví dụ: Học viện Brobdingnagian có thể muốn thoả mãn sự công bằng cá nhân bằng cách đảm bảo rằng 2 học sinh có điểm và điểm kiểm tra chuẩn đều có khả năng được nhập học như nhau.

Xin lưu ý rằng sự công bằng cá nhân hoàn toàn phụ thuộc vào cách bạn xác định "sự tương đồng" (trong trường hợp này là điểm và điểm kiểm tra). Bạn có thể gặp rủi ro về việc đưa ra các vấn đề mới về tính công bằng nếu chỉ số tương đồng của bạn bỏ lỡ các thông tin quan trọng (chẳng hạn như tính nghiêm ngặt trong chương trình học của học viên).

Xem bài viết "Sự công bằng thông qua nhận thức" để thảo luận chi tiết hơn về sự công bằng của từng cá nhân.

suy luận

#fundamentals

Trong công nghệ học máy, quá trình đưa ra dự đoán bằng cách áp dụng mô hình đã huấn luyện cho các ví dụ không được gắn nhãn.

Suy luận có ý nghĩa hơi khác trong số liệu thống kê. Vui lòng xem Bài viết trên Wikipedia về suy luận thống kê để biết thông tin chi tiết.

đường dẫn suy luận

#df

Trong cây quyết định, trong quá trình suy luận, tuyến mà một ví dụ cụ thể lấy từ gốc đến điều kiện khác, kết thúc bằng một . Ví dụ: trong cây quyết định sau đây, các mũi tên dày hơn hiển thị đường dẫn suy luận cho một ví dụ với các giá trị tính năng sau:

  • x = 7
  • y = 12
  • z = -3

Đường dẫn suy luận trong hình minh hoạ sau đây đi qua 3 điều kiện trước khi đến chiếc lá (Zeta).

Cây quyết định bao gồm 4 điều kiện và 5 lá.
          Điều kiện gốc là (x > 0). Vì câu trả lời là Có, nên đường dẫn suy luận sẽ đi từ gốc đến điều kiện tiếp theo (y > 0).
          Vì câu trả lời là Có, nên đường dẫn suy luận sẽ chuyển đến điều kiện tiếp theo (z > 0). Vì câu trả lời là Không, nên đường dẫn suy luận sẽ di chuyển đến nút đầu cuối là lá (Zeta).

Ba mũi tên dày cho thấy đường dẫn suy luận.

mức tăng thông tin

#df

Trong rừng quyết định, sự khác biệt giữa entropy của một nút và tổng entropy có trọng số (theo số lượng ví dụ) của các nút con. Entropy của một nút là entropy của các ví dụ trong nút đó.

Ví dụ: hãy xem xét các giá trị entropy sau:

  • entropy của nút mẹ = 0,6
  • entropy của một nút con với 16 ví dụ có liên quan = 0,2
  • entropy của nút con khác với 24 ví dụ có liên quan = 0,1

Vì vậy, 40% ví dụ nằm trong một nút con và 60% nằm trong nút con khác. Vì thế:

  • tổng entropy có trọng số của các nút con = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Vì vậy, thông tin nhận được là:

  • độ tăng thông tin = entropy của nút mẹ - tổng entropy có trọng số của các nút con
  • độ nhận thông tin = 0,6 - 0,14 = 0,46

Hầu hết các trình phân tách tìm cách tạo điều kiện để tối đa hoá mức thu thập thông tin.

thiên kiến cùng nhóm

#fairness

Thể hiện sự thiên vị với một nhóm người hoặc đặc điểm riêng. Nếu người kiểm thử hoặc người đánh giá bao gồm bạn bè, gia đình hoặc đồng nghiệp của nhà phát triển công nghệ học máy, thì thiên kiến trong nhóm có thể vô hiệu hoá hoạt động kiểm thử sản phẩm hoặc tập dữ liệu.

Thiên vị trong nhóm là một dạng thiên vị phân bổ theo nhóm. Hãy xem thêm mục thiên vị về tính đồng nhất ngoài nhóm.

trình tạo đầu vào

Một cơ chế mà dữ liệu được tải vào mạng nơron.

Trình tạo đầu vào có thể được coi là một thành phần chịu trách nhiệm xử lý dữ liệu thô thành các tensor được lặp lại để tạo các lô cho việc huấn luyện, đánh giá và suy luận.

lớp đầu vào

#fundamentals

Lớp của mạng nơron chứa vectơ đối tượng. Tức là lớp đầu vào cung cấp ví dụ để huấn luyện hoặc suy luận. Ví dụ: lớp đầu vào trong mạng nơron sau đây bao gồm hai tính năng:

Bốn lớp: một lớp đầu vào, hai lớp ẩn và một lớp đầu ra.

điều kiện đặt sẵn

#df

Trong cây quyết định, một điều kiện sẽ kiểm thử sự hiện diện của một mục trong tập hợp các mục. Ví dụ: sau đây là một điều kiện được đặt sẵn:

  house-style in [tudor, colonial, cape]

Trong quá trình suy luận, nếu giá trị của tính năng kiểu nhà là tudor, colonial hoặc cape, thì điều kiện này sẽ được đánh giá là Có. Nếu giá trị của tính năng kiểu ngôi nhà là giá trị khác (ví dụ: ranch), thì điều kiện này sẽ được đánh giá là Không.

Điều kiện được đặt thường dẫn đến cây quyết định hiệu quả hơn so với những điều kiện kiểm thử các tính năng được mã hoá một lần.

đối tượng

Từ đồng nghĩa với ví dụ.

điều chỉnh hướng dẫn

#AI tạo sinh

Một dạng tinh chỉnh giúp cải thiện khả năng làm theo hướng dẫn của mô hình AI tạo sinh. Tính năng điều chỉnh hướng dẫn bao gồm việc huấn luyện một mô hình trên một loạt câu lệnh hướng dẫn, thường bao gồm nhiều thao tác. Sau đó, mô hình được tinh chỉnh theo hướng dẫn thu được có xu hướng tạo ra các phản hồi hữu ích cho lời nhắc không thực hiện được trong nhiều tác vụ.

So sánh và đối chiếu với:

mức độ diễn giải

#fundamentals

Khả năng giải thích hoặc trình bày lý do của một mô hình học máy bằng các thuật ngữ dễ hiểu cho người dùng.

Ví dụ: hầu hết các mô hình hồi quy tuyến tính đều có thể diễn giải cao. (Bạn chỉ cần xem trọng số đã huấn luyện cho từng tính năng.) Rừng quyết định cũng dễ diễn giải cao. Tuy nhiên, một số mô hình đòi hỏi việc trực quan hoá phức tạp thì mới có thể diễn giải được.

Bạn có thể sử dụng Công cụ diễn giải học tập (LIT) để diễn giải các mô hình ML.

mức độ đồng thuận

Một chỉ số đo lường về tần suất mà nhân viên đánh giá đồng ý khi thực hiện một công việc. Nếu người đánh giá không đồng ý, hướng dẫn về nhiệm vụ có thể cần được cải thiện. Đôi khi, tính năng này còn được gọi là thoả thuận giữa các chú thích hoặc độ tin cậy giữa các bên đánh giá. Hãy xem thêm về kappa của Cohen, một trong những phương pháp đo lường thoả thuận liên tỷ lệ phổ biến nhất.

giao điểm trên đường hợp nhất (IoU)

#image

Giao của hai tập hợp được chia cho hợp của chúng. Trong các tác vụ phát hiện hình ảnh theo công nghệ học máy, IoU được dùng để đo độ chính xác của hộp giới hạn dự đoán của mô hình đối với hộp giới hạn ground-truth (thực tế). Trong trường hợp này, IoU cho hai hộp là tỷ lệ giữa vùng chồng chéo và tổng diện tích và giá trị của IoU nằm trong khoảng từ 0 (không chồng chéo của hộp giới hạn dự đoán và hộp giới hạn thực tế mặt đất) đến 1 (hộp giới hạn dự đoán và hộp giới hạn thực tế mặt đất có toạ độ chính xác).

Ví dụ: trong hình ảnh dưới đây:

  • Hộp giới hạn dự đoán (tọa độ phân định vị trí mà mô hình dự đoán bảng đêm trong bức tranh) được vẽ đường viền màu tím.
  • Hộp giới hạn thực tế mặt đất (tọa độ phân cách vị trí thực sự đặt bảng đêm trong bức tranh) được viền màu xanh lục.

Tranh Van Gogh vẽ tranh Phòng ngủ của Vincent ở Arles, có hai
          hộp ràng buộc khác nhau đặt quanh chiếc bàn đêm bên cạnh giường. Hộp giới hạn với mặt đất (màu xanh lục) bao quanh bàn đêm một cách hoàn hảo. Hộp giới hạn dự đoán (màu tím) được bù trừ 50% xuống dưới và ở bên phải của hộp giới hạn chân thực; hộp này bao quanh một phần tư dưới cùng bên phải của bảng đêm, nhưng lại bỏ sót phần còn lại của bảng.

Ở đây, giao điểm của các hộp giới hạn cho dự đoán và dữ liệu thực tế mặt đất (bên dưới bên trái) là 1, và giao của các hộp giới hạn cho dự đoán và thực tế mặt đất (bên dưới bên phải) là 7, vì vậy IoU là \(\frac{1}{7}\).

Cùng hình ảnh như trên, nhưng với mỗi hộp giới hạn được chia thành 4 góc phần tư. Có tổng cộng 7 góc phần tư, vì góc phần tư dưới cùng bên phải của hộp giới hạn thực tế trên mặt đất và góc phần tư trên cùng bên trái của hộp giới hạn dự đoán chồng lên nhau. Phần chồng chéo này (được đánh dấu bằng màu xanh lục) biểu thị giao lộ và có diện tích bằng 1. Cùng hình ảnh như trên, nhưng với mỗi hộp giới hạn được chia thành 4 góc phần tư. Có tổng cộng 7 góc phần tư, vì góc phần tư dưới cùng bên phải của hộp giới hạn thực tế trên mặt đất và góc phần tư trên cùng bên trái của hộp giới hạn dự đoán chồng lên nhau.
          Toàn bộ phần bên trong được bao quanh bằng cả hai hộp giới hạn (được làm nổi bật bằng màu xanh lục) tượng trưng cho sự hợp nhất, và có diện tích là 7.

IoU

Từ viết tắt của giao lộ đối với đường hợp.

ma trận mục

#recsystems

Trong các hệ thống đề xuất, một ma trận gồm vectơ nhúng được tạo bằng tính năng phân tích ma trận chứa các tín hiệu tiềm ẩn về từng mục. Mỗi hàng của ma trận mục chứa giá trị của một tính năng tiềm ẩn duy nhất cho tất cả các mục. Ví dụ: hãy cân nhắc sử dụng hệ thống đề xuất phim. Mỗi cột trong ma trận mục đại diện cho một phim. Các tín hiệu ẩn có thể đại diện cho các thể loại hoặc có thể là tín hiệu khó diễn giải hơn, có liên quan đến hoạt động tương tác phức tạp giữa các thể loại, ngôi sao, thời lượng phim hoặc các yếu tố khác.

Ma trận mục có cùng số cột với ma trận mục tiêu đang được phân tích. Ví dụ: với một hệ thống đề xuất phim đánh giá 10.000 tựa phim, ma trận mục sẽ có 10.000 cột.

items

#recsystems

Trong hệ thống đề xuất, các thực thể mà hệ thống đề xuất. Ví dụ: Video là mặt hàng do cửa hàng video đề xuất, còn sách là mặt hàng mà hiệu sách đề xuất.

lặp lại

#fundamentals

Một lần cập nhật các tham số của mô hình (trọng sốđộ lệch) của mô hình trong quá trình huấn luyện. Kích thước lô xác định số lượng ví dụ mà mô hình xử lý trong một lần lặp. Ví dụ: nếu kích thước lô là 20, thì mô hình sẽ xử lý 20 ví dụ trước khi điều chỉnh tham số.

Khi huấn luyện mạng nơron, một lần lặp sẽ bao gồm 2 lần truyền:

  1. Một lượt chuyển tiếp để đánh giá tổn thất trong một lô.
  2. Truyền ngược (truyền ngược) để điều chỉnh các tham số của mô hình dựa trên mức tổn thất và tốc độ học.

J

JAX

Một thư viện điện toán mảng, kết hợp XLA (Đại số tuyến tính nhanh) và tính năng tự động biệt hoá cho hoạt động điện toán số hiệu suất cao. JAX cung cấp một API đơn giản và mạnh mẽ để viết mã số tăng tốc với các phép biến đổi thành phần kết hợp. JAX cung cấp các tính năng như:

  • grad (tự động phân biệt)
  • jit (biên dịch đúng thời điểm)
  • vmap (tự động vectơ hoá hoặc phân lô)
  • pmap (phát song song)

JAX là ngôn ngữ để thể hiện và soạn các biến đổi mã số, tương tự nhưng có phạm vi lớn hơn nhiều đối với thư viện NumPy của Python. (Trên thực tế, thư viện .numpy trong JAX có chức năng tương đương, nhưng là phiên bản được viết lại hoàn toàn của thư viện Python NumPy.)

JAX đặc biệt phù hợp để tăng tốc nhiều tác vụ học máy bằng cách chuyển đổi các mô hình và dữ liệu thành dạng phù hợp để áp dụng song song trên GPU và TPU chip tăng tốc của GPU.

Flax, Optax, Pax và nhiều thư viện khác được xây dựng trên cơ sở hạ tầng JAX.

nghìn

Keras

Một API máy học Python phổ biến. Keras chạy trên một số khung học sâu, trong đó có TensorFlow, trong đó nền tảng này được cung cấp dưới dạng tf.keras.

Máy vectơ hỗ trợ hạt nhân (KSVM)

Một thuật toán phân loại tìm cách tối đa hoá khoảng cách giữa dươnglớp âm bằng cách ánh xạ các vectơ dữ liệu đầu vào với không gian chiều cao hơn. Ví dụ: hãy xem xét một vấn đề phân loại trong đó tập dữ liệu đầu vào có hàng trăm tính năng. Để tối đa hoá khoảng cách giữa các lớp tích cực và phủ định, KSVM có thể ánh xạ nội bộ các tính năng đó vào không gian một triệu kích thước. KSVM sử dụng một hàm mất dữ liệu có tên là mất bản lề.

điểm chính

#image

Toạ độ của các đối tượng cụ thể trong một hình ảnh. Ví dụ: đối với mô hình nhận dạng hình ảnh giúp phân biệt các loài hoa, điểm chính có thể là tâm của mỗi cánh hoa, thân, nhị, v.v.

xác thực chéo k-fold

Thuật toán dự đoán khả năng tổng quát hoá của mô hình đối với dữ liệu mới. k trong k-fold là số lượng nhóm bằng nhau mà bạn chia ví dụ của một tập dữ liệu vào; tức là bạn huấn luyện và kiểm thử mô hình của mình k lần. Đối với mỗi vòng huấn luyện và kiểm thử, một nhóm khác nhau là tập hợp kiểm thử và tất cả các nhóm còn lại trở thành tập hợp huấn luyện. Sau k vòng huấn luyện và kiểm thử, bạn sẽ tính toán giá trị trung bình và độ lệch chuẩn của(các) chỉ số kiểm thử đã chọn.

Ví dụ: giả sử tập dữ liệu của bạn bao gồm 120 ví dụ. Giả sử thêm, bạn quyết định đặt k thành 4. Do đó, sau khi xáo trộn các ví dụ, bạn chia tập dữ liệu thành 4 nhóm bằng nhau, mỗi nhóm 30 ví dụ và tiến hành 4 vòng huấn luyện/kiểm thử:

Một tập dữ liệu được chia thành 4 nhóm ví dụ bằng nhau. Ở Vòng 1, 3 nhóm đầu tiên sẽ được dùng để huấn luyện và nhóm cuối cùng sẽ được dùng để kiểm thử. Ở Vòng 2, 2 nhóm đầu tiên và nhóm cuối cùng được dùng để huấn luyện, còn nhóm thứ ba được dùng để kiểm thử. Ở Vòng 3, nhóm đầu tiên và 2 nhóm cuối cùng được dùng để huấn luyện, còn nhóm thứ hai được dùng để kiểm thử.
          Ở Vòng 4, nhóm đầu tiên được dùng để kiểm thử, còn 3 nhóm cuối cùng sẽ được dùng để huấn luyện.

Ví dụ: Lỗi bình phương trung bình (MSE) có thể là chỉ số có ý nghĩa nhất cho mô hình hồi quy tuyến tính. Do đó, bạn sẽ thấy giá trị trung bình và độ lệch chuẩn của MSE trên cả 4 vòng.

k trung bình

#clustering

Thuật toán phân cụm phổ biến giúp nhóm các ví dụ vào mô hình học không giám sát. Về cơ bản, thuật toán k-means thực hiện những việc sau:

  • Xác định bằng cách lặp lại k điểm trung tâm tốt nhất (còn gọi là trung tâm).
  • Chỉ định mỗi ví dụ cho trọng tâm gần nhất. Những ví dụ gần nhất có cùng trọng tâm thuộc về cùng một nhóm.

Thuật toán k-means chọn các vị trí trọng tâm để giảm thiểu bình phương tích luỹ của khoảng cách từ mỗi ví dụ đến trọng tâm gần nhất.

Ví dụ: hãy xem biểu đồ sau đây lấy chiều cao của chó so với chiều rộng của chó:

Một biểu đồ Descartes với hàng chục điểm dữ liệu.

Nếu k=3, thuật toán k-means sẽ xác định được 3 tâm. Mỗi ví dụ được gán cho tâm gần nhất, thu được 3 nhóm:

Vẫn là cốt truyện Descartes trong hình minh hoạ trước, ngoại trừ việc thêm 3 trọng tâm.
          Các điểm dữ liệu trước đó được nhóm thành 3 nhóm riêng biệt, trong đó mỗi nhóm đại diện cho các điểm dữ liệu gần nhất với một trọng tâm cụ thể.

Hãy tưởng tượng một nhà sản xuất muốn xác định kích thước lý tưởng cho áo len nhỏ, trung bình và lớn cho chó. Ba trọng tâm xác định chiều cao trung bình và chiều rộng trung bình của từng chú chó trong cụm đó. Vì vậy, nhà sản xuất nên đặt kích thước áo len dựa trên 3 trọng tâm đó. Xin lưu ý rằng tâm của một cụm thường không phải là một ví dụ trong cụm đó.

Các hình minh hoạ trước đó cho thấy k-means cho những ví dụ chỉ có 2 tính năng (chiều cao và chiều rộng). Lưu ý rằng k-có nghĩa là có thể nhóm các ví dụ trong nhiều tính năng.

k trung vị

#clustering

Thuật toán phân cụm có liên quan chặt chẽ đến k-means. Sau đây là sự khác biệt thực tế giữa 2 loại dịch vụ này:

  • Ở k-trung bình, tâm được xác định bằng cách giảm thiểu tổng số bình phương của khoảng cách giữa một ứng cử viên trọng tâm và từng ví dụ của nó.
  • Theo k trung vị, tâm được xác định bằng cách giảm thiểu tổng khoảng cách giữa ứng cử viên tâm và mỗi ví dụ tương ứng.

Xin lưu ý rằng các định nghĩa về khoảng cách cũng khác nhau:

  • k-phương tiện dựa trên khoảng cách Euclide từ tâm đến một ví dụ. (Trong hai chiều, khoảng cách Euclide có nghĩa là sử dụng định lý Pythagore để tính cạnh huyền.) Ví dụ: k-có nghĩa là khoảng cách giữa (2,2) và (5, -2) sẽ là:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median dựa vào khoảng cách Manhattan từ tâm đến một ví dụ. Khoảng cách này là tổng của số delta tuyệt đối trong mỗi kích thước. Ví dụ: khoảng cách k trung vị giữa (2,2) và (5, -2) sẽ là:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Điều chỉnh L0

#fundamentals

Một loại chính quy phạt tổng số trọng số khác 0 trong một mô hình. Ví dụ: một mô hình có 11 trọng số khác 0 sẽ bị phạt nhiều hơn một mô hình tương tự có 10 trọng số khác 0.

Quy trình điều chỉnh L0 đôi khi được gọi là quy trình chuẩn hoá L0-norm.

Mất L1

#fundamentals

hàm giảm tính toán giá trị tuyệt đối của mức chênh lệch giữa giá trị nhãn thực tế và giá trị mà một mô hình dự đoán. Ví dụ: dưới đây là cách tính tổn thất L1 cho một gồm 5 ví dụ:

Giá trị thực tế của ví dụ Giá trị dự đoán của mô hình Giá trị tuyệt đối của delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = tổn thất L1

Mức giảm L1 ít nhạy cảm với các giá trị ngoại lai hơn so với mức tổn thất L2.

Ví dụ: Lỗi tuyệt đối trung bình là mức tổn thất L1 trung bình.

Điều chỉnh L1

#fundamentals

Một loại chính quy phạt trọng số theo tỷ lệ tổng giá trị tuyệt đối của trọng số. Quy trình điều chỉnh L1 giúp chuyển trọng số của các tính năng không liên quan hoặc hầu như không liên quan về chính xác. Một tính năng có trọng số bằng 0 sẽ bị xoá khỏi mô hình một cách hiệu quả.

Trái ngược với quy tắc điều chỉnh L2.

Giảm L2

#fundamentals

Hàm mất tính bình phương của hiệu số giữa các giá trị nhãn thực tế và giá trị mà một mô hình dự đoán. Ví dụ: sau đây là cách tính toán tổn thất L2 cho một gồm 5 ví dụ:

Giá trị thực tế của ví dụ Giá trị dự đoán của mô hình Quảng trường delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 tổn thất

Do bình phương, mức suy giảm L2 sẽ làm tăng mức độ ảnh hưởng của các điểm ngoại lai. Tức là tổn thất L2 phản ứng mạnh mẽ hơn với các dự đoán không chính xác so với tổn thất L1. Ví dụ: mức tổn thất L1 của lô trước đó sẽ là 8 thay vì 16. Lưu ý rằng chỉ một giá trị ngoại lệ chiếm 9/16.

Mô hình hồi quy thường sử dụng mức tổn thất L2 làm hàm mất dữ liệu.

Ví dụ: Lỗi bình phương trung bình là mức tổn thất L2 trung bình. Mất bình phương là một tên khác của tổn thất L2.

Điều chỉnh L2

#fundamentals

Một loại chính quy phạt trọng số theo tỷ lệ tổng của bình phương của trọng số. Việc điều chỉnh L2 giúp tăng trọng số giá trị ngoại lai (những giá trị có giá trị dương hoặc âm thấp) về gần 0 nhưng không hoàn toàn bằng 0. Các tính năng có giá trị gần bằng 0 vẫn còn trong mô hình nhưng không ảnh hưởng nhiều đến thông tin dự đoán của mô hình.

Quy trình điều chỉnh L2 luôn cải thiện quá trình tổng quát hoá trong mô hình tuyến tính.

Trái ngược với quy tắc điều chỉnh L1.

nhãn

#fundamentals

Trong công nghệ học máy có giám sát, phần "câu trả lời" hoặc "kết quả" của một ví dụ.

Mỗi ví dụ được gắn nhãn bao gồm một hoặc nhiều tính năng và một nhãn. Ví dụ: trong tập dữ liệu phát hiện tin nhắn rác, nhãn có thể là "nội dung rác" hoặc "không phải nội dung rác". Trong tập dữ liệu lượng mưa, nhãn này có thể là lượng mưa rơi trong một khoảng thời gian nhất định.

ví dụ có gắn nhãn

#fundamentals

Ví dụ chứa một hoặc nhiều tính năng và một nhãn. Ví dụ: bảng sau đây cho thấy 3 ví dụ có gắn nhãn từ mô hình định giá nhà, mỗi ví dụ có 3 tính năng và 1 nhãn:

Số lượng phòng ngủ Số lượng phòng tắm Tuổi thọ của nhà Giá nhà (nhãn)
3 2 15 $345.000
2 1 72 $179.000
4 2 34 $392.000

Trong công nghệ học máy có giám sát, các mô hình sẽ huấn luyện dựa trên các ví dụ được gắn nhãn và đưa ra dự đoán về các ví dụ không được gắn nhãn.

Tương phản ví dụ được gắn nhãn với các ví dụ chưa gắn nhãn.

rò rỉ nhãn

Một lỗi thiết kế mô hình, trong đó tính năng là proxy cho nhãn. Ví dụ: hãy xem xét mô hình phân loại nhị phân để dự đoán liệu một khách hàng tiềm năng có mua một sản phẩm cụ thể hay không. Giả sử một trong các tính năng của mô hình là Boolean có tên là SpokeToCustomerAgent. Giả sử thêm rằng nhân viên hỗ trợ khách hàng chỉ được chỉ định sau khi khách hàng tiềm năng thực sự mua sản phẩm. Trong quá trình huấn luyện, mô hình sẽ nhanh chóng tìm hiểu mối liên kết giữa SpokeToCustomerAgent và nhãn.

hàm lambda

#fundamentals

Từ đồng nghĩa với tỷ lệ chuẩn hoá.

Lambda là một thuật ngữ quá tải. Ở đây, chúng ta đang tập trung vào định nghĩa của thuật ngữ này trong phạm vi chính quy.

LaMDA (Mô hình ngôn ngữ cho ứng dụng hội thoại)

#language

Mô hình ngôn ngữ lớn dựa trên Transformer do Google phát triển đã được huấn luyện dựa trên một tập dữ liệu hội thoại lớn có thể tạo ra các câu trả lời trò chuyện chân thực.

LaMDA: công nghệ trò chuyện đột phá của chúng tôi cung cấp thông tin tổng quan.

địa danh

#image

Từ đồng nghĩa với keypoints.

mô hình ngôn ngữ

#language

model ước tính xác suất của một model hoặc chuỗi mã thông báo sẽ xảy ra theo một chuỗi mã thông báo dài hơn.

mô hình ngôn ngữ lớn

#language

Một cụm từ không chính thức không có định nghĩa nghiêm ngặt thường có nghĩa là mô hình ngôn ngữ có số lượng lớn tham số. Một số mô hình ngôn ngữ lớn chứa hơn 100 tỷ tham số.

không gian ẩn

#language

Từ đồng nghĩa với không gian nhúng.

lớp

#fundamentals

Một tập hợp nơ-ron trong mạng nơron. Sau đây là 3 loại lớp phổ biến:

Ví dụ: hình minh hoạ sau đây cho thấy mạng nơron với một lớp đầu vào, hai lớp ẩn và một lớp đầu ra:

Mạng nơron với một lớp đầu vào, hai lớp ẩn và một lớp đầu ra. Lớp đầu vào bao gồm hai đối tượng. Lớp ẩn đầu tiên bao gồm ba nơron và lớp ẩn thứ hai gồm hai nơron. Lớp đầu ra bao gồm một nút duy nhất.

Trong TensorFlow, lớp cũng là các hàm Python lấy Tensor và các lựa chọn cấu hình làm dữ liệu đầu vào và tạo ra các tensor khác làm đầu ra.

API Lớp (tf.layers)

#TensorFlow

API TensorFlow để xây dựng mạng nơron sâu dưới dạng cấu trúc của các lớp. API Lớp cho phép bạn tạo nhiều loại lớp, chẳng hạn như:

API Lớp tuân theo các quy ước về API lớp Keras. Nghĩa là, ngoài một tiền tố khác, tất cả các hàm trong API Lớp đều có cùng tên và chữ ký với các đối tác trong API Lớp Keras.

#df

Bất kỳ điểm cuối nào trong cây quyết định. Không giống như điều kiện, một lá không thực hiện kiểm thử. Đúng hơn, một chiếc lá là một dự đoán khả thi. Lá cũng là nút cuối của đường dẫn suy luận.

Ví dụ: cây quyết định sau đây chứa ba lá:

Cây quyết định có hai điều kiện dẫn đến ba lá.

Công cụ diễn giải học tập (LIT)

Một công cụ trực quan hoá dữ liệu và hiểu mô hình trực quan, có tính tương tác.

Bạn có thể sử dụng nguồn mở LIT để diễn giải mô hình hoặc để trực quan hoá văn bản, hình ảnh và dữ liệu dạng bảng.

tốc độ học

#fundamentals

Một số dấu phẩy động cho biết thuật toán giảm độ chuyển màu (gradient) mạnh đến mức nào để điều chỉnh trọng số và độ chệch trên mỗi vòng lặp. Ví dụ: tốc độ học là 0,3 sẽ điều chỉnh trọng số và độ chệch mạnh hơn gấp 3 lần so với tốc độ học là 0,1.

Tốc độ học là một siêu tham số quan trọng. Nếu bạn đặt tốc độ học quá thấp, thì quá trình huấn luyện sẽ mất quá nhiều thời gian. Nếu bạn đặt tốc độ học quá cao, thì chế độ giảm độ dốc thường khó đạt được sự hội tụ.

hồi quy bình phương tối thiểu

Mô hình hồi quy tuyến tính được huấn luyện bằng cách giảm thiểu tổn thất L2.

tuyến tính

#fundamentals

Mối quan hệ giữa hai hoặc nhiều biến chỉ có thể được biểu thị thông qua phép cộng và phép nhân.

Biểu đồ của mối quan hệ tuyến tính là một đường.

Tương phản với phi tuyến tính.

mô hình tuyến tính

#fundamentals

Một model chỉ định một model cho mỗi model để đưa ra model. (Mô hình tuyến tính cũng kết hợp độ lệch.) Ngược lại, mối quan hệ giữa các tính năng với thông tin dự đoán trong mô hình sâu thường là phi tuyến.

Mô hình tuyến tính thường dễ huấn luyện hơn và diễn giải nhiều hơn so với mô hình sâu. Tuy nhiên, các mô hình sâu có thể học mối quan hệ phức tạp giữa các tính năng.

Hồi quy tuyến tínhhồi quy logistic là hai loại mô hình tuyến tính.

hồi quy tuyến tính

#fundamentals

Một loại mô hình học máy đáp ứng cả hai điều kiện sau:

  • Mô hình này là mô hình tuyến tính.
  • Thông tin dự đoán là một giá trị dấu phẩy động. (Đây là phần hồi quy của hồi quy tuyến tính.)

Đối chiếu hồi quy tuyến tính với hồi quy logistic. Ngoài ra, hãy đối chiếu sự hồi quy với phân loại.

LIT

Đây là tên viết tắt của Công cụ diễn giải ngôn ngữ (LIT), trước đây được gọi là Công cụ diễn giải ngôn ngữ.

LLM (mô hình ngôn ngữ lớn)

#language

Từ viết tắt của mô hình ngôn ngữ lớn.

hồi quy logistic

#fundamentals

Một loại mô hình hồi quy dự đoán một xác suất. Mô hình hồi quy logit có các đặc điểm sau đây:

  • Nhãn này phân loại. Thuật ngữ hồi quy logistic thường đề cập đến hồi quy logistic nhị phân, tức là mô hình tính toán xác suất cho nhãn có hai giá trị có thể có. Một biến thể ít phổ biến hơn, hồi quy logistic đa thức, tính xác suất cho các nhãn có nhiều hơn 2 giá trị có thể có.
  • Hàm mất trong quá trình huấn luyện là Log Loss (Mất nhật ký). (Bạn có thể đặt nhiều đơn vị tổn thất ghi nhật ký song song cho các nhãn có thể có nhiều hơn 2 giá trị.)
  • Mô hình này có kiến trúc tuyến tính chứ không phải mạng nơron sâu. Tuy nhiên, phần còn lại của định nghĩa này cũng áp dụng cho các mô hình sâu có chức năng dự đoán xác suất cho các nhãn phân loại.

Ví dụ: hãy xem xét mô hình hồi quy logistic để tính xác suất một email đầu vào là thư rác hoặc không phải thư rác. Trong quá trình suy luận, giả sử mô hình dự đoán 0,72. Do đó, mô hình này đang ước tính:

  • 72% khả năng email là thư rác.
  • 28% khả năng email không phải là thư rác.

Mô hình hồi quy logistic sử dụng cấu trúc hai bước sau đây:

  1. Mô hình này tạo ra một thông tin dự đoán thô (y') bằng cách áp dụng một hàm tuyến tính của các tính năng đầu vào.
  2. Mô hình này sử dụng thông tin dự đoán thô đó làm dữ liệu đầu vào cho hàm sigmoid, hàm này sẽ chuyển đổi thông tin dự đoán thô thành một giá trị nằm trong khoảng từ 0 đến 1.

Giống như mọi mô hình hồi quy khác, mô hình hồi quy logistic dự đoán một con số. Tuy nhiên, số này thường trở thành một phần của mô hình phân loại nhị phân như sau:

  • Nếu số dự đoán lớn hơn ngưỡng phân loại, thì mô hình phân loại nhị phân sẽ dự đoán lớp dương.
  • Nếu số dự đoán ít hơn so với ngưỡng phân loại, thì mô hình phân loại nhị phân sẽ dự đoán lớp âm.

logit

Vectơ của dữ liệu dự đoán thô (không được chuẩn hoá) mà mô hình phân loại tạo ra, sau đó thường được truyền đến hàm chuẩn hoá. Nếu mô hình đang giải bài tập phân loại nhiều lớp, thì nhật ký thường trở thành dữ liệu đầu vào cho hàm softmax. Sau đó, hàm mềmmax tạo ra một vectơ xác suất (được chuẩn hoá) với một giá trị cho mỗi lớp có thể có.

Mất nhật ký

#fundamentals

Hàm mất dùng trong hàm hồi quy logistic nhị phân.

tỷ lệ chênh lệch nhật ký

#fundamentals

Lôgarit của xác suất biến cố nào đó.

Bộ nhớ ngắn hạn dài (LSTM)

#seq

Một loại ô trong mạng nơron định kỳ dùng để xử lý các trình tự dữ liệu trong các ứng dụng như nhận dạng chữ viết tay, dịch máy và chú thích hình ảnh. Các LSTM giải quyết được vấn đề về độ dốc biến mất xảy ra khi huấn luyện các RNN do trình tự dữ liệu dài bằng cách duy trì nhật ký ở trạng thái bộ nhớ trong dựa trên dữ liệu đầu vào và ngữ cảnh mới từ các ô trước đó trong RNN.

LoRA

#language
#AI tạo sinh

Từ viết tắt của Khả năng thích ứng ở cấp thấp.

thua

#fundamentals

Trong quá trình huấn luyện về một mô hình được giám sát, một thước đo đo lường khoảng cách từ dự đoán của mô hình so với nhãn của mô hình đó.

Hàm mất tính giá trị tổn thất.

đơn vị tổng hợp tổn thất

Một loại thuật toán học máy giúp cải thiện hiệu suất của mô hình bằng cách kết hợp dự đoán về nhiều mô hình và sử dụng các dự đoán đó để đưa ra một dự đoán duy nhất. Do đó, trình tổng hợp dữ liệu về tổn thất có thể giảm phương sai của các dự đoán và cải thiện độ chính xác của các dự đoán.

đường cong mức ngừng sử dụng

#fundamentals

Biểu đồ mất dưới dạng hàm của số vòng lặp huấn luyện. Biểu đồ sau đây cho thấy một đường cong tổn thất thông thường:

Một đồ thị Descartes về số lần lặp lại so với số lần lặp lại quá trình huấn luyện, cho thấy sự sụt giảm nhanh chóng ở lần lặp đầu tiên, sau đó giảm dần và sau đó giảm xuống ở độ dốc phẳng trong lần lặp cuối cùng.

Đường cong tổn hao có thể giúp bạn xác định thời điểm mô hình đang hội nghị hoặc trang bị quá mức.

Đường cong tổn thất có thể biểu thị tất cả các loại tổn thất sau đây:

Xem thêm đường cong tổng quát.

hàm mất

#fundamentals

Trong quá trình huấn luyện hoặc kiểm thử, một hàm toán học tính toán tổn thất trên một ví dụ. Hàm mất sẽ trả về mức tổn thất thấp hơn đối với các mô hình đưa ra dự đoán tốt so với các mô hình đưa ra dự đoán không hợp lệ.

Mục tiêu của việc huấn luyện thường là để giảm thiểu tổn thất mà hàm mất dữ liệu trả về.

Có nhiều loại hàm mất dữ liệu. Chọn hàm mất mát thích hợp cho loại mô hình mà bạn đang xây dựng. Ví dụ:

bề mặt tổn hao

Biểu đồ về cân nặng so với mức giảm. Xuống cấp độ dốc nhằm mục đích tìm(các) trọng lượng của bề mặt giảm chấn ở mức tối thiểu cục bộ.

Khả năng thích ứng ở cấp thấp (LoRA)

#language
#AI tạo sinh

Một thuật toán để điều chỉnh hiệu quả tham số, trong đó tinh chỉnh một tập hợp con của các tham số điều chỉnh hiệu quả của tham số. LoRA mang lại những lợi ích sau:

  • Tinh chỉnh nhanh hơn so với các kỹ thuật yêu cầu tinh chỉnh tất cả các tham số của mô hình.
  • Giảm chi phí tính toán của hoạt động suy luận trong mô hình được tinh chỉnh.

Một mô hình được điều chỉnh bằng LoRA sẽ duy trì hoặc cải thiện chất lượng của các thông tin dự đoán.

LoRA hỗ trợ nhiều phiên bản chuyên biệt của một mô hình.

ứng dụng kém an toàn

#seq

Từ viết tắt của Bộ nhớ ngắn hạn dài.

M

học máy

#fundamentals

Một chương trình hoặc hệ thống huấn luyện một mô hình từ dữ liệu đầu vào. Mô hình đã huấn luyện có thể đưa ra những dự đoán hữu ích từ dữ liệu mới (chưa từng thấy trước đây) rút ra từ cùng một bản phân phối với dữ liệu dùng để huấn luyện mô hình.

Công nghệ học máy cũng đề cập đến lĩnh vực nghiên cứu liên quan đến các chương trình hoặc hệ thống này.

tầng lớp đa số

#fundamentals

Nhãn phổ biến hơn trong tập dữ liệu không cân bằng về lớp. Ví dụ: với một tập dữ liệu chứa 99% nhãn âm và 1% nhãn dương, thì nhãn âm sẽ chiếm phần lớn.

Tương phản với lớp thiểu số.

Quy trình quyết định Markov (MDP)

#rl

Một biểu đồ thể hiện mô hình ra quyết định trong đó các quyết định (hoặc hành động) được đưa ra để điều hướng một trình tự các trạng thái theo giả định là thuộc tính Markov giữ. Trong học tăng cường, những lượt chuyển đổi này giữa các trạng thái sẽ trả về một phần thưởng dạng số.

Thuộc tính Markov

#rl

Là thuộc tính của một số môi trường nhất định, trong đó các quá trình chuyển đổi trạng thái hoàn toàn được xác định bởi thông tin ngầm ẩn trong trạng thái hiện tại và hành động của tác nhân.

mô hình ngôn ngữ bị che

#language

Mô hình ngôn ngữ dự đoán xác suất của mã thông báo đề xuất cần điền vào chỗ trống trong một trình tự. Ví dụ: một mô hình ngôn ngữ được che giấu có thể tính xác suất cho(các) từ đề xuất để thay thế dấu gạch dưới trong câu sau:

____ đội mũ đã trở lại.

Văn bản này thường sử dụng chuỗi "MASK" thay cho dấu gạch dưới. Ví dụ:

"MASK" trong mũ đã xuất hiện trở lại.

Hầu hết các mô hình ngôn ngữ được che giấu hiện đại đều có hai chiều.

matplotlib

Thư viện vẽ đồ thị 2D Python nguồn mở. matplotlib giúp bạn trực quan hoá các khía cạnh khác nhau của công nghệ học máy.

phân tích ma trận

#recsystems

Trong toán học, một cơ chế để tìm ma trận có tích chấm xấp xỉ ma trận mục tiêu.

Trong hệ thống đề xuất, ma trận mục tiêu thường lưu giữ điểm xếp hạng của người dùng về mục. Ví dụ: ma trận mục tiêu cho hệ thống đề xuất phim có thể có dạng như sau, trong đó số nguyên dương là điểm xếp hạng của người dùng và 0 có nghĩa là người dùng không xếp hạng phim:

  Casablanca Câu chuyện về Floodlight Black Panther (Chiến binh Báo Đen) Nữ thần chiến binh Sách hư cấu về thịt
Người dùng 1 5 3 0,0 2 0,0
Người dùng 2 4 0,0 0,0 1 5
Người dùng 3 3 1 4 5 0,0

Hệ thống đề xuất phim hướng đến việc dự đoán điểm xếp hạng của người dùng cho những bộ phim chưa được xếp hạng. Ví dụ: Người dùng 1 có thích Báo đen không?

Một phương pháp cho các hệ thống đề xuất là dùng tính năng phân tích ma trận để tạo 2 ma trận sau:

  • Một ma trận người dùng, có hình dạng bằng số lượng người dùng X số lượng phương diện nhúng.
  • Một ma trận mục, có hình dạng bằng số lượng chiều nhúng X số lượng mục.

Ví dụ: việc sử dụng phân tích ma trận trên 3 người dùng và 5 mục có thể tạo ra ma trận người dùng và ma trận mục như sau:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Tích chấm của ma trận người dùng và ma trận mục tạo ra một ma trận đề xuất không chỉ chứa điểm xếp hạng ban đầu của người dùng mà còn chứa thông tin dự đoán về những bộ phim mà mỗi người dùng chưa xem. Ví dụ: hãy xem xét điểm xếp hạng của Người dùng 1 về Casablanca là 5.0. Sản phẩm dấu chấm tương ứng với ô đó trong ma trận đề xuất hy vọng sẽ ở khoảng 5.0, và đó là:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Quan trọng hơn, Người dùng 1 có thích Báo đen không? Việc lấy tích dấu chấm tương ứng với hàng đầu tiên và cột thứ ba sẽ có điểm xếp hạng dự đoán là 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

Quá trình phân tích ma trận thường tạo ra một ma trận người dùng và ma trận mục mà kết hợp lại sẽ nhỏ gọn hơn đáng kể so với ma trận mục tiêu.

Sai số tuyệt đối trung bình (MAE)

Mức tổn thất trung bình cho mỗi ví dụ khi sử dụng L1 tổn thất. Tính sai số tuyệt đối trung bình như sau:

  1. Tính mức tổn thất L1 cho một lô.
  2. Chia mức giảm L1 cho số lượng ví dụ trong lô.

Ví dụ: hãy xem xét phép tính mức tổn thất L1 cho lô 5 ví dụ sau đây:

Giá trị thực tế của ví dụ Giá trị dự đoán của mô hình Giảm (chênh lệch giữa dữ liệu thực tế và dự đoán)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = tổn thất L1

Vì vậy, tổn thất L1 là 8 và số lượng ví dụ là 5. Do đó, sai số tuyệt đối trung bình là:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Độ tương phản trung bình sai số tuyệt đối với Lỗi bình phương trung bìnhLỗi trung bình bình phương.

Sai số bình phương trung bình (MSE)

Mức tổn thất trung bình cho mỗi ví dụ khi sử dụng lượng mưa L2. Tính sai số bình phương trung bình như sau:

  1. Tính mức tổn thất L2 cho một lô.
  2. Chia mức giảm L2 cho số lượng ví dụ trong lô.

Ví dụ: hãy xem xét tổn thất trong lô năm ví dụ sau:

Giá trị thực tế Thông tin dự đoán của mô hình Thua Tổn thất bình phương
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = L2 tổn thất

Do đó, sai số bình phương trung bình là:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Lỗi bình phương trung bình là một trình tối ưu hoá huấn luyện phổ biến, đặc biệt là cho hồi quy tuyến tính.

Lỗi bình phương độ tương phản trung bình với Lỗi tuyệt đối trung bìnhLỗi trung bình bình phương.

TensorFlow Playground sử dụng sai số bình phương trung bình để tính toán giá trị tổn thất.

lưới

#TensorFlow
#GoogleCloud

Trong lập trình song song ML, thuật ngữ liên quan đến việc chỉ định dữ liệu và mô hình cho các khối TPU, đồng thời xác định cách các giá trị này sẽ được phân đoạn hoặc sao chép.

Lưới là một thuật ngữ quá tải có thể có nghĩa là một trong những điều sau:

  • Bố cục vật lý của các khối TPU.
  • Cấu trúc logic trừu tượng để ánh xạ dữ liệu và mô hình đến vi mạch TPU.

Trong cả hai trường hợp, lưới được chỉ định dưới dạng hình dạng.

siêu học tập

#language

Một tập hợp con của công nghệ học máy phát hiện hoặc cải thiện thuật toán học tập. Một hệ thống siêu học tập cũng có thể hướng đến việc huấn luyện một mô hình để nhanh chóng học được một tác vụ mới từ một lượng nhỏ dữ liệu hoặc từ kinh nghiệm có được trong các nhiệm vụ trước đó. Các thuật toán học siêu dữ liệu thường cố gắng đạt được những mục tiêu sau:

  • Cải thiện hoặc tìm hiểu các tính năng được thiết kế thủ công (chẳng hạn như trình khởi chạy hoặc trình tối ưu hoá).
  • Tiết kiệm dữ liệu và điện toán hiệu quả hơn.
  • Cải thiện khả năng khái quát hoá.

Học siêu dữ liệu có liên quan đến học một vài lần.

chỉ số

#TensorFlow

Một số liệu thống kê mà bạn quan tâm.

Mục tiêu là chỉ số mà hệ thống học máy cố gắng tối ưu hoá.

API Chỉ số (tf.metric)

API TensorFlow để đánh giá mô hình. Ví dụ: tf.metrics.accuracy xác định tần suất các thông tin dự đoán của mô hình khớp với nhãn.

lô nhỏ

#fundamentals

Một tập hợp con nhỏ, được chọn ngẫu nhiên trong một được xử lý trong một vòng lặp. Kích thước lô của một lô nhỏ thường nằm trong khoảng từ 10 đến 1.000 ví dụ.

Ví dụ: giả sử toàn bộ tập huấn luyện (toàn bộ lô) bao gồm 1.000 ví dụ. Giả sử thêm rằng bạn đặt kích thước lô của mỗi lô nhỏ là 20. Do đó, mỗi vòng lặp sẽ xác định mức hao tổn ngẫu nhiên trong 20 trong số 1.000 ví dụ,sau đó điều chỉnh trọng sốđộ lệch tương ứng.

Việc tính toán tổn thất trong một lô nhỏ sẽ hiệu quả hơn nhiều so với tổn thất trên tất cả các ví dụ trong toàn bộ lô.

giảm độ dốc ngẫu nhiên theo lô nhỏ

Thuật toán giảm độ dốc sử dụng các lô nhỏ. Nói cách khác, tính năng giảm độ dốc ngẫu nhiên theo lô nhỏ ước tính độ dốc dựa trên một tập hợp con nhỏ dữ liệu huấn luyện. Quy trình giảm độ dốc ngẫu nhiên thông thường sử dụng lô nhỏ có kích thước 1.

mức giảm thiểu tối đa

Một hàm mất dữ liệu cho mạng đối nghịch tạo sinh, dựa trên nhiều entropy giữa việc phân phối dữ liệu đã tạo và dữ liệu thực.

Bài viết đầu tiên có thể sử dụng mức tổn thất Minimax để mô tả mạng đối nghịch tạo sinh.

giai cấp dân tộc thiểu số

#fundamentals

Nhãn ít phổ biến hơn trong tập dữ liệu không cân bằng về lớp. Ví dụ: với một tập dữ liệu chứa 99% nhãn âm và 1% nhãn dương, thì các nhãn dương sẽ thuộc nhóm thiểu số.

Tương phản với lớp đại diện.

ML (Mali)

Từ viết tắt của máy học.

MNIST

#image

Tập dữ liệu thuộc phạm vi công cộng do LeCun, Cortes và Burges tổng hợp chứa 60.000 hình ảnh, mỗi hình ảnh cho thấy cách một người tự viết một chữ số cụ thể từ 0 đến 9. Mỗi hình ảnh được lưu trữ dưới dạng một mảng số nguyên có kích thước 28x28, trong đó mỗi số nguyên là một giá trị thang màu xám từ 0 đến 255.

MNIST là một tập dữ liệu chuẩn cho công nghệ học máy, thường dùng để kiểm thử các phương pháp mới của công nghệ học máy. Để biết thông tin chi tiết, hãy xem Cơ sở dữ liệu của MNIST về các chữ số viết tay.

phương thức

#language

Một danh mục dữ liệu cấp cao. Ví dụ: số, văn bản, hình ảnh, video và âm thanh là 5 phương thức khác nhau.

model

#fundamentals

Nhìn chung, mọi cấu trúc toán học xử lý dữ liệu đầu vào và trả về đầu ra. Nói theo cách khác, mô hình là tập hợp các tham số và cấu trúc cần thiết để hệ thống đưa ra dự đoán. Trong công nghệ học máy có giám sát, mô hình sẽ lấy ví dụ làm dữ liệu đầu vào và dự đoán dự đoán làm đầu ra. Trong công nghệ học máy có giám sát, các mô hình có chút khác biệt. Ví dụ:

  • Mô hình hồi quy tuyến tính bao gồm một tập hợp trọng số và một độ lệch.
  • Mô hình mạng nơron bao gồm:
    • Một tập hợp lớp ẩn, mỗi lớp chứa một hoặc nhiều nơ-ron thần kinh.
    • Trọng số và độ chệch liên quan đến mỗi nơron.
  • Mô hình cây quyết định bao gồm:
    • Hình dạng của cây; tức là mẫu mà điều kiện và lá được kết nối.
    • Tình trạng và lá cây.

Bạn có thể lưu, khôi phục hoặc tạo bản sao của mô hình.

Công nghệ học máy không được giám sát cũng tạo ra các mô hình, thường là một hàm có thể ánh xạ một mẫu dữ liệu đầu vào với cụm thích hợp nhất.

dung lượng của mô hình

Độ phức tạp của các vấn đề mà một mô hình có thể học được. Các vấn đề mà một mô hình càng tìm hiểu được thì công suất của mô hình càng cao. Dung lượng của mô hình thường tăng theo số lượng tham số của mô hình. Để biết định nghĩa chính thức về khả năng phân loại, hãy xem phương diện VC.

mô hình xếp tầng

#AI tạo sinh

Một hệ thống chọn model lý tưởng cho một truy vấn suy luận cụ thể.

Hãy tưởng tượng một nhóm mô hình, từ rất lớn (rất nhiều tham số) đến nhỏ hơn nhiều (số lượng tham số ít hơn rất nhiều). Các mô hình rất lớn tiêu tốn nhiều tài nguyên điện toán tại thời điểm suy luận hơn so với các mô hình nhỏ hơn. Tuy nhiên, các mô hình rất lớn thường có thể dự đoán các yêu cầu phức tạp hơn các mô hình nhỏ hơn. Tính năng phân tầng mô hình xác định độ phức tạp của truy vấn suy luận, sau đó chọn mô hình phù hợp để thực hiện dự đoán. Động lực chính của việc phân tầng mô hình là giảm chi phí suy luận bằng cách nhìn chung là chọn các mô hình nhỏ hơn và chỉ chọn mô hình lớn hơn cho các truy vấn phức tạp hơn.

Hãy tưởng tượng rằng một mô hình nhỏ chạy trên điện thoại và phiên bản lớn hơn của mô hình đó chạy trên máy chủ từ xa. Tính năng phân tầng của mô hình tốt giúp giảm chi phí và độ trễ bằng cách cho phép mô hình nhỏ hơn xử lý các yêu cầu đơn giản và chỉ gọi mô hình từ xa để xử lý các yêu cầu phức tạp.

Xem thêm về bộ định tuyến mẫu.

tính song song mô hình

#language

Một phương pháp huấn luyện theo tỷ lệ hoặc suy luận để đặt các phần khác nhau của một model trên nhiều model. Tính năng song song mô hình cho phép các mô hình quá lớn nên không vừa với một thiết bị.

Để triển khai tính song song của mô hình, hệ thống thường làm như sau:

  1. Phân đoạn (chia) mô hình thành các phần nhỏ hơn.
  2. Phân bổ quá trình huấn luyện các phần nhỏ hơn đó cho nhiều bộ xử lý. Mỗi bộ xử lý sẽ huấn luyện một phần riêng của mô hình.
  3. Kết hợp các kết quả để tạo một mô hình duy nhất.

Tính năng song song của mô hình làm chậm quá trình huấn luyện.

Hãy xem thêm bài viết tính song song dữ liệu.

bộ định tuyến mẫu

#AI tạo sinh

Thuật toán xác định model lý tưởng để model trong model. Bộ định tuyến mô hình thường là một mô hình học máy dần dần tìm hiểu cách chọn mô hình tốt nhất cho một đầu vào nhất định. Tuy nhiên, bộ định tuyến mô hình đôi khi có thể là một thuật toán đơn giản hơn, không phải thuật toán học máy.

huấn luyện mô hình

Quá trình xác định model tốt nhất.

Đà phát triển

Một thuật toán giảm độ dốc tinh vi, trong đó một bước đang học không chỉ phụ thuộc vào đạo hàm ở bước hiện tại, mà còn phụ thuộc vào các đạo hàm của(các) bước đứng ngay trước nó. Động lượng liên quan đến việc tính toán giá trị trung bình động có trọng số luỹ thừa của các độ dốc theo thời gian, tương tự như động lượng trong vật lý. Đôi khi, đà tăng trưởng giúp việc học không gặp trở ngại trong quá trình tối thiểu cục bộ.

phân loại nhiều lớp

#fundamentals

Trong phương pháp học có giám sát, đây là một vấn đề về phân loại, trong đó tập dữ liệu chứa hơn 2 lớp nhãn. Ví dụ: các nhãn trong tập dữ liệu Iris phải là một trong 3 lớp sau:

  • Hoa diên vĩ
  • Hoa diên vĩ
  • Hoa diên vĩ

Một mô hình được huấn luyện trên tập dữ liệu Iris giúp dự đoán loại Iris trên các ví dụ mới đang thực hiện phân loại nhiều lớp.

Ngược lại, các bài toán phân loại phân biệt chính xác hai lớp là mô hình phân loại nhị phân. Ví dụ: mô hình email dự đoán thư rác hoặc không phải thư rác là một mô hình phân loại nhị phân.

Trong các bài toán phân cụm, hoạt động phân loại nhiều lớp đề cập đến nhiều hơn 2 cụm.

hồi quy logistic nhiều lớp

Sử dụng hồi quy logistic trong các bài toán phân loại nhiều lớp.

tự tập trung vào nhiều đầu

#language

Một tiện ích của tính năng tự chú ý áp dụng cơ chế tự chú ý nhiều lần cho mỗi vị trí trong trình tự đầu vào.

Transformers đã ra mắt tính năng tự chú ý nhiều đầu.

mô hình đa phương thức

#language

Một mô hình có dữ liệu đầu vào và/hoặc đầu ra bao gồm nhiều phương thức. Ví dụ: hãy xem xét một mô hình lấy cả hình ảnh và chú thích văn bản (hai phương thức) làm tính năng, rồi đưa ra điểm số cho biết mức độ phù hợp của chú thích văn bản với hình ảnh. Vì vậy, dữ liệu đầu vào của mô hình này là đa phương thức và đầu ra là đa phương thức.

phân loại đa thức

Từ đồng nghĩa với phân loại nhiều lớp.

hồi quy đa thức

Từ đồng nghĩa với hồi quy logistic nhiều lớp.

đa nhiệm

Kỹ thuật học máy trong đó một model duy nhất được huấn luyện để thực hiện nhiều model.

Các mô hình đa nhiệm được tạo bằng cách huấn luyện về dữ liệu phù hợp với từng nhiệm vụ khác nhau. Điều này cho phép mô hình này học cách chia sẻ thông tin về các tác vụ, giúp mô hình học tập hiệu quả hơn.

Một mô hình được huấn luyện cho nhiều tác vụ thường đã cải thiện khả năng tổng quát hoá và có thể mạnh mẽ hơn trong việc xử lý nhiều loại dữ liệu.

N

bẫy NaN

Khi một số trong mô hình của bạn trở thành NaN trong quá trình huấn luyện, điều này khiến nhiều hoặc tất cả các số khác trong mô hình của bạn cuối cùng sẽ trở thành NaN.

NaN là viết tắt của Not a Number.

hiểu ngôn ngữ tự nhiên

#language

Xác định ý định của người dùng dựa trên nội dung người dùng nhập hoặc nói. Ví dụ: một công cụ tìm kiếm sử dụng sự hiểu biết về ngôn ngữ tự nhiên để xác định nội dung người dùng đang tìm kiếm dựa trên nội dung người dùng đã nhập hoặc nói.

lớp phủ định

#fundamentals

Trong phân loại nhị phân, một lớp được gọi là dương và lớp còn lại được gọi là âm. Lớp dương là sự kiện hoặc sự kiện mà mô hình đang kiểm thử, còn lớp âm là khả năng còn lại. Ví dụ:

  • Lớp âm tính trong xét nghiệm y tế có thể là "không phải khối u".
  • Lớp phủ định trong thuật toán phân loại email có thể là "không phải thư rác".

Tương phản với lớp học tích cực.

lấy mẫu phủ định

Từ đồng nghĩa với lấy mẫu đề xuất.

Tìm kiếm kiến trúc nơron (NAS)

Một kỹ thuật để tự động thiết kế kiến trúc của mạng nơron. Các thuật toán NAS có thể làm giảm lượng thời gian và tài nguyên cần thiết để huấn luyện mạng nơron.

NAS thường sử dụng:

  • Không gian tìm kiếm, là một tập hợp các cấu trúc có thể có.
  • Hàm thể dục, đo lường hiệu suất của một cấu trúc cụ thể trong một tác vụ nhất định.

Các thuật toán NAS thường bắt đầu với một nhóm nhỏ các cấu trúc có thể có và dần mở rộng không gian tìm kiếm khi thuật toán tìm hiểu thêm về những cấu trúc mang lại hiệu quả. Hàm thể dục thường dựa trên hiệu suất của cấu trúc trên một tập huấn luyện, còn thuật toán thường được huấn luyện bằng kỹ thuật học tăng cường.

Các thuật toán NAS đã chứng minh tính hiệu quả trong việc tìm kiếm các kiến trúc có hiệu suất cao cho nhiều tác vụ, bao gồm phân loại hình ảnh, phân loại văn bản và dịch máy.

mạng nơron

#fundamentals

Một model chứa ít nhất một model. Mạng nơron sâu là một loại mạng nơron chứa nhiều lớp ẩn. Ví dụ: sơ đồ sau đây cho thấy một mạng nơron sâu chứa 2 lớp ẩn.

Mạng nơron với một lớp đầu vào, hai lớp ẩn và một lớp đầu ra.

Mỗi nơron trong mạng nơron sẽ kết nối với tất cả các nút trong lớp tiếp theo. Ví dụ: trong sơ đồ trước, hãy lưu ý rằng mỗi tế bào trong số ba nơron trong lớp ẩn đầu tiên kết nối riêng biệt với cả hai nơron ở lớp ẩn thứ hai.

Mạng nơron được triển khai trên máy tính đôi khi được gọi là mạng nơron nhân tạo để phân biệt chúng với mạng nơron có trong não bộ và các hệ thần kinh khác.

Một số mạng nơron có thể bắt chước mối quan hệ phi tuyến cực kỳ phức tạp giữa các tính năng và nhãn.

Hãy xem thêm về mạng nơron tích chậpmạng nơron lặp lại.

nơron

#fundamentals

Trong công nghệ học máy, một đơn vị riêng biệt nằm trong một lớp ẩn của mạng nơron. Mỗi nơron thực hiện hành động gồm 2 bước sau đây:

  1. Tính toán tổng có trọng số của các giá trị đầu vào nhân với trọng số tương ứng của các giá trị đó.
  2. Truyền giá trị tổng có trọng số dưới dạng dữ liệu đầu vào cho hàm kích hoạt.

Một nơron trong lớp ẩn đầu tiên sẽ chấp nhận dữ liệu đầu vào từ các giá trị tính năng trong lớp đầu vào. Một nơron trong bất kỳ lớp ẩn nào ngoài lớp đầu tiên sẽ chấp nhận dữ liệu đầu vào từ các nơron trong lớp ẩn trước đó. Ví dụ: một nơron trong lớp ẩn thứ hai chấp nhận dữ liệu đầu vào từ các nơron ở lớp ẩn đầu tiên.

Hình minh hoạ sau đây làm nổi bật hai nơron và dữ liệu đầu vào của chúng.

Mạng nơron với một lớp đầu vào, hai lớp ẩn và một lớp đầu ra. Hai nơron được làm nổi bật: một ở lớp ẩn đầu tiên và một ở lớp ẩn thứ hai. Mạng nơron được đánh dấu trong lớp ẩn đầu tiên sẽ nhận dữ liệu đầu vào từ cả hai tính năng trong lớp đầu vào. Tế bào thần kinh được đánh dấu trong lớp ẩn thứ hai sẽ nhận dữ liệu đầu vào từ mỗi 3 nơron trong lớp ẩn đầu tiên.

Một nơron trong mạng nơron bắt chước hoạt động của các nơron trong não bộ và các phần khác của hệ thần kinh.

N gam

#seq
#language

Một chuỗi N từ theo thứ tự. Ví dụ: thực sự điên rồ là 2 gam. Vì thứ tự có liên quan, nên thực sự điên rồ là 2 gam khác với thực sự là điên rồ.

N Tên của loại N-gram này Ví dụ
2 quả óc chó hoặc 2 gam để đi, đi chơi, ăn trưa, ăn tối
3 3 gam ăn quá nhiều, ba con chuột bị mù, chuông điện thoại đổ chuông
4 4 gam đi dạo trong công viên, bụi trong gió, cậu bé ăn đậu lăng

Nhiều mô hình hiểu ngôn ngữ tự nhiên dựa vào N-gram để dự đoán từ tiếp theo mà người dùng sẽ nhập hoặc nói. Ví dụ: giả sử người dùng nhập ba mù. Mô hình NLU dựa trên hình tam giác có thể sẽ dự đoán rằng người dùng sẽ nhập chuột tiếp theo.

Tương phản N-gram với bag of word (túi từ) – là những tập hợp từ không theo thứ tự.

hiểu ngôn ngữ tự nhiên (NLU)

#language

Chữ viết tắt của cụm từ hiểu ngôn ngữ tự nhiên.

nút (cây quyết định)

#df

Trong cây quyết định, điều kiện hoặc bất kỳ.

Cây quyết định có hai điều kiện và ba lá.

nút (mạng nơron)

#fundamentals

Một nơ-ron trong một lớp ẩn.

nút (biểu đồ TensorFlow)

#TensorFlow

Một phép toán trong biểu đồ TensorFlow.

độ nhiễu

Nói chung, bất kỳ thứ gì che khuất tín hiệu trong một tập dữ liệu. Dữ liệu nhiễu có thể được đưa vào dữ liệu theo nhiều cách. Ví dụ:

  • Nhân viên đánh giá có thể nhầm lẫn khi gắn nhãn.
  • Con người và công cụ ghi lại sai hoặc bỏ qua các giá trị của tính năng.

điều kiện phi nhị giới

#df

Một điều kiện chứa nhiều hơn 2 kết quả có thể xảy ra. Ví dụ: điều kiện phi nhị phân sau đây chứa ba kết quả có thể xảy ra:

Một điều kiện (number_of_legs = ?) có thể dẫn đến 3 kết quả. Một kết quả (number_of_legs = 8) dẫn đến một
          chiếc lá có tên là nhện. Kết quả thứ hai (number_of_legs = 4) dẫn đến
          một chiếc lá có tên là chó. Kết quả thứ ba (number_of_legs = 2) dẫn đến một chiếc lá có tên là chim cánh cụt.

phi tuyến tính

#fundamentals

Mối quan hệ giữa hai hoặc nhiều biến không thể chỉ biểu thị bằng phép cộng và phép nhân. Mối quan hệ tuyến tính có thể được biểu thị dưới dạng đường; không thể biểu thị mối quan hệ phi tuyến tính dưới dạng đường. Ví dụ: hãy xem xét hai mô hình, trong đó mỗi mô hình liên quan đến một tính năng duy nhất với một nhãn. Mô hình bên trái là tuyến tính và mô hình bên phải là phi tuyến tính:

2 lô đất. Mỗi biểu đồ là một đường, vì vậy đây là mối quan hệ tuyến tính.
          Biểu đồ còn lại là một đường cong, vì vậy đây là mối quan hệ phi tuyến tính.

thiên kiến khi không phản hồi

#fairness

Hãy xem phần thiên vị lựa chọn.

tính không ổn định

#fundamentals

Một đối tượng có các giá trị thay đổi theo một hoặc nhiều phương diện, thường là thời gian. Ví dụ: hãy xem xét các ví dụ sau về tính không ổn định:

  • Số lượng đồ bơi được bán tại một cửa hàng cụ thể sẽ thay đổi theo mùa.
  • Số lượng một loại trái cây cụ thể thu hoạch được ở một khu vực cụ thể trong phần lớn thời gian trong năm là bằng 0, nhưng lại lớn trong một khoảng thời gian ngắn.
  • Do biến đổi khí hậu, nhiệt độ trung bình hằng năm đang thay đổi.

Tương phản với tính không cố định.

chuẩn hoá

#fundamentals

Nói chung, quá trình chuyển đổi phạm vi giá trị thực tế của một biến thành một phạm vi giá trị tiêu chuẩn, chẳng hạn như:

  • -1 đến +1
  • 0 đến 1
  • phân phối chuẩn

Ví dụ: giả sử phạm vi giá trị thực tế của một tính năng nhất định là từ 800 đến 2.400. Trong quá trình kỹ thuật tính năng, bạn có thể chuẩn hoá các giá trị thực tế xuống phạm vi tiêu chuẩn, chẳng hạn như -1 đến +1.

Chuẩn hoá là một tác vụ phổ biến trong kỹ thuật xây dựng tính năng. Các mô hình thường huấn luyện nhanh hơn (và đưa ra thông tin dự đoán chính xác hơn) khi mọi đối tượng dạng số trong vectơ đối tượng đều có phạm vi gần như nhau.

phát hiện tính năng mới

Quá trình xác định xem một ví dụ (mới) có đến từ cùng một cách phân phối như nhóm huấn luyện hay không. Nói cách khác, sau khi huấn luyện về tập huấn luyện, tính năng phát hiện tính năng mới sẽ xác định xem một ví dụ mới (trong quá trình suy luận hoặc trong quá trình huấn luyện bổ sung) có phải là giá trị ngoại lệ hay không.

Tương phản với tính năng phát hiện điểm ngoại lai.

dữ liệu số

#fundamentals

Các đối tượng được biểu thị dưới dạng số nguyên hoặc số có giá trị thực. Ví dụ: mô hình định giá nhà có thể sẽ biểu thị kích thước của một ngôi nhà (tính bằng feet vuông hoặc mét vuông) dưới dạng dữ liệu số. Việc biểu thị một đối tượng dưới dạng dữ liệu số cho biết rằng các giá trị của đối tượng đó có mối quan hệ toán học với nhãn. Tức là số mét vuông của một ngôi nhà có thể có mối quan hệ về mặt toán học với giá trị của ngôi nhà.

Không phải tất cả dữ liệu số nguyên đều được biểu diễn dưới dạng dữ liệu số. Ví dụ: mã bưu chính ở một số nơi trên thế giới là số nguyên; tuy nhiên, mã bưu chính dạng số nguyên không nên được biểu thị dưới dạng dữ liệu số trong mô hình. Đó là vì mã bưu chính 20000 không mạnh gấp đôi (hoặc một nửa) so với mã bưu chính 10000. Hơn nữa, mặc dù các mã bưu chính khác nhau tương quan với các giá trị bất động sản khác nhau, chúng tôi không thể giả định rằng giá trị bất động sản tại mã bưu chính 20000 có giá trị gấp đôi so với giá trị bất động sản tại mã bưu chính 10000. Thay vào đó, mã bưu chính phải được biểu thị dưới dạng dữ liệu phân loại.

Đôi khi, tính năng số được gọi là tính năng liên tục.

NumPy

Một thư viện toán học nguồn mở cung cấp các phép toán mảng hiệu quả trong Python. pandas được xây dựng trên NumPy.

O

mục tiêu

Chỉ số mà thuật toán của bạn đang cố gắng tối ưu hoá.

hàm mục tiêu

Công thức toán học hoặc chỉ số mà một mô hình hướng đến tối ưu hoá. Ví dụ: hàm mục tiêu cho hồi quy tuyến tính thường là Tổn thất bình phương trung bình. Do đó, khi huấn luyện một mô hình hồi quy tuyến tính, quá trình huấn luyện sẽ nhằm giảm thiểu tổn thất bình phương trung bình.

Trong một số trường hợp, mục tiêu là tối đa hoá chức năng mục tiêu. Ví dụ: nếu hàm mục tiêu là độ chính xác, thì mục tiêu là tối đa hoá độ chính xác.

Hãy xem thêm mục Mất.

điều kiện xiên

#df

Trong cây quyết định, một điều kiện liên quan đến nhiều tính năng. Ví dụ: nếu chiều cao và chiều rộng đều là cả hai đối tượng, thì sau đây là điều kiện xiên:

  height > width

Tương phản với điều kiện căn chỉnh theo trục.

ngoại tuyến

#fundamentals

Từ đồng nghĩa với tĩnh.

suy luận ngoại tuyến

#fundamentals

Quy trình một mô hình sẽ tạo một loạt cụm từ gợi ý rồi lưu vào bộ nhớ đệm (lưu) các thông tin dự đoán đó. Sau đó, các ứng dụng có thể truy cập vào dự đoán được dự đoán từ bộ nhớ đệm thay vì chạy lại mô hình.

Ví dụ: hãy xem xét một mô hình tạo thông tin dự báo (dự đoán) thời tiết địa phương 4 giờ một lần. Sau khi mỗi mô hình chạy, hệ thống sẽ lưu tất cả thông tin dự báo thời tiết tại địa phương vào bộ nhớ đệm. Các ứng dụng thời tiết truy xuất thông tin dự báo từ bộ nhớ đệm.

Suy luận ngoại tuyến còn được gọi là suy luận tĩnh.

Trái ngược với suy luận trực tuyến.

mã hoá một nóng

#fundamentals

Biểu diễn dữ liệu phân loại dưới dạng vectơ trong đó:

  • Một phần tử được đặt thành 1.
  • Tất cả các phần tử khác đều được đặt thành 0.

Phương thức mã hoá một lần thường dùng để biểu thị các chuỗi hoặc giá trị nhận dạng có một tập hợp các giá trị hữu hạn. Ví dụ: giả sử một tính năng phân loại nhất định có tên Scandinavia có thể có 5 giá trị:

  • "Đan Mạch"
  • "Thuỵ Điển"
  • "Na Uy"
  • "Phần Lan"
  • "Iceland"

Phương thức mã hoá một nóng có thể đại diện cho từng giá trị trong số năm giá trị sau:

country Vectơ
"Đan Mạch" 1 0 0 0 0
"Thuỵ Điển" 0 1 0 0 0
"Na Uy" 0 0 1 0 0
"Phần Lan" 0 0 0 1 0
"Iceland" 0 0 0 0 1

Nhờ phương thức mã hoá một lần, một mô hình có thể học các kết nối khác nhau dựa trên từng quốc gia trong số 5 quốc gia.

Việc biểu thị một đối tượng dưới dạng dữ liệu số là phương án thay thế cho phương thức mã hoá một nhiệt (1-hot). Thật không may, việc trình bày bằng số cho các quốc gia Scandinavia bằng số không phải là một lựa chọn tốt. Ví dụ: hãy xem xét cách biểu diễn dạng số sau đây:

  • "Đan Mạch" là 0
  • "Thuỵ Điển" là 1
  • "Na Uy" là 2
  • "Phần Lan" là 3
  • "Iceland" là 4

Với phương thức mã hoá số, mô hình sẽ diễn giải các số thô theo thuật toán và cố gắng huấn luyện dựa trên các số đó. Tuy nhiên, Iceland thực sự không nhiều gấp đôi (hoặc một nửa) so với Na Uy, vì vậy mô hình này sẽ đưa ra một số kết luận kỳ lạ.

học từ một dữ liệu

Một phương pháp học máy, thường dùng để phân loại đối tượng, được thiết kế để tìm hiểu các thuật toán phân loại hiệu quả thông qua một ví dụ huấn luyện duy nhất.

Bạn cũng có thể xem thêm nội dung học ít ảnh hưởnghọc từ cơ sở dữ liệu không chụp.

nhắc một lần

#language
#AI tạo sinh

Câu lệnh chứa một ví dụ minh hoạ cách phản hồi của mô hình ngôn ngữ lớn. Ví dụ: câu lệnh sau đây có một ví dụ minh hoạ một mô hình ngôn ngữ lớn cách mô hình đó trả lời một truy vấn.

Các phần của một câu lệnh Ghi chú
Đơn vị tiền tệ chính thức của quốc gia đã chỉ định là gì? Câu hỏi mà bạn muốn LLM trả lời.
Pháp: EUR Một ví dụ.
Ấn Độ: Cụm từ tìm kiếm thực tế.

So sánh và đối chiếu lời nhắc một lần với các cụm từ sau:

một-với-tất-cả

#fundamentals

Đối với bài toán phân loại có các lớp N, một giải pháp bao gồm N các thuật toán phân loại nhị phân riêng biệt – một thuật toán phân loại nhị phân cho từng kết quả có thể xảy ra. Ví dụ: trong một mô hình phân loại các ví dụ là động vật, rau củ hoặc khoáng chất, một giải pháp một so với tất cả sẽ cung cấp 3 thuật toán phân loại nhị phân riêng biệt sau đây:

  • động vật so với không động vật
  • rau củ và không nên ăn
  • khoáng sản so với không khoáng chất

trực tuyến

#fundamentals

Từ đồng nghĩa với động.

suy luận trực tuyến

#fundamentals

Tạo thông tin dự đoán theo yêu cầu. Ví dụ: giả sử một ứng dụng truyền dữ liệu đầu vào đến một mô hình và đưa ra yêu cầu đưa ra thông tin dự đoán. Một hệ thống sử dụng suy luận trực tuyến sẽ phản hồi yêu cầu bằng cách chạy mô hình (và trả về thông tin dự đoán cho ứng dụng).

Trái ngược với suy luận ngoại tuyến.

hoạt động (hoạt động)

#TensorFlow

Trong TensorFlow, bất kỳ quy trình nào tạo, thao tác hoặc huỷ bỏ Tensor. Ví dụ: phép nhân ma trận là một phép toán lấy hai Tensor làm dữ liệu đầu vào và tạo ra một Tensor làm đầu ra.

Optax

Thư viện tối ưu hoá và xử lý độ dốc cho JAX. Optax hỗ trợ nghiên cứu bằng cách cung cấp các khối dựng có thể kết hợp lại theo những cách tuỳ chỉnh để tối ưu hoá các mô hình tham số, chẳng hạn như mạng nơron sâu. Các mục tiêu khác bao gồm:

  • Cung cấp cách triển khai các thành phần cốt lõi một cách hiệu quả, dễ đọc và được kiểm thử tốt.
  • Cải thiện năng suất bằng cách cho phép kết hợp các thành phần cấp thấp vào trình tối ưu hoá tuỳ chỉnh (hoặc các thành phần xử lý độ dốc khác).
  • Đẩy nhanh việc tiếp nhận các ý tưởng mới bằng cách tạo điều kiện để mọi người dễ dàng đóng góp.

trình tối ưu hoá

Một cách triển khai cụ thể của thuật toán giảm độ chuyển màu. Các trình tối ưu hoá phổ biến bao gồm:

  • AdaGrad, viết tắt của ADAptive GRADient cho loại gốc (ADAptive GRADient).
  • Adam, viết tắt của ADAptive with Momentum.

thiên kiến tính đồng nhất ngoài nhóm

#fairness

Xu hướng coi các thành viên ngoài nhóm giống nhau hơn thành viên trong nhóm khi so sánh thái độ, giá trị, đặc điểm tính cách và các đặc điểm khác. Trong nhóm dùng để chỉ những người bạn tương tác thường xuyên; ngoài nhóm tức là những người mà bạn không tương tác thường xuyên. Nếu bạn tạo một tập dữ liệu bằng cách yêu cầu mọi người cung cấp các thuộc tính về các nhóm không thuộc nhóm, thì các thuộc tính đó có thể ít sắc thái và rập khuôn hơn so với các thuộc tính mà người tham gia liệt kê cho những người trong nhóm của họ.

Ví dụ: Lilliputian có thể mô tả chi tiết ngôi nhà của những người Lilliputian khác, trích dẫn những khác biệt nhỏ về kiểu kiến trúc, cửa sổ, cửa ra vào và kích thước. Tuy nhiên, người Lilliputian cũng có thể chỉ khai báo rằng tất cả người dân Brazil đều sống trong cùng một ngôi nhà.

Thiên vị tính đồng nhất ngoài nhóm là một dạng thiên vị phân bổ theo nhóm.

Hãy xem thêm mục thiên vị trong nhóm.

phát hiện điểm ngoại lai

Quá trình xác định các điểm ngoại lai trong một tập hợp huấn luyện.

Tương phản với tính năng phát hiện tính năng mới.

các điểm ngoại lai

Giá trị khác xa hầu hết các giá trị khác. Trong công nghệ học máy, bất kỳ điều nào sau đây đều là ngoại lệ:

  • Dữ liệu đầu vào có giá trị lớn hơn khoảng 3 độ lệch chuẩn so với giá trị trung bình.
  • Trọng số có giá trị tuyệt đối cao.
  • Giá trị dự đoán tương đối xa giá trị thực tế.

Ví dụ: giả sử widget-price là một tính năng của một mô hình nhất định. Giả sử giá trị trung bình widget-price là 7 Euro với độ lệch chuẩn là 1 Euro. Do đó, các ví dụ chứa widget-price là 12 Euro hoặc 2 Euro sẽ được coi là các trường hợp ngoại lệ vì mỗi mức giá đó có độ lệch chuẩn 5 so với giá trị trung bình.

Các điểm ngoại lai thường do lỗi chính tả hoặc các lỗi nhập khác. Trong các trường hợp khác, các điểm ngoại lai không phải là sai lầm; xét cho cùng, giá trị có 5 độ lệch chuẩn so với giá trị trung bình là hiếm khi xảy ra nhưng hầu như không thể.

Các giá trị ngoại lai thường gây ra sự cố trong quá trình huấn luyện mô hình. Cắt bớt là một cách để quản lý các điểm ngoại lai.

đánh giá ngay lập tức (đánh giá OOB)

#df

Một cơ chế để đánh giá chất lượng của rừng quyết định bằng cách kiểm thử từng cây quyết định so với ví dụ không được sử dụng trong quá trình huấn luyện của cây quyết định đó. Ví dụ: trong biểu đồ sau, hãy lưu ý rằng hệ thống huấn luyện từng cây quyết định trên khoảng 2/3 số ví dụ, sau đó đánh giá dựa trên 1/3 số ví dụ còn lại.

Rừng quyết định bao gồm 3 cây quyết định.
          Cây quyết định sẽ huấn luyện trên 2/3 số ví dụ, sau đó sử dụng 1/3 còn lại để đánh giá OOB.
          Cây quyết định thứ hai huấn luyện dựa trên 2/3 số ví dụ khác với cây quyết định trước đó, sau đó sử dụng 1/3 khác để đánh giá OOB so với cây quyết định trước đó.

Đánh giá ngoài túi là sự ước lượng tính toán tiết kiệm và hiệu quả về mặt tính toán của cơ chế xác thực chéo. Trong trường hợp xác thực chéo, một mô hình sẽ được huấn luyện cho mỗi vòng xác thực chéo (ví dụ: 10 mô hình được huấn luyện trong trường hợp xác thực chéo 10 lần). Với đánh giá OOB, một mô hình duy nhất sẽ được huấn luyện. Vì kỹ thuật đóng gói giữ lại một số dữ liệu từ mỗi cây trong quá trình huấn luyện, nên việc đánh giá OOB có thể sử dụng dữ liệu đó để ước chừng việc xác thực chéo.

tầng đầu ra

#fundamentals

Lớp "cuối cùng" của mạng nơron. Lớp đầu ra chứa thông tin dự đoán.

Hình minh hoạ sau đây cho thấy một mạng nơron sâu nhỏ có một lớp đầu vào, 2 lớp ẩn và một lớp đầu ra:

Mạng nơron với một lớp đầu vào, hai lớp ẩn và một lớp đầu ra. Lớp đầu vào bao gồm hai đối tượng. Lớp ẩn đầu tiên bao gồm ba nơron và lớp ẩn thứ hai gồm hai nơron. Lớp đầu ra bao gồm một nút duy nhất.

khái quát hoá kém

#fundamentals

Tạo một model khớp với model đến mức mô hình đó không đưa ra được dự đoán chính xác về dữ liệu mới.

Phương pháp điều chỉnh tần suất có thể giảm tình trạng áp dụng quá mức. Việc tập luyện trên một bộ bài tập lớn và đa dạng cũng có thể giảm thiểu việc tập quá mức.

lấy mẫu quá mức

Sử dụng lại ví dụ của lớp thiểu số trong tập dữ liệu không cân bằng về lớp để tạo tập huấn luyện cân bằng hơn.

Ví dụ: hãy xem xét bài toán phân loại nhị phân, trong đó tỷ lệ giữa lớp phần lớn so với lớp nhỏ nhất là 5.000:1. Nếu tập dữ liệu chứa hàng triệu ví dụ, thì tập dữ liệu chỉ chứa khoảng 200 ví dụ về lớp thiểu số. Đó có thể là quá ít ví dụ để huấn luyện hiệu quả. Để khắc phục sự thiếu hụt này, bạn có thể lấy mẫu quá mức (sử dụng lại) 200 ví dụ đó nhiều lần, nhờ đó có thể thu được đủ ví dụ để huấn luyện hữu ích.

Bạn cần cẩn thận về việc khiến quá mức khi lấy mẫu quá mức.

Tương phản với phương pháp lấy mẫu dưới mức.

Điểm

dữ liệu đóng gói

Một phương pháp để lưu trữ dữ liệu hiệu quả hơn.

Dữ liệu đóng gói lưu trữ dữ liệu bằng cách sử dụng định dạng nén hoặc theo một số cách khác cho phép truy cập hiệu quả hơn. Dữ liệu đóng gói giúp giảm thiểu dung lượng bộ nhớ và hoạt động tính toán cần thiết để truy cập vào dữ liệu đó, giúp huấn luyện nhanh hơn và suy luận mô hình hiệu quả hơn.

Dữ liệu đóng gói thường được dùng cùng với các kỹ thuật khác, chẳng hạn như tăng cường dữ liệuchuẩn hoá, cải thiện hơn nữa hiệu suất của mô hình.

gấu trúc

#fundamentals

API phân tích dữ liệu hướng cột, được xây dựng dựa trên numpy. Nhiều khung máy học, trong đó có TensorFlow, hỗ trợ cấu trúc dữ liệu gấu trúc làm dữ liệu đầu vào. Vui lòng xem tài liệu về gấu trúc để biết thông tin chi tiết.

tham số

#fundamentals

Trọng sốđộ lệch mà mô hình học được trong quá trình huấn luyện. Ví dụ: trong mô hình hồi quy tuyến tính, các tham số bao gồm độ chệch (b) và tất cả các trọng số (w1, w2, v.v.) trong công thức sau:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Ngược lại, siêu tham số là các giá trị mà bạn (hoặc dịch vụ điều chỉnh siêu tham số) cung cấp cho mô hình. Ví dụ: tốc độ học tập là một siêu tham số.

điều chỉnh hiệu quả tham số

#language
#AI tạo sinh

Một bộ kỹ thuật để tinh chỉnh một mô hình ngôn ngữ được huấn luyện trước (PLM) lớn hiệu quả hơn so với tinh chỉnh hoàn toàn. Tính năng tinh chỉnh có hiệu quả tham số thường tinh chỉnh ít tham số hơn nhiều so với tinh chỉnh toàn bộ, nhưng thường tạo ra một mô hình ngôn ngữ lớn hoạt động tốt (hoặc gần như tương đương) như một mô hình ngôn ngữ lớn được tạo từ tinh chỉnh hoàn toàn.

So sánh và đối chiếu cách điều chỉnh hiệu quả thông số với:

Điều chỉnh hiệu quả tham số còn được gọi là tinh chỉnh hiệu quả tham số.

Máy chủ thông số (PS)

#TensorFlow

Một công việc theo dõi các tham số của mô hình trong một chế độ cài đặt được phân phối.

cập nhật tham số

Thao tác điều chỉnh các tham số của mô hình trong quá trình huấn luyện, thường là trong một lần lặp lại của quá trình giảm độ chuyển màu.

đạo hàm riêng

Một đạo hàm trong đó tất cả trừ một biến số được coi là hằng số. Ví dụ: đạo hàm riêng của f(x, y) đối với x là đạo hàm của f được coi là một hàm của x (nghĩa là giữ nguyên y). Đạo hàm riêng của f đối với x chỉ tập trung vào cách x thay đổi và bỏ qua mọi biến khác trong phương trình.

thiên kiến khi tham gia

#fairness

Từ đồng nghĩa với thiên kiến khi không phản hồi. Hãy xem phần thiên vị lựa chọn.

chiến lược phân vùng

Thuật toán mà theo đó các biến được phân chia trên máy chủ thông số.

Gói

Một khung lập trình được thiết kế để huấn luyện mạng nơron mô hình quy mô lớn đến mức có thể mở rộng nhiều TPU khối tăng tốc lát hoặc nhóm.

Pax được xây dựng trên Flax (dựa trên JAX).

Sơ đồ cho biết vị trí của Pax trong ngăn xếp phần mềm.
          Pax được xây dựng dựa trên JAX. Bản thân Pax bao gồm 3 lớp. Lớp dưới cùng chứa TensorStore và Flax.
          Lớp ở giữa chứa Optax và Flaxformer. Lớp trên cùng chứa Thư viện mô hình Praxis. Fiddle được xây dựng trên Pax.

cảm biến

Một hệ thống (phần cứng hoặc phần mềm) nhận một hoặc nhiều giá trị đầu vào, chạy một hàm trên tổng có trọng số của các giá trị đầu vào và tính toán một giá trị đầu ra duy nhất. Trong công nghệ học máy, hàm này thường phi tuyến tính, chẳng hạn như ReLU, sigmoid hoặc tanh. Ví dụ: perceptron sau đây dựa vào hàm sigmoid để xử lý 3 giá trị đầu vào:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Trong hình minh hoạ sau, perceptron nhận 3 đầu vào, mỗi đầu vào sẽ tự sửa đổi theo trọng số trước khi nhập perceptron:

Một perceptron nhận 3 dữ liệu đầu vào, mỗi dữ liệu đầu vào nhân với các trọng số riêng biệt. Perceptron xuất ra một giá trị duy nhất.

Perceptron là các nơron trong mạng nơron.

hiệu quả hoạt động

Thuật ngữ quá tải có nghĩa như sau:

  • Ý nghĩa tiêu chuẩn trong kỹ thuật phần mềm. Cụ thể: Phần mềm này chạy nhanh đến mức nào (hoặc hiệu quả)?
  • Ý nghĩa trong công nghệ học máy. Ở đây, hiệu suất sẽ trả lời câu hỏi sau: model này có chính xác không? Điều đó nghĩa là dự đoán của mô hình có tốt không?

tầm quan trọng của biến hoán vị

#df

Một loại mức độ quan trọng biến đánh giá mức tăng lỗi dự đoán của một mô hình sau khi tắt tiếng các giá trị của tính năng. Tầm quan trọng của biến hoán vị là một chỉ số độc lập với mô hình.

độ hỗn loạn

Một thước đo về mức độ hoàn thành nhiệm vụ của model. Ví dụ: giả sử nhiệm vụ của bạn là đọc vài chữ cái đầu tiên của từ mà người dùng đang nhập trên bàn phím điện thoại, đồng thời cung cấp danh sách các từ có thể hoàn thành. Độ phức tạp, P của nhiệm vụ này là số lượng dự đoán xấp xỉ bạn cần đưa ra để danh sách của bạn có chứa từ thực tế mà người dùng đang cố gắng nhập.

Độ phức tạp liên quan đến nhiều entropy như sau:

$$P= 2^{-\text{cross entropy}}$$

quy trình

Cơ sở hạ tầng xung quanh thuật toán học máy. Quy trình bao gồm việc thu thập dữ liệu, đưa dữ liệu vào các tệp dữ liệu huấn luyện, huấn luyện một hoặc nhiều mô hình và xuất các mô hình đó sang môi trường thực tế.

tạo đường ống

#language

Một dạng mô hình song song, trong đó quá trình xử lý của mô hình được chia thành các giai đoạn liên tiếp và mỗi giai đoạn được thực thi trên một thiết bị khác nhau. Trong khi một giai đoạn đang xử lý một lô, giai đoạn trước có thể hoạt động trên lô tiếp theo.

Hãy xem thêm mục chương trình đào tạo theo giai đoạn.

Pjit

Hàm JAX phân tách mã để chạy trên nhiều khối tăng tốc. Người dùng truyền một hàm đến pjit. Hàm này sẽ trả về một hàm có ngữ nghĩa tương đương nhưng được biên dịch thành phép tính XLA chạy trên nhiều thiết bị (chẳng hạn như GPU hoặc lõi TPU).

pjit cho phép người dùng phân đoạn các phép tính mà không cần viết lại bằng cách sử dụng trình phân vùng SPMD.

Kể từ tháng 3 năm 2023, pjit đã được hợp nhất với jit. Hãy tham khảo bài viết Các mảng đã phân phối và tính năng song song tự động để biết thêm thông tin chi tiết.

Nhà quản lý đối tác chiến lược

#language
#AI tạo sinh

Từ viết tắt của mô hình ngôn ngữ được huấn luyện trước.

pmap

Hàm JAX thực thi bản sao của một hàm đầu vào trên nhiều thiết bị phần cứng cơ bản (CPU, GPU hoặc TPU) với các giá trị đầu vào khác nhau. pmap dựa vào SPMD.

policy

#rl

Trong phương pháp học tăng cường, việc liên kết xác suất của tác nhân từ trạng thái đến hành động.

gộp

#image

Giảm một ma trận (hoặc các ma trận) do một lớp tích chập trước đó tạo ra xuống một ma trận nhỏ hơn. Phương pháp gộp thường bao gồm việc lấy giá trị tối đa hoặc trung bình trên vùng gộp. Ví dụ: giả sử chúng ta có ma trận 3x3 sau:

Ma trận 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Toán tử gộp, giống như phép toán tích chập, chia ma trận đó thành các lát rồi trượt phép toán tích chập đó theo bước tiến. Ví dụ: giả sử thao tác gộp chia ma trận tích chập thành 2x2 lát cắt với sải chân 1x1. Như minh hoạ dưới đây, 4 hoạt động gộp diễn ra. Hãy tưởng tượng rằng mỗi thao tác gộp sẽ chọn giá trị tối đa của 4 trong lát cắt đó:

Ma trận đầu vào là 3x3 với các giá trị: [[5,3,1], [8,2,5], [9,4,3]].
          Ma trận con 2x2 trên cùng bên trái của ma trận đầu vào là [[5,3], [8,2]], do đó, thao tác gộp ở trên cùng bên trái mang lại giá trị 8 (tối đa là 5, 3, 8 và 2). Ma trận con 2x2 ở trên cùng bên phải của ma trận đầu vào là [[3,1], [2,5]], do đó, thao tác gộp ở trên cùng bên phải mang lại giá trị 5. Ma trận con 2x2 dưới cùng bên trái của ma trận đầu vào là [[8,2], [9,4]], do đó, thao tác gộp dưới cùng bên trái mang lại giá trị 9. Ma trận con 2x2 dưới cùng bên phải của ma trận đầu vào là [[2,5], [4,3]], do đó, thao tác gộp dưới cùng bên phải mang lại giá trị 5. Tóm lại, thao tác gộp tạo ra ma trận 2x2 [[8,5], [9,5]].

Việc gộp giúp thực thi bất biến dịch thuật trong ma trận đầu vào.

Việc gộp các ứng dụng thị giác được biết đến chính thức hơn là gộp không gian. Các ứng dụng chuỗi thời gian thường gọi phương thức gộp nhóm là phương thức gộp nhóm thời gian. Nói một cách đơn giản hơn, gộp nhóm thường được gọi là lấy mẫu con hoặc giảm tần số lấy mẫu.

mã hoá vị trí

#language

Một kỹ thuật để thêm thông tin về vị trí của mã thông báo theo trình tự vào nhúng của mã thông báo. Mô hình trình biến đổi sử dụng phương thức mã hoá vị trí để hiểu rõ hơn về mối quan hệ giữa các phần của trình tự.

Cách triển khai phổ biến của mã hoá vị trí sẽ sử dụng hàm hình sin. (Cụ thể, tần số và biên độ của hàm hình sin được xác định theo vị trí của mã thông báo trong chuỗi.) Kỹ thuật này cho phép mô hình Transformer học cách tham gia vào các phần khác nhau của trình tự dựa trên vị trí của chúng.

lớp giá trị dương

#fundamentals

Lớp mà bạn đang kiểm thử.

Ví dụ: lớp dương tính trong mô hình ung thư có thể là "khối u". Lớp khẳng định trong thuật toán phân loại email có thể là "thư rác".

Tương phản với lớp phủ định.

hậu xử lý

#fairness
#fundamentals

Điều chỉnh đầu ra của mô hình sau khi chạy mô hình. Bạn có thể sử dụng quy trình hậu xử lý để thực thi các quy tắc ràng buộc về tính công bằng mà không cần sửa đổi chính mô hình.

Ví dụ: một người có thể áp dụng quá trình xử lý hậu kỳ cho một thuật toán phân loại nhị phân bằng cách đặt ngưỡng phân loại sao cho duy trì sự cân bằng về cơ hội cho một số thuộc tính bằng cách kiểm tra để đảm bảo rằng tỷ lệ dương thực sự giống nhau cho tất cả các giá trị của thuộc tính đó.

PR AUC (diện tích dưới đường cong PR)

Khu vực dưới đường cong gợi lại độ chính xác nội suy, thu được bằng cách vẽ đồ thị (recall, độ chính xác) các điểm cho các giá trị khác nhau của ngưỡng phân loại. Tuỳ thuộc vào cách tính, AUC PR có thể tương đương với độ chính xác trung bình của mô hình.

Praxis

Một thư viện học máy cốt lõi, hiệu suất cao của Pax. Praxis thường được gọi là "Thư viện lớp".

Praxis không chỉ chứa các định nghĩa cho lớp Lớp mà còn chứa hầu hết các thành phần hỗ trợ, bao gồm:

Praxis cung cấp các định nghĩa cho lớp Mô hình.

độ chính xác

Chỉ số cho mô hình phân loại để trả lời câu hỏi sau:

Khi mô hình này dự đoán lớp tích cực, tỷ lệ phần trăm các dự đoán là chính xác?

Dưới đây là công thức:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

trong đó:

  • dương thực có nghĩa là mô hình đã dự đoán chính xác về lớp dương.
  • dương tính giả (FN) có nghĩa là mô hình đã dự đoán nhầm lẫn về lớp dương tính.

Ví dụ: giả sử một mô hình đưa ra 200 dự đoán tích cực. Trong số 200 dự đoán tích cực này:

  • 150 kết quả là dương tính thật.
  • 50 kết quả dương tính giả.

Trong trường hợp này:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Ngược lại với độ chính xácsự gợi nhớ.

đường cong thu hồi độ chính xác

Đường cong độ chính xác so với lệnh gọi lại ở các ngưỡng phân loại khác nhau.

dự đoán

#fundamentals

Đầu ra của mô hình. Ví dụ:

  • Thông tin dự đoán của một mô hình phân loại nhị phân là lớp dương hoặc lớp âm.
  • Thông tin dự đoán của mô hình phân loại nhiều lớp là một lớp.
  • Dự đoán của mô hình hồi quy tuyến tính là một con số.

thiên kiến dự đoán

Một giá trị cho biết khoảng cách trung bình của các cụm từ gợi ý so với giá trị trung bình của các nhãn trong tập dữ liệu.

Đừng nhầm lẫn với thuật ngữ thiên vị trong các mô hình học máy hoặc với sự thiên vị về đạo đức và sự công bằng.

công nghệ học máy dự đoán

Bất kỳ hệ thống máy học tiêu chuẩn nào ("cổ điển").

Thuật ngữ ML dự đoán chưa có định nghĩa chính thức. Thay vào đó, thuật ngữ này phân biệt một danh mục hệ thống học máy không dựa trên AI tạo sinh.

ngang bằng dự đoán

#fairness

Chỉ số về tính công bằng giúp kiểm tra xem giá trị độ chính xác của các nhóm con đang được xem xét đối với một thuật toán phân loại nhất định có tương đương hay không.

Ví dụ: một mô hình dự đoán tỷ lệ chấp nhận trường đại học sẽ đáp ứng mức độ tương đương dự đoán cho quốc tịch nếu mức độ chính xác của mô hình đó là như nhau đối với người Lilliputian và Brobdingnagian.

Tình trạng ngang bằng dự đoán đôi khi còn được gọi là ngang hàng tỷ lệ dự đoán.

Xem mục "Giải thích định nghĩa về tính công bằng" (mục 3.2.1) để nắm được nội dung thảo luận chi tiết hơn về tính tương đồng có tính dự đoán.

mức tương đương của tỷ lệ dự đoán

#fairness

Một tên khác của tính năng giá trị ngang hàng dự đoán.

xử lý trước

#fairness
Xử lý dữ liệu trước khi dùng để huấn luyện mô hình. Quá trình xử lý trước có thể đơn giản như việc xoá các từ khỏi một tập sao lục văn bản tiếng Anh không xuất hiện trong từ điển tiếng Anh, hoặc có thể phức tạp như việc thể hiện lại các điểm dữ liệu theo cách loại bỏ càng nhiều thuộc tính tương quan với thuộc tính nhạy cảm càng tốt. Quá trình xử lý trước có thể giúp đáp ứng các ràng buộc về tính công bằng.

mô hình luyện sẵn

#language
#image
#AI tạo sinh

Các mô hình hoặc thành phần mô hình (chẳng hạn như vectơ nhúng) đã được huấn luyện. Đôi khi, bạn sẽ đưa các vectơ nhúng đã huấn luyện trước vào mạng nơron. Những lúc khác, mô hình của bạn sẽ tự huấn luyện các vectơ nhúng thay vì dựa vào các tệp nhúng được huấn luyện trước.

Thuật ngữ mô hình ngôn ngữ được huấn luyện trước đề cập đến một mô hình ngôn ngữ lớn đã trải qua quy trình đào tạo trước.

đào tạo trước

#language
#image
#AI tạo sinh

Quá trình huấn luyện ban đầu cho một mô hình trên một tập dữ liệu lớn. Một số mô hình huấn luyện trước là những người khổng lồ vụng về và thường phải được tinh chỉnh qua quá trình đào tạo bổ sung. Ví dụ: các chuyên gia ML có thể huấn luyện trước một mô hình ngôn ngữ lớn trên một tập dữ liệu văn bản khổng lồ, chẳng hạn như tất cả các trang tiếng Anh trên Wikipedia. Sau quá trình huấn luyện trước, mô hình thu được có thể được tinh chỉnh thêm thông qua bất kỳ kỹ thuật nào sau đây:

tín ngưỡng trước

Điều bạn tin tưởng về dữ liệu trước khi bắt đầu tìm hiểu về dữ liệu đó. Ví dụ: Chuẩn hoá L2 dựa trên niềm tin trước đó rằng trọng số phải có kích thước nhỏ và thường được phân bổ ở khoảng 0.

mô hình hồi quy xác suất

Một mô hình hồi quy không chỉ sử dụng trọng số cho mỗi tính năng mà còn sử dụng cả sự không chắc chắn của các trọng số đó. Mô hình hồi quy xác suất tạo ra một dự đoán và độ không chắc chắn của dự đoán đó. Ví dụ: mô hình hồi quy xác suất có thể mang lại thông tin dự đoán là 325 với độ lệch chuẩn là 12. Để biết thêm thông tin về các mô hình hồi quy xác suất, hãy xem Colab trên tensorflow.org này.

hàm mật độ xác suất

Một hàm xác định tần suất của các mẫu dữ liệu có chính xác một giá trị cụ thể. Khi các giá trị của một tập dữ liệu là các số dấu phẩy động liên tục, hiếm khi xảy ra kiểu khớp chính xác. Tuy nhiên, việc integrating hàm mật độ xác suất từ giá trị x thành giá trị y sẽ mang lại tần suất dự kiến của các mẫu dữ liệu từ x đến y.

Ví dụ: hãy xem xét một hàm phân phối chuẩn có giá trị trung bình là 200 và độ lệch chuẩn là 30. Để xác định tần suất dự kiến của các mẫu dữ liệu nằm trong phạm vi từ 211,4 đến 218,7, bạn có thể tích hợp hàm mật độ xác suất cho phân phối chuẩn từ 211,4 đến 218,7.

câu lệnh

#language
#AI tạo sinh

Mọi văn bản được nhập dưới dạng dữ liệu đầu vào vào mô hình ngôn ngữ lớn để điều chỉnh cho mô hình hoạt động theo một cách nhất định. Câu lệnh có thể ngắn gọn dưới dạng một cụm từ hoặc dài tuỳ ý (ví dụ: toàn bộ văn bản của một cuốn tiểu thuyết). Lời nhắc thuộc nhiều danh mục, bao gồm cả những lời nhắc hiển thị trong bảng sau:

Danh mục câu lệnh Ví dụ: Ghi chú
Câu hỏi Chim bồ câu có thể bay nhanh đến mức nào?
Hướng dẫn Viết một bài thơ hài hước về chủ đề chuyên đăng quảng cáo. Câu lệnh yêu cầu mô hình ngôn ngữ lớn làm gì đó.
Ví dụ: Dịch mã Markdown sang HTML. Ví dụ:
Markdown: * mục danh sách
HTML: <ul> <li>mục danh sách</li> </ul>
Câu đầu tiên trong câu lệnh mẫu này là một hướng dẫn. Phần còn lại của câu lệnh là ví dụ.
Vai trò Giải thích lý do phương pháp giảm độ dốc được sử dụng trong chương trình đào tạo máy học để lấy bằng Tiến sĩ Vật lý. Phần đầu tiên của câu là một chỉ dẫn; cụm từ "to a PhD in Physics" là phần vai trò.
Một phần dữ liệu đầu vào để mô hình này hoàn tất Thủ tướng Vương quốc Anh sống tại Lời nhắc nhập một phần có thể kết thúc đột ngột (như trong ví dụ này) hoặc kết thúc bằng dấu gạch dưới.

Mô hình AI tạo sinh có thể phản hồi một câu lệnh bằng văn bản, mã, hình ảnh, nội dung nhúng, video... gần như mọi nội dung.

học dựa trên câu lệnh

#language
#AI tạo sinh

Khả năng của một số mô hình nhất định cho phép các mô hình này điều chỉnh hành vi của mình để phản hồi hoạt động nhập văn bản tuỳ ý (lời nhắc). Trong mô hình học tập dựa trên câu lệnh thông thường, mô hình ngôn ngữ lớn sẽ phản hồi lời nhắc bằng cách tạo văn bản. Ví dụ: giả sử một người dùng nhập câu lệnh sau:

Tóm tắt Định luật chuyển động thứ ba của Newton.

Một mô hình có khả năng học dựa trên câu lệnh không được huấn luyện cụ thể để trả lời câu lệnh trước đó. Thay vào đó, mô hình này "biết" nhiều thông tin về vật lý, nhiều thông tin về các quy tắc ngôn ngữ chung và nhiều thông tin về những yếu tố cấu thành nên những câu trả lời thường hữu ích. Kiến thức đó là đủ để cung cấp một câu trả lời (hy vọng) hữu ích. Ý kiến phản hồi bổ sung của con người ("Câu trả lời đó quá phức tạp." hoặc "Phản ứng là gì?") cho phép một số hệ thống học tập dựa trên câu lệnh từng bước cải thiện mức độ hữu ích của câu trả lời.

thiết kế câu lệnh

#language
#AI tạo sinh

Từ đồng nghĩa với kỹ thuật câu lệnh.

thiết kế câu lệnh

#language
#AI tạo sinh

Nghệ thuật tạo lời nhắc để khơi gợi các phản hồi mong muốn từ một mô hình ngôn ngữ lớn. Con người thực hiện thiết kế câu lệnh. Việc viết câu lệnh có cấu trúc hợp lý là một phần thiết yếu để đảm bảo các câu trả lời hữu ích từ một mô hình ngôn ngữ lớn. Kỹ thuật câu lệnh phụ thuộc vào nhiều yếu tố, bao gồm:

Hãy xem phần Giới thiệu về thiết kế câu lệnh để biết thêm thông tin chi tiết về cách viết các câu lệnh hữu ích.

Thiết kế câu lệnh là từ đồng nghĩa với kỹ thuật thiết kế câu lệnh.

chỉnh lời nhắc

#language
#AI tạo sinh

Cơ chế điều chỉnh hiệu quả thông số học hỏi "tiền tố" mà hệ thống thêm vào trước lời nhắc thực tế.

Một biến thể của tính năng điều chỉnh câu lệnh (đôi khi gọi là tính năng điều chỉnh tiền tố) là thêm tiền tố ở mọi lớp. Ngược lại, hầu hết tính năng điều chỉnh lời nhắc chỉ thêm một tiền tố vào lớp đầu vào.

nhãn proxy

#fundamentals

Dữ liệu dùng để ước tính nhãn không có trực tiếp trong một tập dữ liệu.

Ví dụ: giả sử bạn phải huấn luyện một mô hình để dự đoán mức độ căng thẳng của nhân viên. Tập dữ liệu của bạn có chứa nhiều tính năng dự đoán nhưng không chứa nhãn có tên là mức độ căng thẳng. Không lo lắng, bạn chọn "tai nạn tại nơi làm việc" làm nhãn proxy cho mức độ căng thẳng. Xét cho cùng, nhân viên đang chịu áp lực cao sẽ gặp nhiều tai nạn hơn so với những nhân viên bình tĩnh. Có đúng như vậy không? Có thể tai nạn nơi làm việc tăng giảm vì nhiều lý do.

Ví dụ thứ hai, giả sử bạn muốn mưa có mưa không? làm nhãn Boolean cho tập dữ liệu, nhưng tập dữ liệu của bạn không chứa dữ liệu về mưa. Nếu có ảnh, bạn có thể thiết lập hình ảnh mọi người mang ô làm nhãn proxy cho câu hỏi trời có đang mưa không? Đó có phải là nhãn proxy tốt không? Có thể, nhưng người dân ở một số nền văn hoá có nhiều khả năng mang theo ô để chống nắng hơn là mưa.

Nhãn proxy thường không hoàn hảo. Khi có thể, hãy chọn nhãn thực tế thay vì nhãn proxy. Tuy nhiên, khi không có một nhãn thực sự, hãy chọn nhãn proxy rất cẩn thận, chọn đề xuất nhãn proxy ít khủng khiếp nhất.

proxy (thuộc tính nhạy cảm)

#fairness
Một thuộc tính được dùng làm giá trị thay thế cho thuộc tính nhạy cảm. Ví dụ: mã bưu chính của một cá nhân có thể được dùng làm proxy cho thu nhập, chủng tộc hoặc sắc tộc của họ.

hàm thuần tuý

Một hàm có kết quả chỉ dựa trên dữ liệu đầu vào và không có tác dụng phụ. Cụ thể, hàm thuần tuý không sử dụng hoặc thay đổi bất kỳ trạng thái toàn cục nào, chẳng hạn như nội dung của tệp hoặc giá trị của biến bên ngoài hàm.

Bạn có thể dùng các hàm thuần tuý để tạo mã an toàn cho luồng. Việc này sẽ có lợi khi phân đoạn mã model trên nhiều khối tăng tốc.

Các phương thức biến đổi hàm của JAX yêu cầu hàm đầu vào là các hàm thuần túy.

Hỏi

Hàm Q

#rl

Trong tính năng học tăng cường, hàm dự đoán lợi tức dự kiến khi thực hiện một thao tác ở một trạng thái và sau đó tuân theo một chính sách cụ thể.

Hàm Q còn được gọi là hàm giá trị hành động trạng thái.

Học hỏi

#rl

Trong cách học củng cố, một thuật toán cho phép một tác nhân tìm hiểu hàm Q tối ưu của quy trình quyết định Markov bằng cách áp dụng phương trình Bellman. Quy trình quyết định Markov mô hình hoá một môi trường.

số phân vị

Mỗi bộ chứa trong bộ chứa lượng tử.

phân nhóm số phân vị

Phân phối các giá trị của một tính năng vào bộ chứa để mỗi bộ chứa chứa cùng một số lượng ví dụ (hoặc gần như giống nhau). Ví dụ: hình sau đây chia 44 điểm thành 4 nhóm, mỗi nhóm chứa 11 điểm. Để mỗi bộ chứa trong hình này chứa cùng số điểm, một số bộ chứa có chiều rộng khác với các giá trị x.

44 điểm dữ liệu được chia thành 4 nhóm, mỗi nhóm 11 điểm.
          Mặc dù mỗi bộ chứa đều chứa cùng số điểm dữ liệu, nhưng một số bộ chứa sẽ chứa nhiều giá trị tính năng hơn so với các bộ chứa khác.

lượng tử hoá

Thuật ngữ quá tải có thể được dùng theo bất kỳ cách nào sau đây:

  • Triển khai tính năng phân bộ chứa lượng tử trên một tính năng cụ thể.
  • Chuyển đổi dữ liệu thành các số không và một số để lưu trữ, huấn luyện và dự đoán nhanh hơn. Vì dữ liệu Boolean mạnh mẽ hơn đối với độ nhiễu và lỗi so với các định dạng khác, nên việc lượng tử hoá có thể cải thiện độ chính xác của mô hình. Các kỹ thuật lượng tử hoá bao gồm làm tròn, cắt bớt và hợp nhất.
  • Giảm số lượng bit dùng để lưu trữ các tham số của mô hình. Ví dụ: giả sử các tham số của mô hình được lưu trữ dưới dạng số dấu phẩy động 32 bit. Quá trình lượng tử hoá sẽ chuyển đổi các tham số đó từ 32 bit xuống 4, 8 hoặc 16 bit. Quá trình định lượng hoá giúp giảm những điều sau:

    • Mức sử dụng điện toán, bộ nhớ, ổ đĩa và mạng
    • Thời gian để suy luận
    • Mức tiêu thụ điện năng

    Tuy nhiên, lượng tử hoá đôi khi làm giảm độ chính xác của các dự đoán trong mô hình.

danh sách chờ

#TensorFlow

Thao tác của TensorFlow triển khai cấu trúc dữ liệu hàng đợi. Thường được sử dụng trong I/O.

R

Hàm RAG

#fundamentals

Từ viết tắt của thế hệ tăng cường truy xuất.

khu rừng ngẫu nhiên

#df

Một tập hợp gồm cây quyết định trong đó mỗi cây quyết định được huấn luyện bằng một tiếng ồn ngẫu nhiên cụ thể, chẳng hạn như đặt túi.

Rừng ngẫu nhiên là một loại rừng quyết định.

chính sách ngẫu nhiên

#rl

Trong học tăng cường, một chính sách chọn ngẫu nhiên một hành động.

thứ hạng

Một loại học có giám sát có mục tiêu là sắp xếp danh sách các mục.

thứ hạng (thứ hạng)

Vị trí thứ tự của một lớp trong một bài toán học máy phân loại các lớp từ cao nhất đến thấp nhất. Ví dụ: hệ thống xếp hạng hành vi có thể xếp hạng phần thưởng cho một chú chó từ cao nhất (một miếng bít tết) đến thấp nhất (một miếng cải xoăn héo).

thứ hạng (Tensor)

#TensorFlow

Số lượng phương diện trong Tensor. Ví dụ: một đại lượng vô hướng có hạng 0, vectơ có hạng 1 và ma trận có hạng 2.

Đừng nhầm lẫn với thứ hạng (thứ hạng).

người đánh giá

#fundamentals

Người cung cấp nhãn cho ví dụ. "Người chú thích" là một tên khác của người đánh giá.

mức độ ghi nhớ

Chỉ số cho mô hình phân loại để trả lời câu hỏi sau:

Khi thông tin thực tếlớp dương, có bao nhiêu phần trăm thông tin dự đoán mà mô hình xác định chính xác là lớp dương?

Dưới đây là công thức:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

trong đó:

  • dương thực có nghĩa là mô hình đã dự đoán chính xác về lớp dương.
  • âm tính giả (false) có nghĩa là mô hình đã dự đoán nhầm lẫn về lớp âm.

Ví dụ: giả sử mô hình của bạn đưa ra 200 thông tin dự đoán về các ví dụ mà thông tin thực tế là lớp dương. Trong số 200 cụm từ gợi ý này:

  • 180 kết quả là dương tính thật.
  • 20 kết quả là âm tính giả.

Trong trường hợp này:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

hệ thống đề xuất

#recsystems

Một hệ thống chọn cho mỗi người dùng một tập hợp mục tương đối nhỏ mà họ mong muốn trong một tập sao lục lớn. Ví dụ: hệ thống đề xuất video có thể đề xuất 2 video từ kho video gồm 100.000 video, chọn CasablancaCâu chuyện phi hành gia — Câu chuyện của Chicago cho một người dùng, và chọn Wonder nữ báo đen cho một người dùng khác. Hệ thống đề xuất video có thể đề xuất video dựa trên các yếu tố như:

  • Phim mà những người dùng tương tự đã xếp hạng hoặc xem.
  • Thể loại, đạo diễn, diễn viên, đối tượng nhân khẩu học mục tiêu...

Đơn vị tuyến tính chỉnh sửa (ReLU)

#fundamentals

Hàm kích hoạt có hành vi sau:

  • Nếu đầu vào là số âm hoặc 0 thì đầu ra sẽ bằng 0.
  • Nếu đầu vào là số dương thì đầu ra sẽ bằng đầu vào.

Ví dụ:

  • Nếu đầu vào là -3 thì đầu ra là 0.
  • Nếu đầu vào là +3, thì đầu ra là 3.0.

Dưới đây là cốt truyện của ReLU:

Biểu đồ Cartesian gồm hai dòng. Dòng đầu tiên có giá trị y không đổi bằng 0, chạy dọc theo trục x từ -vô cực,0 đến 0,-0.
          Dòng thứ hai bắt đầu từ 0,0. Đường này có hệ số góc +1, vì vậy, nó chạy từ 0,0 đến +vô cùng,+vô cùng.

ReLU là một hàm kích hoạt rất phổ biến. Mặc dù có hành vi đơn giản, ReLU vẫn cho phép mạng nơron tìm hiểu mối quan hệ phi tuyến giữa các tính năngnhãn.

mạng nơron tái phát

#seq

Một mạng nơron được chủ ý chạy nhiều lần, trong đó các phần của mỗi nguồn cấp dữ liệu chạy vào lần chạy tiếp theo. Cụ thể, các lớp ẩn từ lần chạy trước sẽ cung cấp một phần thông tin đầu vào cho cùng một lớp ẩn trong lần chạy tiếp theo. Mạng nơron lặp lại đặc biệt hữu ích cho việc đánh giá trình tự, nhờ đó, các lớp ẩn có thể học hỏi từ các lần chạy mạng nơron trước đó trên các phần trước của trình tự.

Ví dụ: hình sau đây cho thấy một mạng nơron định kỳ chạy 4 lần. Lưu ý rằng các giá trị đã học được trong các lớp ẩn từ lần chạy đầu tiên sẽ trở thành một phần của dữ liệu đầu vào cho các lớp ẩn tương tự trong lần chạy thứ hai. Tương tự, các giá trị đã học trong lớp ẩn trong lần chạy thứ hai sẽ trở thành một phần của dữ liệu đầu vào đối với cùng một lớp ẩn trong lần chạy thứ ba. Bằng cách này, mạng nơron định kỳ sẽ dần huấn luyện và dự đoán ý nghĩa của toàn bộ chuỗi thay vì chỉ ý nghĩa của từng từ.

Một RNN chạy bốn lần để xử lý bốn từ đầu vào.

mô hình hồi quy

#fundamentals

Một mô hình đưa ra dự đoán dạng số một cách chính thức. (Ngược lại, mô hình phân loại sẽ đưa ra thông tin dự đoán về lớp.) Ví dụ: sau đây là tất cả các mô hình hồi quy:

  • Mô hình dự đoán giá trị của một ngôi nhà nhất định, chẳng hạn như 423.000 Euro.
  • Một mô hình dự đoán tuổi thọ của một cây nhất định, chẳng hạn như 23,2 năm.
  • Một mô hình dự đoán lượng mưa sẽ rơi ở một thành phố nhất định trong 6 giờ tới, chẳng hạn như 0,18 inch.

Hai loại mô hình hồi quy phổ biến là:

  • Hồi quy tuyến tính: tìm dòng phù hợp nhất với giá trị nhãn cho các tính năng.
  • Hồ sơ hồi quy logistic: tạo ra xác suất trong khoảng từ 0.0 đến 1.0 mà sau đó hệ thống thường ánh xạ tới dự đoán lớp.

Không phải mọi mô hình đưa ra dự đoán dạng số đều là mô hình hồi quy. Trong một số trường hợp, dự đoán dạng số thực sự chỉ là một mô hình phân loại có tên lớp dạng số. Ví dụ: mô hình dự đoán mã bưu chính dạng số là một mô hình phân loại chứ không phải mô hình hồi quy.

điều hoà

#fundamentals

Bất kỳ cơ chế nào làm giảm khả năng trang bị quá mức. Các kiểu điều chỉnh phổ biến bao gồm:

Quy ước cũng có thể được định nghĩa là hình phạt đối với sự phức tạp của mô hình.

tỷ lệ điều chỉnh

#fundamentals

Một số chỉ định tầm quan trọng tương đối của việc chuẩn hoá trong quá trình huấn luyện. Việc tăng tỷ lệ chuẩn hoá sẽ làm giảm tình trạng quá mức phù hợp, nhưng có thể làm giảm khả năng dự đoán của mô hình. Ngược lại, việc giảm hoặc bỏ qua tỷ lệ chuẩn hoá sẽ làm tăng mức độ phù hợp.

học tăng cường (rl)

#rl

Một nhóm thuật toán học một chính sách tối ưu, với mục tiêu là tối đa hoá lợi tức khi tương tác với một môi trường. Ví dụ: phần thưởng cuối cùng của hầu hết trò chơi là chiến thắng. Các hệ thống học củng cố có thể trở thành chuyên gia chơi các trò chơi phức tạp bằng cách đánh giá trình tự các động tác chơi trước đó mà cuối cùng dẫn đến chiến thắng và trình tự cuối cùng dẫn đến thua.

Tăng cường học hỏi từ ý kiến phản hồi của con người (rlHF)

#AI tạo sinh
#rl

Sử dụng ý kiến phản hồi của nhân viên đánh giá để cải thiện chất lượng các câu trả lời của mô hình. Ví dụ: cơ chế RLHF có thể yêu cầu người dùng xếp hạng chất lượng câu trả lời của mô hình bằng biểu tượng cảm xúc 👍 hoặc 👎. Sau đó, hệ thống có thể điều chỉnh các phản hồi trong tương lai dựa trên ý kiến phản hồi đó.

ReLU

#fundamentals

Từ viết tắt của Đơn vị tuyến tính được chỉnh sửa.

vùng đệm phát lại

#rl

Trong các thuật toán giống như DQN, bộ nhớ mà tác nhân dùng để lưu trữ các lượt chuyển đổi trạng thái cho mục đích phát lại trải nghiệm.

hàng nhái

Một bản sao của bộ huấn luyện hoặc mô hình, thường là trên một máy khác. Ví dụ: một hệ thống có thể sử dụng chiến lược sau đây để triển khai tính song song dữ liệu:

  1. Đặt bản sao của một mô hình hiện có trên nhiều máy.
  2. Gửi các tập hợp con khác nhau của tập huấn luyện đến từng bản sao.
  3. Tổng hợp thông tin cập nhật về tham số.

thiên kiến báo cáo

#fairness

Trên thực tế, tần suất mà mọi người viết về hành động, kết quả hoặc thuộc tính không phản ánh tần suất trong thế giới thực của họ hoặc mức độ đặc trưng của một thuộc tính của một lớp cá nhân. Xu hướng báo cáo có thể ảnh hưởng đến thành phần của dữ liệu mà các hệ thống học máy học được.

Ví dụ: trong các cuốn sách, từ cười phổ biến hơn là thở hổn hển. Một mô hình học máy ước tính tần suất tương đối cười và thở của một kho sách có thể sẽ xác định rằng cười phổ biến hơn là thở.

biểu diễn

Quá trình ánh xạ dữ liệu tới các tính năng hữu ích.

xếp hạng lại

#recsystems

Giai đoạn cuối cùng của hệ thống đề xuất, trong đó các mục được tính điểm có thể được chấm điểm lại theo một số thuật toán khác (thường là thuật toán không phải học máy). Quá trình xếp hạng lại đánh giá danh sách các mục được tạo trong giai đoạn tính điểm, thực hiện các hành động như:

  • Loại bỏ các mặt hàng mà người dùng đã mua.
  • Tăng điểm số cho các mục mới hơn.

tạo tăng cường truy xuất (RAG)

#fundamentals

Một kỹ thuật giúp cải thiện chất lượng đầu ra của mô hình ngôn ngữ lớn (LLM) bằng cách dựa vào các nguồn kiến thức được truy xuất sau khi mô hình được huấn luyện. RAG cải thiện độ chính xác của các phản hồi cho LLM bằng cách cung cấp cho LLM đã huấn luyện quyền truy cập vào thông tin được truy xuất từ các cơ sở kiến thức hoặc tài liệu đáng tin cậy.

Sau đây là những động lực phổ biến liên quan đến việc sử dụng tính năng tạo tăng cường truy xuất:

  • Tăng độ chính xác thực tế của các câu trả lời do mô hình tạo ra.
  • Cấp cho mô hình này quyền tiếp cận kiến thức mà mô hình không được huấn luyện.
  • Thay đổi kiến thức mà mô hình sử dụng.
  • Bật mô hình để trích dẫn nguồn.

Ví dụ: giả sử một ứng dụng hoá học dùng API PaLM để tạo bản tóm tắt liên quan đến truy vấn của người dùng. Khi phần phụ trợ của ứng dụng nhận được một truy vấn, phần phụ trợ sẽ:

  1. Tìm kiếm dữ liệu ("truy xuất") có liên quan đến truy vấn của người dùng.
  2. Thêm ("tăng cường") dữ liệu hoá học có liên quan vào truy vấn của người dùng.
  3. Hướng dẫn LLM tạo bản tóm tắt dựa trên dữ liệu được thêm vào.

return

#rl

Đối với phương pháp học tăng cường, dựa trên một chính sách và một trạng thái nhất định, kết quả trả về là tổng tất cả phần thưởngtác nhân mong muốn nhận được khi tuân theo chính sách từ trạng thái đến cuối tập. Nhân viên hỗ trợ xem xét tính chất chậm trễ của phần thưởng dự kiến bằng cách chiết khấu phần thưởng theo các chuyển đổi trạng thái cần thiết để nhận phần thưởng.

Do đó, nếu hệ số chiết khấu là \(\gamma\)và \(r_0, \ldots, r_{N}\) biểu thị phần thưởng cho đến cuối tập, thì phép tính giá trị trả về như sau:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

phần thưởng

#rl

Trong học tăng cường, kết quả dạng số của việc thực hiện một hành động ở một trạng thái, do môi trường xác định.

điều chỉnh độ cao

Từ đồng nghĩa với quy ước L2. Thuật ngữ chuẩn hoá google thường được dùng hơn trong ngữ cảnh thống kê thuần tuý, trong khi thuật ngữ L2 chuẩn hoá được dùng thường xuyên hơn trong công nghệ học máy.

Mã RNN

#seq

Từ viết tắt của mạng nơron tái phát.

Đường cong ROC (đặc tính hoạt động của máy thu)

#fundamentals

Biểu đồ về tỷ lệ dương tính thật so với tỷ lệ dương tính giả cho các ngưỡng phân loại khác nhau trong hoạt động phân loại nhị phân.

Hình dạng của đường cong ROC cho thấy khả năng của mô hình phân loại nhị phân trong việc tách các lớp dương khỏi các lớp âm. Ví dụ: giả sử một mô hình phân loại nhị phân tách biệt hoàn hảo mọi lớp phủ định khỏi tất cả các lớp dương:

Một dòng số có 8 ví dụ khẳng định ở bên phải và 7 ví dụ phủ định ở bên trái.

Đường cong ROC của mô hình trước đó có dạng như sau:

Đường cong ROC. Trục x là Tỷ lệ dương tính giả và trục y là Tỷ lệ dương tính đúng. Đường cong có hình chữ L ngược. Đường cong bắt đầu từ (0,0,0,0) và đi thẳng đến (0,0,1,0). Sau đó, đường cong đi từ (0,0,1,0) đến (1,0,1,0).

Ngược lại, hình minh hoạ sau đây vẽ biểu đồ các giá trị hồi quy logistic thô cho một mô hình tệ không thể tách lớp phủ định khỏi các lớp dương:

Một dòng số chứa các ví dụ khẳng định và lớp phủ định kết hợp hoàn toàn với nhau.

Đường cong ROC của mô hình này được thể hiện như sau:

Đường cong ROC thực ra là một đường thẳng từ (0,0,0,0) đến (1,0,1,0).

Trong khi đó, trên thực tế, hầu hết các mô hình phân loại nhị phân đều phân tách các lớp dương và âm ở một mức độ nào đó, nhưng thường không hoàn hảo. Vì vậy, một đường cong ROC thông thường nằm ở đâu đó giữa hai cực:

Đường cong ROC. Trục x là Tỷ lệ dương tính giả và trục y là Tỷ lệ dương tính đúng. Đường cong ROC ước chừng một vòng cung rung lắc đi qua các điểm la bàn từ Tây sang Bắc.

Điểm trên đường cong ROC gần nhất với (0,0,1,0) về mặt lý thuyết sẽ xác định ngưỡng phân loại lý tưởng. Tuy nhiên, một số vấn đề thực tế khác ảnh hưởng đến việc lựa chọn ngưỡng phân loại lý tưởng. Ví dụ: có thể âm tính giả gây đau khổ hơn nhiều so với kết quả dương tính giả.

Chỉ số bằng số có tên là AUC tóm tắt đường cong ROC thành một giá trị dấu phẩy động duy nhất.

nhắc vai trò

#language
#AI tạo sinh

Một phần không bắt buộc trong câu lệnh giúp xác định đối tượng mục tiêu cho phản hồi của mô hình AI tạo sinh. Nếu không có lời nhắc vai trò, một mô hình ngôn ngữ lớn sẽ đưa ra câu trả lời có thể hữu ích hoặc không hữu ích cho người đặt câu hỏi. Nhờ lời nhắc nhập vai trò, một mô hình ngôn ngữ lớn có thể trả lời theo cách phù hợp và hữu ích hơn cho một đối tượng mục tiêu cụ thể. Ví dụ: phần lời nhắc vai trò trong các lời nhắc sau đây được in đậm:

  • Tóm tắt bài viết này cho bằng tiến sĩ kinh tế.
  • Mô tả cơ chế hoạt động của thuỷ triều cho trẻ 10 tuổi.
  • Giải thích cuộc khủng hoảng tài chính 2008. Nói như bạn có thể với trẻ nhỏ hoặc chú chó săn mồi.

gốc

#df

Nút bắt đầu (điều kiện đầu tiên) trong cây quyết định. Theo quy ước, sơ đồ đặt phần gốc ở đầu cây quyết định. Ví dụ:

Cây quyết định có hai điều kiện và ba lá. Điều kiện bắt đầu (x > 2) là căn bậc hai.

thư mục gốc

#TensorFlow

Thư mục mà bạn chỉ định để lưu trữ các thư mục con của điểm kiểm tra TensorFlow và các tệp sự kiện của nhiều mô hình.

sai số trung bình bình phương (RMSE)

#fundamentals

Căn bậc hai của Lỗi bình phương trung bình.

bất biến khi xoay

#image

Trong một bài toán phân loại hình ảnh, thuật toán có thể phân loại thành công hình ảnh ngay cả khi hướng của hình ảnh thay đổi. Ví dụ: thuật toán vẫn có thể xác định một vợt tennis đang hướng lên, lệch sang một bên hoặc hướng xuống dưới. Lưu ý rằng bất biến xoay không phải lúc nào cũng được mong muốn; ví dụ: không nên phân loại 9 lộn ngược là 9.

Hãy xem thêm bài viết bất biến dịchbất biến kích thước.

R bình phương

Chỉ số hồi quy cho biết mức độ thay đổi trong nhãn do một tính năng riêng lẻ hoặc một bộ tính năng. R bình phương là một giá trị nằm trong khoảng từ 0 đến 1, bạn có thể hiểu như sau:

  • R bình phương bằng 0 có nghĩa là không có biến thể nào của nhãn là do bộ tính năng.
  • Hệ số R bình phương bằng 1 có nghĩa là tất cả biến thể của nhãn là do bộ tính năng.
  • R bình phương từ 0 đến 1 cho biết mức độ biến động của nhãn có thể được dự đoán từ một tính năng cụ thể hoặc bộ tính năng. Ví dụ: R bình phương bằng 0,10 có nghĩa là 10% phương sai trong nhãn là do bộ tính năng, R bình phương bằng 0,20 có nghĩa là 20% là do bộ tính năng, v.v.

R bình phương là bình phương của hệ số tương quan Pearson giữa các giá trị mà mô hình dự đoán và dữ liệu thực tế.

S

thiên vị lấy mẫu

#fairness

Hãy xem phần thiên vị lựa chọn.

lấy mẫu bằng phương pháp thay thế

#df

Phương thức chọn các mục từ một tập hợp các mục đề xuất, trong đó cùng một mục có thể được chọn nhiều lần. Cụm từ "có thay thế" có nghĩa là sau mỗi lần lựa chọn, mục đã chọn sẽ được trả về nhóm các mục đề xuất. Phương pháp nghịch đảo, lấy mẫu mà không thay thế, nghĩa là mục đề xuất chỉ có thể được chọn một lần.

Ví dụ: hãy xem xét nhóm trái cây sau đây:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Giả sử hệ thống chọn ngẫu nhiên fig làm mục đầu tiên. Nếu sử dụng phương thức lấy mẫu có thay thế, thì hệ thống sẽ chọn mục thứ hai trong tập hợp sau đây:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Có, giá trị này được đặt giống như trước, nên hệ thống có thể chọn lại fig.

Nếu sử dụng phương thức lấy mẫu mà không thay thế, thì sau khi đã chọn, bạn không thể chọn lại mẫu. Ví dụ: nếu hệ thống chọn ngẫu nhiên fig làm mẫu đầu tiên, thì bạn sẽ không thể chọn lại fig. Do đó, hệ thống sẽ chọn mẫu thứ hai trong tập hợp (đã rút gọn) sau đây:

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

Định dạng nên dùng để lưu và khôi phục các mô hình TensorFlow. SavedModel là một định dạng chuyển đổi tuần tự không phụ thuộc vào ngôn ngữ và có thể khôi phục, cho phép các hệ thống và công cụ cấp cao hơn tạo, sử dụng và chuyển đổi các mô hình TensorFlow.

Hãy xem Lưu và khôi phục chương trong Hướng dẫn dành cho lập trình viên TensorFlow để biết đầy đủ thông tin.

Vận chuyển hàng tiết kiệm

#TensorFlow

Một đối tượng TensorFlow chịu trách nhiệm lưu các điểm kiểm tra mô hình.

đại lượng vô hướng

Một số hoặc một chuỗi đơn có thể được biểu thị dưới dạng tensor của xếp hạng 0. Ví dụ: các dòng mã sau đây tạo ra một đại lượng vô hướng trong TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

chuyển tỷ lệ

Bất kỳ biến đổi hoặc kỹ thuật toán học nào làm thay đổi phạm vi của nhãn và/hoặc giá trị đối tượng. Một số hình thức điều chỉnh theo tỷ lệ rất hữu ích cho các phép biến đổi như chuẩn hoá.

Sau đây là một số hình thức mở rộng phổ biến của việc mở rộng quy mô hữu ích trong công nghệ Học máy:

  • tỷ lệ tuyến tính, thường sử dụng kết hợp phép trừ và phép chia để thay thế giá trị ban đầu bằng một số từ -1 đến +1 hoặc từ 0 đến 1.
  • tỷ lệ lôgarit, thay thế giá trị ban đầu bằng lôgarit.
  • Chuẩn hoá điểm Z: thay thế giá trị gốc bằng giá trị dấu phẩy động biểu thị số độ lệch chuẩn so với giá trị trung bình của tính năng đó.

học-scikit

Một nền tảng học máy nguồn mở phổ biến. Hãy truy cập vào scikit-learn.org.

ghi điểm

#recsystems

Một phần của hệ thống đề xuất cung cấp giá trị hoặc thứ hạng cho từng mục được tạo ra trong giai đoạn tạo đề xuất.

thiên kiến lựa chọn

#fairness

Lỗi trong kết luận rút ra từ dữ liệu được lấy mẫu do quá trình lựa chọn tạo ra sự khác biệt có hệ thống giữa các mẫu quan sát được trong dữ liệu và các mẫu không quan sát được. Có các dạng thiên lệch lựa chọn sau đây:

  • thiên vị mức độ phù hợp: Tập hợp được biểu thị trong tập dữ liệu không khớp với tập hợp mà mô hình học máy đang đưa ra dự đoán.
  • độ chệch lấy mẫu: Dữ liệu không được thu thập ngẫu nhiên từ nhóm mục tiêu.
  • thiên vị không trả lời (còn gọi là thiên vị tham gia): Người dùng thuộc một số nhóm chọn không tham gia khảo sát với tỷ lệ khác với tỷ lệ người dùng thuộc các nhóm khác.

Ví dụ: giả sử bạn đang tạo một mô hình học máy dự đoán mức độ thưởng thức của mọi người đối với một bộ phim. Để thu thập dữ liệu huấn luyện, bạn phát hành một bản khảo sát cho mọi người ở hàng ghế đầu tiên của rạp chiếu phim. Nói cách khác, đây có vẻ là một cách hợp lý để thu thập tập dữ liệu. Tuy nhiên, hình thức thu thập dữ liệu này có thể gây ra các dạng sai lệch sau đây trong việc lựa chọn:

  • thiên kiến về mức độ phù hợp: Bằng cách lấy mẫu từ nhóm người dùng đã chọn xem phim, dự đoán của mô hình có thể không tổng quát hoá được cho những người chưa thể hiện mức độ quan tâm đó đến bộ phim.
  • thiên vị lấy mẫu: Thay vì lấy mẫu ngẫu nhiên từ nhóm đối tượng dự định (tất cả những người trong phim), bạn chỉ lấy mẫu những người ở hàng đầu. Có thể những người ngồi ở hàng đầu quan tâm đến bộ phim hơn so với những người ở các hàng khác.
  • thiên kiến khi không phản hồi: Nhìn chung, những người có ý kiến tích cực có xu hướng trả lời các bản khảo sát không bắt buộc thường xuyên hơn những người có quan điểm nhẹ nhàng. Vì khảo sát phim là không bắt buộc, nên các câu trả lời có nhiều khả năng tạo thành phân phối hai phương thức hơn so với phân phối thông thường (hình chuông).

tự chú ý (còn được gọi là tầng tự chú ý)

#language

Một lớp mạng nơron biến đổi một chuỗi các thành phần nhúng (ví dụ: các mục nhúng mã thông báo) thành một trình tự nhúng khác. Mỗi nhúng trong trình tự đầu ra được tạo bằng cách tích hợp thông tin từ các phần tử của trình tự đầu vào thông qua cơ chế chú ý.

Phần tự của sự tự chú ý đề cập đến trình tự tham gia vào chính nó chứ không phải là một số ngữ cảnh khác. Tự chú ý là một trong những thành phần chính của Transformer, đồng thời sử dụng các thuật ngữ tra cứu trong từ điển, chẳng hạn như "truy vấn", "khoá" và "giá trị".

Một lớp tự chú ý bắt đầu bằng một chuỗi các lần biểu diễn đầu vào, mỗi lần biểu diễn một từ. Cách trình bày đầu vào cho một từ có thể đơn giản là nhúng. Đối với mỗi từ trong một chuỗi đầu vào, mạng sẽ tính điểm mức độ liên quan của từ đó với mọi phần tử trong toàn bộ chuỗi từ. Điểm số mức độ liên quan xác định mức độ biểu diễn cuối cùng của từ kết hợp các đại diện của các từ khác.

Ví dụ: hãy xem xét câu sau:

Con vật không qua đường vì quá mệt.

Hình minh hoạ sau (trong Transformer: Cấu trúc mạng nơron mới để tìm hiểu ngôn ngữ) cho thấy mẫu chú ý của lớp tự chú ý cho đại từ it, với độ tối của mỗi dòng cho biết mức độ đóng góp của mỗi từ trong việc thể hiện:

Câu sau đây xuất hiện hai lần: Con vật không qua đường vì quá mệt. Các dòng nối đại từ nhân xưng đó trong một câu với 5 mã thông báo (động vật, đường phố, dấu chấm và dấu chấm) trong câu còn lại.  Đường phân cách giữa đại từ nhân xưng
          và từ &quot;động vật&quot; là rõ nhất.

Lớp tự chú ý sẽ đánh dấu những từ có liên quan đến "it". Trong trường hợp này, lớp chú ý đã học được cách làm nổi bật các từ mà it có thể tham chiếu đến, gán trọng số cao nhất cho animal (động vật).

Đối với một trình tự gồm n mã thông báo, tính năng tự chú ý sẽ biến đổi một trình tự các mục nhúng n lần riêng biệt, một lần tại mỗi vị trí trong trình tự.

Hãy tham khảo thêm bài viết chú ýtự chú ý nhiều đầu.

học tập tự giám sát

Một bộ kỹ thuật để chuyển đổi bài toán máy học không được giám sát thành bài toán học máy có giám sát bằng cách tạo nhãn thay thế từ các ví dụ không được gắn nhãn.

Một số mô hình dựa trên Transformer như BERT sử dụng phương pháp học tự giám sát.

Chương trình đào tạo tự giám sát là phương pháp học bán có giám sát.

tự đào tạo

Một biến thể của hình thức học tự giám sát đặc biệt hữu ích khi đáp ứng tất cả các điều kiện sau:

Quá trình tự huấn luyện hoạt động bằng cách lặp lại qua 2 bước sau cho đến khi mô hình ngừng cải thiện:

  1. Sử dụng công nghệ học máy có giám sát để huấn luyện một mô hình dựa trên các ví dụ có gắn nhãn.
  2. Sử dụng mô hình đã tạo ở Bước 1 để tạo cụm từ gợi ý (nhãn) trên các ví dụ chưa gắn nhãn, chuyển những ví dụ có độ tin cậy cao vào các ví dụ được gắn nhãn bằng nhãn dự đoán.

Lưu ý rằng mỗi lần lặp lại của Bước 2 sẽ thêm nhiều ví dụ được gắn nhãn để Bước 1 được huấn luyện.

học bán có giám sát

Huấn luyện một mô hình trên dữ liệu trong đó một số ví dụ huấn luyện có nhãn nhưng các ví dụ khác thì không. Một kỹ thuật cho phương pháp học bán có giám sát là dự đoán nhãn cho các ví dụ chưa gắn nhãn, sau đó huấn luyện dựa trên các nhãn dự đoán để tạo một mô hình mới. Phương pháp học bán giám sát có thể hữu ích nếu việc sử dụng nhãn tốn kém nhưng lại có rất nhiều ví dụ chưa gắn nhãn.

Tự đào tạo là một kỹ thuật dành cho phương pháp học bán được giám sát.

thuộc tính nhạy cảm

#fairness
Một đặc điểm của con người có thể được xem xét đặc biệt vì lý do pháp lý, đạo đức, xã hội hoặc cá nhân.

phân tích cảm nhận

#language

Sử dụng các thuật toán thống kê hoặc học máy để xác định thái độ tổng thể của một nhóm (tích cực hay tiêu cực) đối với dịch vụ, sản phẩm, tổ chức hoặc chủ đề. Ví dụ: bằng cách sử dụng hiểu biết ngôn ngữ tự nhiên, thuật toán có thể phân tích cảm nhận dựa trên phản hồi bằng văn bản của một khoá học đại học để xác định mức độ mà sinh viên thường thích hoặc không thích khoá học.

mô hình chuỗi

#seq

Một mô hình có dữ liệu đầu vào có sự phụ thuộc tuần tự. Ví dụ: dự đoán video tiếp theo đã xem từ một chuỗi video đã xem trước đó.

tác vụ theo trình tự

#language

Một tác vụ chuyển đổi một chuỗi đầu vào của mã thông báo thành một trình tự đầu ra của mã thông báo. Ví dụ: 2 loại tác vụ theo trình tự phổ biến là:

  • Người dịch:
    • Chuỗi nhập mẫu: "Tôi yêu bạn".
    • Trình tự đầu ra mẫu: "Je t'aime."
  • Trả lời câu hỏi:
    • Chuỗi nhập mẫu: "Tôi có cần xe ô tô của mình ở Thành phố New York không?"
    • Trình tự đầu ra mẫu: "Không. Vui lòng giữ xe ở nhà".

đang phân phát

Quá trình cung cấp một mô hình đã huấn luyện để đưa ra thông tin dự đoán thông qua tính năng suy luận trực tuyến hoặc suy luận ngoại tuyến.

hình dạng (Tensor)

Số lượng phần tử trong mỗi chiều của một tensor. Hình dạng được biểu thị dưới dạng danh sách các số nguyên. Ví dụ: tensor hai chiều sau đây có hình dạng [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow sử dụng định dạng hàng chính (kiểu C) để thể hiện thứ tự kích thước. Đó là lý do hình dạng trong TensorFlow là [3,4] thay vì [4,3]. Nói cách khác, trong TensorFlow Tensor hai chiều, hình dạng là [số hàng, số cột].

phân đoạn

#TensorFlow
#GoogleCloud

Sự phân chia logic của tập hợp huấn luyện hoặc mô hình. Thông thường, một số quy trình tạo phân đoạn bằng cách chia ví dụ hoặc tham số (thường) thành các phân đoạn có kích thước bằng nhau. Sau đó, mỗi phân đoạn được chỉ định cho một máy khác.

Việc phân đoạn một mô hình được gọi là phân đoạn song song mô hình; dữ liệu phân đoạn được gọi là phân đoạn song song dữ liệu.

co ngót

#df

Một siêu tham số trong tính năng tăng độ dốc để kiểm soát quá mức tối đa. Sự thu hẹp trong tính năng tăng độ dốc cũng tương tự như tốc độ học tập trong tính năng giảm độ dốc. Độ co lại là một giá trị thập phân từ 0,0 đến 1,0. Giá trị co ngót thấp hơn sẽ giảm tình trạng quá mức so với giá trị co ngót lớn hơn.

hàm sigmoid

#fundamentals

Một hàm toán học "thu hẹp" một giá trị đầu vào vào một phạm vi bị hạn chế, thường là 0 đến 1 hoặc -1 đến +1. Tức là bạn có thể truyền bất kỳ số nào (hai, một triệu, tỷ số âm, v.v.) đến một giá trị sigmoid và đầu ra vẫn sẽ nằm trong phạm vi bị hạn chế. Biểu đồ của hàm kích hoạt sigmoid có dạng như sau:

Một biểu đồ cong hai chiều có các giá trị x trong miền từ vô cực đến + dương, trong khi các giá trị y nằm trong khoảng gần từ 0 đến gần 1. Khi x bằng 0, y là 0,5. Độ dốc của đường cong luôn là số dương, với độ dốc cao nhất là 0,0,5 và giảm dần độ dốc khi giá trị tuyệt đối của x tăng.

Hàm sigmoid có một số cách sử dụng trong học máy, bao gồm:

thước đo độ tương đồng

#clustering

Trong thuật toán phân cụm, chỉ số được dùng để xác định mức độ giống nhau (tương tự nhau) của hai ví dụ bất kỳ.

chương trình đơn lẻ / nhiều dữ liệu (SPMD)

Kỹ thuật song song trong đó cùng một tính toán được chạy song song trên nhiều dữ liệu đầu vào trên nhiều thiết bị. Mục tiêu của SPMD là đạt được kết quả nhanh hơn. Đây là kiểu lập trình song song phổ biến nhất.

bất biến khi kích thước

#image

Trong một bài toán phân loại hình ảnh, thuật toán có thể phân loại thành công hình ảnh ngay cả khi kích thước của hình ảnh thay đổi. Ví dụ: thuật toán vẫn có thể xác định một con mèo cho dù nó sử dụng 2 triệu pixel hay 200 nghìn pixel. Lưu ý rằng ngay cả những thuật toán phân loại hình ảnh tốt nhất vẫn có những giới hạn thực tế về sự bất biến về kích thước. Ví dụ: một thuật toán (hoặc con người) khó có thể phân loại chính xác một hình ảnh mèo chỉ tiêu thụ 20 pixel.

Hãy xem thêm về bất biến dịchbất biến xoay.

phác thảo

#clustering

Trong công nghệ học máy không được giám sát, một danh mục thuật toán thực hiện việc phân tích sự tương đồng sơ bộ trên các ví dụ. Các thuật toán phác thảo sử dụng hàm băm nhạy cảm theo vị trí để xác định các điểm có khả năng tương tự nhau, sau đó nhóm chúng vào các nhóm.

Phương pháp phác thảo giúp giảm yêu cầu tính toán đối với các phép tính tương tự trên các tập dữ liệu lớn. Thay vì tính độ tương đồng cho từng cặp ví dụ trong tập dữ liệu, chúng tôi chỉ tính độ tương đồng cho mỗi cặp điểm trong mỗi nhóm.

gam bỏ qua

#language

Một n-gram có thể bỏ qua (hoặc "bỏ qua") các từ khỏi ngữ cảnh gốc, nghĩa là từ N có thể không nằm cạnh nhau. Nói một cách chính xác hơn, "k-skip-n-gram" là n-gram mà tối đa k từ có thể đã bị bỏ qua.

Ví dụ: "con cáo màu nâu" có thể có 2 gam sau đây:

  • "nhanh chóng"
  • "nhanh chóng"
  • " cáo màu nâu"

"1-bỏ qua 2 gam" là một cặp từ có nhiều nhất 1 từ giữa chúng. Do đó, " cáo màu nâu nhanh" có 1-bỏ qua 2 gam sau:

  • "nâu"
  • " cáo nhanh"

Ngoài ra, tất cả 2 gam cũng là 1 lần bỏ qua 2 gam, vì có ít hơn một từ có thể bị bỏ qua.

Phông chữ bỏ qua rất hữu ích để hiểu thêm ngữ cảnh xung quanh của một từ. Trong ví dụ này, "fox" liên kết trực tiếp với "fast" (nhanh) trong tập hợp 1-skip-2-gram, nhưng không liên kết trong tập hợp 2 gam.

Biểu đồ bỏ qua giúp huấn luyện các mô hình Nhúng từ.

softmax

#fundamentals

Một hàm xác định xác suất cho mỗi lớp có thể có trong mô hình phân loại nhiều lớp. Các xác suất cộng lại chính xác bằng 1,0. Ví dụ: bảng sau đây cho thấy cách softmax phân phối các xác suất khác nhau:

Hình ảnh là... Xác suất
chó 0,85
cat 0,13
con ngựa 0,02

Softmax còn được gọi là softmax đầy đủ.

Ngược lại với tính năng lấy mẫu đề xuất.

điều chỉnh câu lệnh tạm thời

#language
#AI tạo sinh

Kỹ thuật điều chỉnh mô hình ngôn ngữ lớn cho một tác vụ cụ thể mà không cần điều chỉnh nhiều tài nguyên. Thay vì huấn luyện lại tất cả trọng số trong mô hình, chế độ điều chỉnh lời nhắc mềm sẽ tự động điều chỉnh một lời nhắc để đạt được cùng một mục tiêu.

Đối với lời nhắc dạng văn bản, tính năng điều chỉnh lời nhắc mềm thường sẽ thêm các mục nhúng mã thông báo bổ sung vào lời nhắc và sử dụng kỹ thuật lan truyền ngược để tối ưu hoá dữ liệu đầu vào.

Lời nhắc "cứng" chứa các mã thông báo thực thay vì các mã thông báo nhúng.

tính chất thưa thớt

#language
#fundamentals

Một tính năng có giá trị chủ yếu bằng 0 hoặc trống. Ví dụ: một tính năng chứa giá trị 1 duy nhất và một triệu giá trị 0 thì thưa thớt. Ngược lại, một tính năng dày đặc có các giá trị chủ yếu không phải là 0 hoặc trống.

Trong công nghệ học máy, có nhiều tính năng đáng ngạc nhiên là các tính năng thưa thớt. Đối tượng phân loại thường là các đối tượng thưa thớt. Ví dụ: trong số 300 loài cây có thể có trong một khu rừng, một ví dụ duy nhất có thể chỉ xác định một cây phong. Hoặc trong số hàng triệu video có thể sử dụng trong thư viện video, một ví dụ duy nhất có thể chỉ xác định "Casablanca".

Trong một mô hình, bạn thường biểu thị các tính năng thưa thớt bằng mã hoá một nóng. Nếu phương thức mã hoá một nóng có kích thước lớn, bạn có thể đặt một lớp nhúng lên trên phương thức mã hoá một nóng để đạt hiệu quả cao hơn.

biểu diễn thưa

#language
#fundamentals

Chỉ lưu trữ (các) vị trí của các phần tử khác 0 trong một đối tượng thưa thớt.

Ví dụ: giả sử một đối tượng phân loại có tên species xác định 36 loài cây trong một khu rừng cụ thể. Giả sử thêm rằng mỗi ví dụ chỉ xác định một loài duy nhất.

Bạn có thể sử dụng vectơ một nóng để biểu thị loài cây trong mỗi ví dụ. Vectơ một nóng sẽ chứa một 1 duy nhất (để đại diện cho các loại cây cụ thể trong ví dụ đó) và 35 0 (để đại diện cho 35 loại cây không phải trong ví dụ đó). Vì vậy, giá trị đại diện phổ biến nhất của maple có thể có dạng như sau:

Vectơ trong đó các vị trí từ 0 đến 23 chứa giá trị 0, vị trí 24 chứa giá trị 1 và các vị trí từ 25 đến 35 giữ giá trị 0.

Ngoài ra, cách biểu thị thưa thớt sẽ chỉ đơn giản là xác định vị trí của các loài cụ thể. Nếu maple ở vị trí 24, thì cách biểu thị thưa thớt của maple sẽ đơn giản là:

24

Lưu ý rằng cách biểu diễn thưa thớt ngắn gọn hơn nhiều so với cách biểu diễn một nóng.

vectơ thưa

#fundamentals

Vectơ có các giá trị gần như bằng 0. Hãy xem thêm tính năng thưa thớtphân tích cú pháp.

độ thưa

Số phần tử được đặt thành không (hoặc rỗng) trong một vectơ hoặc ma trận chia cho tổng số phần tử trong vectơ hoặc ma trận đó. Ví dụ: hãy xem xét một ma trận 100 phần tử trong đó 98 ô chứa giá trị 0. Cách tính toán độ phân tán như sau:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Độ hụt của đối tượng đề cập đến độ hụt của vectơ tính năng; độ hụt của mô hình đề cập đến độ hụt của trọng số mô hình.

tạo nhóm không gian

#image

Xem tạo nhóm.

chia tách

#df

Trong cây quyết định, một tên khác cho điều kiện.

bộ chia

#df

Trong khi huấn luyện cây quyết định, quy trình (và thuật toán) chịu trách nhiệm tìm điều kiện phù hợp nhất ở mỗi nút.

Siêu dữ liệu

Từ viết tắt cho một chương trình / nhiều dữ liệu.

bình phương tổn thất khớp nối

Bình phương của độ mất bản lề. Tình trạng mất bản lề vuông sẽ chịu hình phạt nghiêm trọng hơn so với trường hợp mất bản lề thông thường.

tổn thất bình phương

#fundamentals

Từ đồng nghĩa với sự mất mát L2.

huấn luyện theo giai đoạn

#language

Chiến thuật huấn luyện một mô hình theo trình tự gồm các giai đoạn riêng biệt. Mục tiêu có thể là đẩy nhanh quá trình huấn luyện hoặc đạt được chất lượng mô hình tốt hơn.

Dưới đây là hình minh hoạ cho phương pháp xếp chồng tăng dần:

  • Giai đoạn 1 chứa 3 lớp ẩn, giai đoạn 2 chứa 6 lớp ẩn và giai đoạn 3 chứa 12 lớp ẩn.
  • Giai đoạn 2 bắt đầu huấn luyện bằng các trọng số đã học trong 3 lớp ẩn của Giai đoạn 1. Giai đoạn 3 bắt đầu huấn luyện với các trọng số đã học trong 6 lớp ẩn của Giai đoạn 2.

Ba giai đoạn, được gọi là Giai đoạn 1, Giai đoạn 2 và Giai đoạn 3.
          Mỗi giai đoạn chứa một số lượng lớp khác nhau: Giai đoạn 1 có 3 lớp, Giai đoạn 2 chứa 6 lớp và Giai đoạn 3 chứa 12 lớp.
          3 lớp từ Giai đoạn 1 trở thành 3 lớp đầu tiên của Giai đoạn 2.
          Tương tự, 6 lớp trong Giai đoạn 2 sẽ trở thành 6 lớp đầu tiên của Giai đoạn 3.

Xem thêm phần quy trình.

state

#rl

Trong học tăng cường, các giá trị tham số mô tả cấu hình hiện tại của môi trường mà tác nhân sử dụng để chọn một thao tác.

hàm giá trị hành động liên quan đến trạng thái

#rl

Từ đồng nghĩa của hàm Q.

tĩnh

#fundamentals

Việc nào đó được thực hiện một lần thay vì liên tục. Các cụm từ tĩnhngoại tuyến là các từ đồng nghĩa. Sau đây là một số cách sử dụng phổ biến của phương pháp tĩnhngoại tuyến trong công nghệ học máy:

  • mô hình tĩnh (hoặc mô hình ngoại tuyến) là mô hình được huấn luyện một lần rồi sử dụng trong một thời gian.
  • huấn luyện tĩnh (hoặc huấn luyện ngoại tuyến) là quá trình huấn luyện một mô hình tĩnh.
  • suy luận tĩnh (hay suy luận ngoại tuyến) là một quá trình trong đó mô hình tạo ra một loạt các dự đoán tại một thời điểm.

Độ tương phản với thuộc tính động.

suy luận tĩnh

#fundamentals

Từ đồng nghĩa với suy luận ngoại tuyến.

cố định

#fundamentals

Một đối tượng có các giá trị không thay đổi trên một hoặc nhiều phương diện, thường là thời gian. Ví dụ: một tính năng có giá trị gần giống nhau trong năm 2021 và 2023 sẽ thể hiện tính tĩnh.

Trong thế giới thực, rất ít đối tượng thể hiện tính tĩnh. Ngay cả các tính năng đồng nghĩa với độ ổn định (như mực nước biển) cũng thay đổi theo thời gian.

Trái ngược với tính không ổn định.

Nhấp vào bước tiếp theo.

Một lượt chuyển tiếp và lượt lùi trong một gói.

Hãy xem phần truyền ngược để biết thêm thông tin về lượt truyền tiến và lượt lùi.

kích cỡ bước

Từ đồng nghĩa với tỷ lệ học.

giảm độ dốc ngẫu nhiên (SGD)

#fundamentals

Thuật toán giảm độ dốc, trong đó kích thước lô là một. Nói cách khác, SGD sẽ huấn luyện trên một ví dụ duy nhất được chọn thống nhất và ngẫu nhiên trong tập hợp huấn luyện.

sải chân

#image

Trong một phép toán tích chập hoặc gộp, delta trong mỗi chiều của chuỗi lát cắt đầu vào tiếp theo. Ví dụ: ảnh động sau đây minh hoạ một sải chân (1,1) trong một phép chập. Do đó, lát cắt đầu vào tiếp theo bắt đầu một vị trí ở bên phải của lát cắt đầu vào trước đó. Khi thao tác đạt đến cạnh phải, lát cắt tiếp theo nằm hết bên trái nhưng chỉ một vị trí phía dưới.

Ma trận đầu vào 5x5 và bộ lọc tích chập 3x3. Vì sải chân là (1,1), nên bộ lọc tích chập sẽ được áp dụng 9 lần. Lát cắt tích chập đầu tiên đánh giá ma trận con 3x3 ở trên cùng bên trái của ma trận đầu vào. Lát cắt thứ hai đánh giá ma trận con 3x3 ở trên cùng ở giữa. Lát cắt tích chập thứ ba đánh giá ma trận con 3x3 ở trên cùng bên phải.  Lát cắt thứ tư đánh giá ma trận con 3x3 ở giữa bên trái.
     Lát cắt thứ năm đánh giá ma trận con 3x3 ở giữa. Lát cắt thứ 6 đánh giá ma trận con 3x3 ở giữa bên phải. Lát cắt thứ 7 đánh giá ma trận con 3x3 ở dưới cùng bên trái.  Lát cắt thứ 8 đánh giá ma trận con 3x3 ở dưới cùng ở giữa. Lát cắt thứ 9 đánh giá ma trận con 3x3 ở dưới cùng bên phải.

Ví dụ trước minh hoạ một bước tiến hai chiều. Nếu ma trận đầu vào là ba chiều, thì sải chân cũng sẽ là ba chiều.

giảm thiểu rủi ro theo cấu trúc (SRM)

Một thuật toán cân bằng hai mục tiêu:

  • Sự cần thiết phải xây dựng mô hình dự đoán nhất (ví dụ: tỷ lệ giảm thiểu hao tổn thấp nhất).
  • Nhu cầu duy trì mô hình càng đơn giản càng tốt (ví dụ: chuẩn hoá mạnh mẽ).

Ví dụ: một hàm giảm thiểu tổn thất và điều chỉnh trên tập huấn luyện là một thuật toán giảm thiểu rủi ro có cấu trúc.

Trái ngược với giảm thiểu rủi ro theo thực nghiệm.

lấy mẫu con

#image

Xem tạo nhóm.

mã thông báo từ phụ

#language

Trong mô hình ngôn ngữ, một mã thông báo là chuỗi con của một từ và có thể là toàn bộ từ đó.

Ví dụ: một từ như "phân loại" có thể được chia thành các phần "mục" (từ gốc) và "ize" (một hậu tố), mỗi phần được biểu thị bằng một mã thông báo riêng. Việc tách các từ không phổ biến thành các phần như vậy (được gọi là từ phụ) cho phép mô hình ngôn ngữ hoạt động trên những phần cấu thành phổ biến hơn của từ, chẳng hạn như tiền tố và hậu tố.

Ngược lại, các từ thông thường như "sẽ" có thể không bị chia nhỏ và có thể được biểu thị bằng một mã thông báo duy nhất.

bản tóm tắt

#TensorFlow

Trong TensorFlow, một giá trị hoặc tập hợp các giá trị được tính toán tại một bước cụ thể, thường dùng để theo dõi các chỉ số của mô hình trong quá trình huấn luyện.

học máy có giám sát

#fundamentals

Đào tạo một model từ model và các model tương ứng. Công nghệ học máy có giám sát cũng tương tự như việc học một môn học bằng cách nghiên cứu một bộ câu hỏi và câu trả lời tương ứng. Sau khi thành thạo việc liên kết giữa câu hỏi và câu trả lời, học viên có thể đưa ra câu trả lời cho những câu hỏi mới (chưa từng thấy trước đây) về cùng một chủ đề.

So sánh với công nghệ học máy không được giám sát.

tính năng tổng hợp

#fundamentals

Một tính năng không xuất hiện trong số các tính năng đầu vào nhưng được tập hợp từ một hoặc nhiều tính năng trong số đó. Sau đây là các phương thức tạo tính năng tổng hợp:

  • Sắp xếp một tính năng liên tục vào các thùng phạm vi.
  • Tạo nhiều tính năng.
  • Nhân (hoặc chia) một giá trị tính năng cho(các) giá trị tính năng khác hoặc với chính giá trị đó. Ví dụ: nếu ab là các tính năng đầu vào, thì sau đây là ví dụ về các tính năng tổng hợp:
    • ab
    • a2
  • Áp dụng hàm xuyên suốt cho một giá trị đối tượng. Ví dụ: nếu c là một tính năng đầu vào, thì sau đây là ví dụ về tính năng tổng hợp:
    • sin(c)
    • ln(c)

Những tính năng được tạo bằng cách đơn thuần chuẩn hoá hoặc điều chỉnh theo tỷ lệ sẽ không được xem là tính năng tổng hợp.

T

T5

#language

Mô hình chuyển văn bản sang văn bản do AI của Google ra mắt vào năm 2020. T5 là một mô hình bộ mã hoá-bộ giải mã, dựa trên cấu trúc Transformer, được huấn luyện trên một tập dữ liệu cực kỳ lớn. API này phát huy hiệu quả trong nhiều công việc xử lý ngôn ngữ tự nhiên, chẳng hạn như tạo văn bản, dịch ngôn ngữ và trả lời câu hỏi theo cách trò chuyện.

T5 lấy tên từ 5 chữ T trong "Bộ chuyển đổi chuyển văn bản sang văn bản".

T5X

#language

Một khung học máy nguồn mở được thiết kế để xây dựng và huấn luyện các mô hình xử lý ngôn ngữ tự nhiên (NLP) trên quy mô lớn. T5 được triển khai trên cơ sở mã T5X (được xây dựng trên JAXFlax).

học hỏi dạng bảng

#rl

Trong học tăng cường, triển khai Q- Learning bằng cách sử dụng một bảng để lưu trữ hàm Q cho mọi tổ hợp trạng tháihành động.

mục tiêu

Từ đồng nghĩa với label.

mạng mục tiêu

#rl

Trong Học hỏi chuyên sâu, một mạng nơron là sự ước lượng ổn định của mạng nơron chính, trong đó mạng nơron chính triển khai hàm Q hoặc chính sách. Sau đó, bạn có thể huấn luyện mạng chính trên các giá trị Q do mạng mục tiêu dự đoán. Do đó, bạn nên ngăn vòng lặp phản hồi xảy ra khi mạng chính tự huấn luyện trên các giá trị Q-giá trị do chính mạng này dự đoán. Bằng cách tránh phản hồi này, độ ổn định của quá trình huấn luyện sẽ tăng lên.

việc cần làm

Một bài toán có thể giải bằng các kỹ thuật học máy, chẳng hạn như:

nhiệt độ

#language
#image
#AI tạo sinh

Siêu tham số kiểm soát mức độ ngẫu nhiên của đầu ra của một mô hình. Nhiệt độ cao hơn dẫn đến đầu ra ngẫu nhiên hơn, trong khi nhiệt độ thấp hơn dẫn đến đầu ra ít ngẫu nhiên hơn.

Việc chọn nhiệt độ tốt nhất phụ thuộc vào ứng dụng cụ thể và các thuộc tính ưu tiên của đầu ra của mô hình. Ví dụ: bạn có thể sẽ tăng nhiệt độ khi tạo một ứng dụng tạo đầu ra mẫu quảng cáo. Ngược lại, bạn có thể sẽ giảm nhiệt độ khi xây dựng mô hình phân loại hình ảnh hoặc văn bản để cải thiện độ chính xác và tính nhất quán của mô hình.

Nhiệt độ thường dùng với softmax.

dữ liệu tạm thời

Dữ liệu được ghi lại tại nhiều thời điểm. Ví dụ: doanh số bán áo khoác mùa đông được ghi lại cho mỗi ngày trong năm sẽ là dữ liệu tạm thời.

Tensor

#TensorFlow

Cấu trúc dữ liệu chính trong các chương trình TensorFlow. Tensor là cấu trúc dữ liệu N chiều (trong đó N có thể là rất lớn), phổ biến nhất là đại lượng vô hướng, vectơ hoặc ma trận. Các phần tử của Tensor có thể chứa các giá trị số nguyên, dấu phẩy động hoặc chuỗi.

TensorBoard

#TensorFlow

Trang tổng quan hiển thị các bản tóm tắt đã lưu trong quá trình thực thi một hoặc nhiều chương trình TensorFlow.

TensorFlow

#TensorFlow

Một nền tảng học máy được phân phối trên quy mô lớn. Thuật ngữ này cũng đề cập đến lớp API cơ sở trong ngăn xếp TensorFlow, hỗ trợ tính toán chung trên biểu đồ luồng dữ liệu.

Mặc dù TensorFlow chủ yếu được dùng cho công nghệ học máy, nhưng bạn cũng có thể sử dụng TensorFlow cho những công việc không phải công nghệ học máy mà đòi hỏi phải tính toán bằng biểu đồ luồng dữ liệu.

Sân chơi TensorFlow

#TensorFlow

Một chương trình trực quan hoá cách các siêu tham số ảnh hưởng đến việc huấn luyện mô hình (chủ yếu là mạng nơron). Hãy truy cập vào http://playground.tensorflow.org để thử nghiệm với TensorFlow Playground.

Phục vụ TensorFlow

#TensorFlow

Một nền tảng để triển khai các mô hình đã huấn luyện trong thực tế.

Bộ xử lý Tensor (TPU)

#TensorFlow
#GoogleCloud

Một mạch tích hợp dành riêng cho ứng dụng (ASIC) giúp tối ưu hoá hiệu suất của các tải công việc của công nghệ học máy. Các ASIC này được triển khai dưới dạng nhiều chip TPU trên thiết bị TPU.

hạng Tensor

#TensorFlow

Hãy xem thứ hạng (Tensor).

hình dạng Tensor

#TensorFlow

Số lượng phần tử trong một Tensor theo nhiều phương diện. Ví dụ: Tensor [5, 10] có hình dạng gồm 5 chiều ở một chiều và 10 chiều ở chiều khác.

Kích thước Tensor

#TensorFlow

Tổng số đại lượng vô hướng mà một Tensor có. Ví dụ: Tensor có kích thước 50 ([5, 10]).

TensorStore

Một thư viện giúp đọc và ghi hiệu quả các mảng đa chiều lớn.

điều kiện chấm dứt

#rl

Trong tính năng học tăng cường, các điều kiện xác định thời điểm một tập kết thúc, chẳng hạn như khi tác nhân đạt đến một trạng thái nhất định hoặc vượt quá ngưỡng chuyển đổi trạng thái. Ví dụ: trong tic-tac-toe (còn gọi là bắt đầu và di chuyển), một tập kết thúc khi người chơi đánh dấu 3 dấu cách liên tiếp hoặc khi tất cả các dấu cách đều được đánh dấu.

thử nghiệm

#df

Trong cây quyết định, một tên khác cho điều kiện.

tổn thất thử nghiệm

#fundamentals

Một chỉ số thể hiện độ mất của mô hình so với tập hợp kiểm thử. Khi xây dựng một model, bạn thường cố gắng giảm thiểu tổn thất kiểm thử. Đó là vì tổn thất kiểm thử thấp là tín hiệu chất lượng mạnh hơn so với mất mát khi huấn luyện thấp hoặc mất xác thực thấp.

Đôi khi, khoảng cách lớn giữa tổn thất trong kiểm thử và tổn thất trong quá trình huấn luyện hoặc tổn thất xác thực cho thấy bạn cần tăng tỷ lệ chuẩn hoá.

tập kiểm tra

Một tập hợp con của tập dữ liệu dành riêng để kiểm thử mô hình đã được huấn luyện.

Thông thường, bạn chia các ví dụ trong tập dữ liệu thành 3 tập hợp con riêng biệt sau:

Mỗi ví dụ trong tập dữ liệu chỉ nên thuộc về một trong các tập hợp con trước đó. Chẳng hạn như một ví dụ không nên thuộc cả tập huấn luyện và tập kiểm thử.

Tập huấn luyện và tập xác thực đều có liên quan chặt chẽ với việc huấn luyện một mô hình. Vì tập hợp kiểm thử chỉ liên kết gián tiếp với quá trình huấn luyện, nên mất kiểm thử là chỉ số ít sai lệch hơn và có chất lượng cao hơn so với mất mát về huấn luyện hoặc mất hiệu lực xác thực.

khoảng văn bản

#language

Khoảng chỉ mục của mảng được liên kết với một phần phụ cụ thể của chuỗi văn bản. Ví dụ: từ good trong chuỗi Python s="Be good now" sẽ chiếm khoảng văn bản từ 3 đến 6.

tf.Example

#TensorFlow

Vùng đệm giao thức tiêu chuẩn để mô tả dữ liệu đầu vào để huấn luyện hoặc suy luận cho mô hình học máy.

tf.keras

#TensorFlow

Việc triển khai Keras được tích hợp vào TensorFlow.

ngưỡng (cho cây quyết định)

#df

Trong điều kiện căn chỉnh theo trục, giá trị mà một tính năng đang được so sánh. Ví dụ: 75 là giá trị ngưỡng trong điều kiện sau:

grade >= 75

phân tích chuỗi thời gian

#clustering

Một trường con của công nghệ học máy và số liệu thống kê có chức năng phân tích dữ liệu tạm thời. Nhiều loại vấn đề trong công nghệ học máy yêu cầu phải phân tích chuỗi thời gian, bao gồm cả phân loại, phân cụm, dự báo và phát hiện hoạt động bất thường. Ví dụ: bạn có thể sử dụng dữ liệu phân tích theo chuỗi thời gian để dự đoán doanh số bán áo khoác mùa đông trong tương lai theo tháng dựa trên dữ liệu bán hàng trước đây.

bước thời gian

#seq

Một ô "không được cuộn" trong mạng nơron lặp lại. Ví dụ: hình sau đây cho thấy 3 bước thời gian (được gắn nhãn bằng các chỉ số dưới t-1, t và t+1):

3 bước thời gian trong mạng nơron lặp lại. Dữ liệu đầu ra của bước thời gian đầu tiên sẽ trở thành dữ liệu đầu vào của bước thời gian thứ hai. Dữ liệu đầu ra của bước thời gian thứ hai sẽ trở thành dữ liệu đầu vào của bước thời gian thứ ba.

mã thông báo

#language

Trong mô hình ngôn ngữ, đơn vị nguyên tử mà mô hình đang huấn luyện và đưa ra dự đoán. Mã thông báo thường có một trong những dạng sau:

  • một từ – ví dụ: cụm từ "chó thích mèo" bao gồm ba từ biểu thị: "chó", "thích" và "mèo".
  • một ký tự – ví dụ: cụm từ "cá đi xe đạp" bao gồm 9 mã thông báo. (Xin lưu ý rằng khoảng trống được tính là một trong các mã thông báo.)
  • từ phụ—trong đó một từ có thể là một mã thông báo hoặc nhiều mã thông báo. Từ phụ bao gồm từ gốc, tiền tố hoặc hậu tố. Ví dụ: một mô hình ngôn ngữ sử dụng từ phụ làm mã thông báo có thể xem từ "chó" dưới dạng hai mã thông báo (từ gốc "chó" và hậu tố số nhiều "s"). Cùng mô hình ngôn ngữ đó có thể xem từ đơn "taller" dưới dạng hai từ phụ (từ gốc "cao" và hậu tố "er").

Trong các miền ngoài mô hình ngôn ngữ, mã thông báo có thể đại diện cho các loại đơn vị nguyên tử khác. Ví dụ: trong thị giác máy tính, mã thông báo có thể là một tập hợp con của hình ảnh.

tower

Một thành phần của mạng nơron sâu. Bản thân mạng đó là mạng nơron sâu. Trong một số trường hợp, mỗi tháp đọc từ một nguồn dữ liệu độc lập và các tháp đó vẫn độc lập cho đến khi đầu ra của chúng được kết hợp trong lớp cuối cùng. Trong các trường hợp khác, (ví dụ: trong ngăn xếp/tháp/bộ mã hoá của bộ giải mã của nhiều Bộ chuyển đổi), các tháp có kết nối chéo với nhau.

TPU

#TensorFlow
#GoogleCloud

Từ viết tắt của Bộ xử lý cảm biến.

chip TPU

#TensorFlow
#GoogleCloud

Một trình tăng tốc đại số tuyến tính có thể lập trình được tích hợp bộ nhớ băng thông cao trên chip được tối ưu hoá cho khối lượng công việc của công nghệ học máy. Nhiều khối TPU được triển khai trên một thiết bị TPU.

Thiết bị TPU

#TensorFlow
#GoogleCloud

Bảng mạch in (PCB) có nhiều chip TPU, giao diện mạng băng thông cao và phần cứng làm mát hệ thống.

Bậc thầy TPU

#TensorFlow
#GoogleCloud

Quy trình điều phối tập trung chạy trên máy chủ lưu trữ. Máy chủ này sẽ gửi và nhận dữ liệu, kết quả, chương trình, hiệu suất và thông tin về tình trạng hệ thống cho trình thực thi TPU. TPU chính cũng quản lý việc thiết lập và tắt thiết bị TPU.

Nút TPU

#TensorFlow
#GoogleCloud

Tài nguyên TPU trên Google Cloud với một loại TPU cụ thể. Nút TPU kết nối với Mạng VPC của bạn thông qua một mạng VPC ngang hàng. Nút TPU là một tài nguyên được xác định trong Cloud TPU API.

Vỏ TPU

#TensorFlow
#GoogleCloud

Một cấu hình cụ thể của thiết bị TPU trong trung tâm dữ liệu của Google. Tất cả các thiết bị trong một Nhóm TPU đều được kết nối với nhau qua mạng tốc độ cao chuyên dụng. Nhóm TPU là cấu hình lớn nhất của thiết bị TPU hiện có cho một phiên bản TPU cụ thể.

Tài nguyên TPU

#TensorFlow
#GoogleCloud

Một thực thể TPU trên Google Cloud mà bạn tạo, quản lý hoặc sử dụng. Ví dụ: nút TPUloại TPU là tài nguyên TPU.

Lát TPU

#TensorFlow
#GoogleCloud

Lát cắt TPU là một phần phân đoạn của thiết bị TPU trong Nhóm TPU. Tất cả các thiết bị trong một lát cắt TPU đều được kết nối với nhau qua một mạng tốc độ cao chuyên dụng.

Loại TPU

#TensorFlow
#GoogleCloud

Cấu hình của một hoặc nhiều thiết bị TPU có phiên bản phần cứng TPU cụ thể. Bạn chọn một loại TPU khi tạo nút TPU trên Google Cloud. Ví dụ: loại TPU v2-8 là một thiết bị TPU phiên bản 2 đơn lẻ có 8 nhân. Một loại TPU v3-2048 có 256 thiết bị TPU phiên bản 3 được kết nối mạng và tổng cộng 2.048 lõi. Loại TPU là một tài nguyên được xác định trong Cloud TPU API.

Trình chạy TPU

#TensorFlow
#GoogleCloud

Một quy trình chạy trên máy chủ lưu trữ và thực thi các chương trình học máy trên thiết bị TPU.

đào tạo

#fundamentals

Quá trình xác định tham số lý tưởng (trọng số và độ lệch) bao gồm một mô hình. Trong quá trình huấn luyện, hệ thống sẽ đọc ví dụ và dần dần điều chỉnh các tham số. Quá trình huấn luyện sử dụng từng ví dụ ở vị trí bất kỳ từ vài lần đến hàng tỷ lần.

ngừng huấn luyện

#fundamentals

Một chỉ số thể hiện sự mất mát của mô hình trong một lần lặp lại quá trình huấn luyện cụ thể. Ví dụ: giả sử hàm mất đi là Lỗi bình phương trung bình. Có thể mức hao tổn huấn luyện (Lỗi bình phương trung bình) đối với lần lặp thứ 10 là 2,2 và mức tổn thất huấn luyện cho lần lặp thứ 100 là 1,9.

Đường cong mất thể hiện số lần mất huấn luyện so với số vòng lặp. Đường cong tổn thất cung cấp các gợi ý sau đây về việc huấn luyện:

  • Độ dốc hướng xuống cho biết mô hình đang cải thiện.
  • Độ dốc hướng lên cho biết mô hình đang giảm dần.
  • Độ dốc phẳng cho biết mô hình đã đạt đến sự hội tụ.

Ví dụ: đường cong tổn thất được lý tưởng hoá một chút sau đây cho thấy:

  • Đường dốc đi xuống trong vòng lặp ban đầu, ngụ ý rằng mô hình sẽ được cải thiện nhanh chóng.
  • Độ dốc dần được làm phẳng (nhưng vẫn đi xuống) cho đến khi gần kết thúc quá trình huấn luyện, ngụ ý rằng mô hình sẽ tiếp tục cải tiến ở tốc độ hơi chậm hơn sau đó trong các lần lặp lại ban đầu.
  • Một độ dốc phẳng về cuối quá trình huấn luyện, gợi ý sự hội tụ.

Sơ đồ về sự mất mát trong quá trình huấn luyện so với số lần lặp lại. Đường cong tổn thất này bắt đầu với một đường dốc đi xuống. Con dốc sẽ được làm phẳng dần cho đến khi dốc bằng 0.

Mặc dù việc mất quyền huấn luyện là rất quan trọng, nhưng hãy xem thêm phần tổng quát hoá.

lệch hướng phân phát huấn luyện

#fundamentals

Sự khác biệt giữa hiệu suất của một mô hình trong quá trình huấn luyện và hiệu suất của cùng một mô hình trong quá trình phân phát.

tập huấn luyện

#fundamentals

Tập hợp con của tập dữ liệu được dùng để huấn luyện một mô hình.

Thông thường, các ví dụ trong tập dữ liệu này được chia thành ba tập hợp con riêng biệt sau:

Tốt nhất là mỗi ví dụ trong tập dữ liệu chỉ nên thuộc về một trong các tập con trước đó. Ví dụ: một ví dụ duy nhất không được thuộc cả tập huấn luyện và tập xác thực.

quỹ đạo

#rl

Trong quá trình học tăng cường, một chuỗi bộ dữ liệu đại diện cho chuỗi chuyển đổi trạng thái của tác nhân, trong đó mỗi bộ dữ liệu tương ứng với trạng thái, hành động, phần thưởng và trạng thái tiếp theo cho một quá trình chuyển đổi trạng thái nhất định.

học chuyển giao

Chuyển thông tin từ công việc học máy này sang công việc khác trong công nghệ học máy. Ví dụ: trong mô hình học đa nhiệm, một mô hình duy nhất sẽ giải quyết nhiều tác vụ, chẳng hạn như một mô hình sâu có các nút đầu ra riêng cho từng tác vụ. Học chuyển có thể liên quan đến việc truyền kiến thức từ giải pháp của một nhiệm vụ đơn giản sang một nhiệm vụ phức tạp hơn, hoặc liên quan đến việc truyền kiến thức từ một nhiệm vụ có nhiều dữ liệu hơn sang một nhiệm vụ có ít dữ liệu hơn.

Hầu hết các hệ thống học máy đều giải quyết một nhiệm vụ duy nhất. Học chuyển là một bước hướng tới trí tuệ nhân tạo, trong đó một chương trình duy nhất có thể giải quyết nhiều nhiệm vụ.

Biến áp

#language

Một kiến trúc mạng nơron được phát triển tại Google dựa trên cơ chế tự chú ý để chuyển đổi trình tự nhúng đầu vào thành một chuỗi nhúng đầu ra mà không cần dựa vào mạng nơron hoặc mạng nơron lặp lại. Bạn có thể xem Transformer dưới dạng một ngăn xếp gồm các lớp tự chú ý.

Bộ chuyển đổi có thể bao gồm bất kỳ phần tử nào sau đây:

Bộ mã hoá biến đổi một trình tự nhúng thành một trình tự mới có cùng độ dài. Một bộ mã hoá bao gồm N lớp giống hệt nhau, mỗi lớp chứa hai lớp con. Hai lớp con này được áp dụng tại mỗi vị trí của trình tự nhúng đầu vào, biến mỗi phần tử của trình tự thành một thành phần nhúng mới. Lớp con bộ mã hoá đầu tiên tổng hợp thông tin từ toàn bộ trình tự đầu vào. Lớp con bộ mã hoá thứ hai biến đổi thông tin tổng hợp thành một mục nhúng đầu ra.

Bộ giải mã biến đổi một trình tự các mục nhúng đầu vào thành một chuỗi các mục nhúng đầu ra, có thể với độ dài khác. Bộ giải mã cũng bao gồm N lớp giống hệt nhau có 3 lớp con, trong đó có 2 lớp tương tự như các lớp con của bộ mã hoá. Lớp con của bộ giải mã thứ ba nhận kết quả của bộ mã hoá và áp dụng cơ chế tự chú ý để thu thập thông tin từ đó.

Bài đăng trên blog Transformer: Một cấu trúc mạng nơron mới để tìm hiểu ngôn ngữ có phần giới thiệu hay về Transformer.

bất biến dịch

#image

Trong một bài toán phân loại hình ảnh, khả năng của thuật toán là phân loại hình ảnh thành công ngay cả khi vị trí của các đối tượng trong hình ảnh thay đổi. Ví dụ: thuật toán vẫn có thể xác định được một chú chó, cho dù chú chó nằm ở chính giữa hay ở cuối bên trái khung hình.

Hãy xem thêm về bất biến kích thướcbất biến xoay.

hình bát giác

#seq
#language

N-gram trong đó N=3.

âm tính thật (TN)

#fundamentals

Một ví dụ trong đó mô hình dự đoán chính xác lớp âm. Ví dụ: mô hình này suy luận rằng một email cụ thể không phải là thư rác và email đó thực sự không phải là thư rác.

dương tính thật (TP)

#fundamentals

Một ví dụ trong đó mô hình dự đoán chính xác lớp dương. Ví dụ: mô hình này suy luận rằng một email cụ thể là thư rác và email đó thực sự là thư rác.

tỷ lệ dương tính thật (TPR)

#fundamentals

Từ đồng nghĩa với recall. Đó là:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Tỷ lệ dương thực là trục y trong đường cong ROC.

U

không nhận biết (thuộc tính nhạy cảm)

#fairness

Một tình huống trong đó thuộc tính nhạy cảm xuất hiện nhưng không được đưa vào dữ liệu huấn luyện. Vì các thuộc tính nhạy cảm thường tương quan với các thuộc tính khác trong dữ liệu của một người, nên một mô hình được huấn luyện khi không nhận thức được về một thuộc tính nhạy cảm vẫn có thể gây ra tác động không rõ ràng đối với thuộc tính đó hoặc vi phạm các giới hạn khác về tính công bằng.

thiếu vải

#fundamentals

Tạo một model có khả năng dự đoán kém vì mô hình đó chưa thể hiện đầy đủ sự phức tạp của dữ liệu huấn luyện. Nhiều vấn đề có thể gây ra tình trạng thiếu cân, bao gồm:

lấy mẫu thiếu

Việc xoá ví dụ khỏi lớp phần lớn trong tập dữ liệu không cân bằng về lớp để tạo tập dữ liệu huấn luyện cân bằng hơn.

Ví dụ: hãy xem xét một tập dữ liệu có tỷ lệ giữa lớp đa số so với lớp tối thiểu là 20:1. Để khắc phục sự mất cân bằng về lớp này, bạn có thể tạo một tập huấn luyện bao gồm tất cả các ví dụ về lớp thiểu số, nhưng chỉ một phần mười trong số các ví dụ về lớp đa số, để tạo ra tỷ lệ lớp trong tập huấn luyện là 2:1. Nhờ việc giảm tần suất lấy mẫu, bộ tập luyện cân bằng hơn này có thể tạo ra mô hình tốt hơn. Ngoài ra, tập hợp huấn luyện cân bằng hơn này có thể chứa không đủ ví dụ để huấn luyện một mô hình hiệu quả.

Tương phản với trường hợp lấy mẫu quá mức.

một chiều

#language

Hệ thống chỉ đánh giá văn bản trước phần văn bản đích. Ngược lại, hệ thống hai chiều sẽ đánh giá cả văn bản trướctheo sau một phần văn bản mục tiêu. Xem nội dung hai chiều để biết thêm thông tin.

mô hình ngôn ngữ một chiều

#language

Mô hình ngôn ngữ chỉ dựa trên xác suất của mã thông báo xuất hiện trước chứ không phải sau mã thông báo mục tiêu. Tương phản với mô hình ngôn ngữ hai chiều.

ví dụ chưa gắn nhãn

#fundamentals

Một ví dụ có chứa tính năng nhưng không có nhãn. Ví dụ: bảng sau đây hiển thị 3 ví dụ chưa gắn nhãn trong một mô hình định giá ngôi nhà, mỗi ví dụ có 3 tính năng nhưng không có giá trị tự quảng bá:

Số lượng phòng ngủ Số lượng phòng tắm Tuổi thọ của nhà
3 2 15
2 1 72
4 2 34

Trong công nghệ học máy có giám sát, các mô hình sẽ huấn luyện dựa trên các ví dụ được gắn nhãn và đưa ra dự đoán về các ví dụ không được gắn nhãn.

Trong mô hình học tập có bán giám sátkhông được giám sát, các ví dụ không được gắn nhãn sẽ được dùng trong quá trình huấn luyện.

Đối chiếu ví dụ chưa gắn nhãn với ví dụ có gắn nhãn.

học máy không giám sát

#clustering
#fundamentals

Huấn luyện một model để tìm các mẫu trong một tập dữ liệu, thường là một tập dữ liệu không được gắn nhãn.

Cách sử dụng phổ biến nhất của công nghệ học máy không được giám sát là nhóm dữ liệu thành các nhóm các ví dụ tương tự nhau. Ví dụ: thuật toán học máy không được giám sát có thể nhóm các bài hát dựa trên nhiều thuộc tính của nhạc. Các cụm thu được có thể trở thành dữ liệu đầu vào cho các thuật toán học máy khác (ví dụ: cho dịch vụ đề xuất nhạc). Việc phân cụm có thể giúp ích khi không có hoặc có nhãn hữu ích. Ví dụ: trong các miền như chống hành vi sai trái và gian lận, các cụm có thể giúp con người hiểu rõ hơn về dữ liệu.

Trái ngược với công nghệ học máy có giám sát.

lập mô hình mức tăng

Một kỹ thuật lập mô hình, thường dùng trong tiếp thị, giúp mô hình hoá "hiệu ứng nhân quả" (còn gọi là "tác động gia tăng") của "thử nghiệm" đối với một "cá nhân". Sau đây là hai ví dụ:

  • Các bác sĩ có thể sử dụng quy trình lập mô hình mức tăng để dự đoán mức giảm tỷ lệ tử vong (ảnh hưởng nhân quả) của một thủ thuật y tế (điều trị) tuỳ thuộc vào độ tuổi và tiền sử y tế của bệnh nhân (cá nhân).
  • Nhà tiếp thị có thể sử dụng quy trình lập mô hình mức tăng để dự đoán khả năng mua hàng tăng lên (hiệu ứng nhân quả) do quảng cáo (thử nghiệm) trên một người (cá nhân).

Quy trình lập mô hình mức tăng khác với việc phân loại hoặc hồi quy ở chỗ một số nhãn (ví dụ: một nửa số nhãn trong các phương pháp xử lý nhị phân) luôn bị thiếu trong quy trình lập mô hình mức tăng. Ví dụ: bệnh nhân có thể được điều trị hoặc không được điều trị; do đó, chúng tôi chỉ có thể quan sát xem liệu bệnh nhân sẽ hồi phục hay không chỉ sau một trong hai tình huống này (chứ không phải cả hai). Ưu điểm chính của mô hình mức tăng là mô hình này có thể tạo thông tin dự đoán cho tình huống không quan sát được (phản thực tế) và sử dụng mô hình này để tính toán hiệu ứng nhân quả.

trọng số

Áp dụng trọng số cho lớp downsampled bằng hệ số mà bạn đã giảm lấy mẫu.

ma trận người dùng

#recsystems

Trong các hệ thống đề xuất, một vectơ nhúng được tạo bằng tính năng phân tích ma trận chứa các tín hiệu tiềm ẩn về lựa chọn ưu tiên của người dùng. Mỗi hàng của ma trận người dùng chứa thông tin về cường độ tương đối của nhiều tín hiệu tiềm ẩn cho một người dùng. Ví dụ: hãy cân nhắc sử dụng hệ thống đề xuất phim. Trong hệ thống này, các tín hiệu tiềm ẩn trong ma trận người dùng có thể thể hiện mối quan tâm của từng người dùng đối với các thể loại cụ thể hoặc có thể là các tín hiệu khó diễn giải hơn liên quan đến các hoạt động tương tác phức tạp trên nhiều yếu tố.

Ma trận người dùng có một cột cho từng tính năng tiềm ẩn và một hàng cho từng người dùng. Tức là ma trận người dùng có cùng số hàng với ma trận mục tiêu đang được phân tích. Ví dụ: với hệ thống đề xuất phim cho 1.000.000 người dùng, ma trận người dùng sẽ có 1.000.000 hàng.

V

xác thực

#fundamentals

Kết quả đánh giá ban đầu về chất lượng của một mô hình. Quy trình xác thực kiểm tra chất lượng thông tin dự đoán của mô hình dựa trên tập hợp xác thực.

Vì bộ xác thực khác với tập hợp huấn luyện, nên quy trình xác thực sẽ giúp bảo vệ khỏi quá trình điều chỉnh bổ sung.

Bạn có thể coi việc đánh giá mô hình dựa trên tập hợp xác thực là vòng kiểm thử đầu tiên và đánh giá mô hình dựa trên tập kiểm thử là vòng kiểm thử thứ hai.

mất dữ liệu xác thực

#fundamentals

Một chỉ số thể hiện sự mất mát của mô hình trên tập hợp xác thực trong một vòng lặp cụ thể của quá trình huấn luyện.

Xem thêm đường cong tổng quát.

bộ xác thực

#fundamentals

Tập hợp con của tập dữ liệu thực hiện đánh giá ban đầu dựa trên mô hình đã qua huấn luyện. Thông thường, bạn sẽ đánh giá mô hình đã huấn luyện dựa trên tập hợp xác thực nhiều lần trước khi đánh giá mô hình dựa trên tập kiểm thử.

Thông thường, bạn chia các ví dụ trong tập dữ liệu này thành 3 tập hợp con riêng biệt sau:

Tốt nhất là mỗi ví dụ trong tập dữ liệu chỉ nên thuộc về một trong các tập con trước đó. Ví dụ: một ví dụ duy nhất không được thuộc cả tập huấn luyện và tập xác thực.

tính toán giá trị

Quá trình thay thế giá trị bị thiếu bằng giá trị thay thế được chấp nhận. Khi thiếu một giá trị, bạn có thể loại bỏ toàn bộ ví dụ hoặc sử dụng thao tác tính giá trị để giữ lại ví dụ đó.

Ví dụ: hãy xem xét một tập dữ liệu chứa tính năng temperature được cho là được ghi lại mỗi giờ. Tuy nhiên, không thể chỉ số nhiệt độ trong một giờ cụ thể. Dưới đây là một mục của tập dữ liệu:

Dấu thời gian Nhiệt độ
1680561000 10
1680564600 12
1680568200 bị thiếu
1680571800 20
1680575400 21
1680579000 21

Hệ thống có thể xoá ví dụ bị thiếu hoặc chỉ định nhiệt độ bị thiếu là 12, 16, 18 hoặc 20, tuỳ thuộc vào thuật toán tính toán.

vấn đề độ dốc biến mất

#seq

Xu hướng độ dốc của lớp ẩn ban đầu của một số mạng nơron sâu trở nên phẳng đáng kinh ngạc (thấp). Độ dốc ngày càng thấp dẫn đến thay đổi ngày càng nhỏ đối với trọng số trên các nút trong mạng nơron sâu, dẫn đến ít hoặc không học được. Các mô hình gặp phải vấn đề độ dốc biến mất sẽ gặp khó khăn hoặc không thể huấn luyện. Các ô Bộ nhớ ngắn hạn dài giải quyết được vấn đề này.

So sánh với vấn đề chuyển màu bùng nổ.

tầm quan trọng thay đổi

#df

Một tập hợp điểm số cho biết tầm quan trọng tương đối của từng tính năng đối với mô hình.

Ví dụ: hãy cân nhắc sử dụng cây quyết định để ước tính giá nhà. Giả sử cây quyết định này sử dụng 3 tính năng: kích thước, tuổi và kiểu. Nếu một tập hợp mức độ quan trọng thay đổi cho 3 tính năng được tính là {size=5.8, age=2.5, style=4.7}, thì kích thước quan trọng hơn đối với cây quyết định so với tuổi hoặc kiểu.

Có nhiều chỉ số tầm quan trọng khác nhau có thể cung cấp thông tin cho các chuyên gia học máy về các khía cạnh khác nhau của mô hình.

bộ mã hoá biến thiên (VAE)

#language

Một loại bộ mã hoá tự động tận dụng sự khác biệt giữa dữ liệu đầu vào và đầu ra để tạo các phiên bản sửa đổi của dữ liệu đầu vào. Bộ tự động mã hoá biến thể rất hữu ích cho AI tạo sinh.

VAE dựa trên suy luận biến thiên: một kỹ thuật để ước tính các tham số của mô hình xác suất.

vectơ

Thuật ngữ rất quá tải có ý nghĩa khác nhau trong các lĩnh vực toán học và khoa học khác nhau. Trong công nghệ học máy, vectơ có hai thuộc tính:

  • Loại dữ liệu: Các vectơ trong công nghệ học máy thường chứa số dấu phẩy động.
  • Số phần tử: Đây là độ dài của vectơ hoặc kích thước của vectơ.

Ví dụ: hãy xem xét một vectơ đối tượng chứa 8 số dấu phẩy động. Vectơ đối tượng này có độ dài hoặc kích thước là 8. Lưu ý rằng các vectơ học máy thường có một số lượng lớn kích thước.

Bạn có thể biểu diễn nhiều loại thông tin khác nhau dưới dạng vectơ. Ví dụ:

  • Bất kỳ vị trí nào trên bề mặt Trái Đất đều có thể được biểu thị dưới dạng vectơ 2 chiều, trong đó một chiều là vĩ độ và chiều còn lại là kinh độ.
  • Giá hiện tại của từng cổ phiếu trong số 500 cổ phiếu có thể được biểu thị dưới dạng vectơ 500 chiều.
  • Phân phối xác suất qua một số lượng lớp hữu hạn có thể được biểu diễn dưới dạng vectơ. Ví dụ: hệ thống phân loại nhiều lớp dự đoán một trong ba màu đầu ra (đỏ, xanh lục hoặc vàng) có thể xuất ra vectơ (0.3, 0.2, 0.5) có nghĩa là P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

Các vectơ có thể được nối; do đó, nhiều phương tiện khác nhau có thể được biểu thị dưới dạng một vectơ. Một số mô hình hoạt động trực tiếp dựa trên việc nối của nhiều phương thức mã hoá một nóng.

Các bộ xử lý chuyên dụng như TPU được tối ưu hoá để thực hiện các phép toán trên vectơ.

Vectơ là một tensor của thứ hạng 1.

W

Sự mất mát của Wasserstein

Một trong những hàm suy hao thường dùng trong mạng đối nghịch tạo sinh, dựa trên khoảng cách của công cụ di chuyển trái đất giữa quá trình phân phối dữ liệu được tạo và dữ liệu thực.

cân nặng

#fundamentals

Một giá trị mà mô hình nhân với một giá trị khác. Huấn luyện là quá trình xác định trọng số lý tưởng của mô hình; suy luận là quá trình sử dụng các trọng số đã học được để đưa ra dự đoán.

Hình vuông ít thay thế thay thế có trọng số (WALS)

#recsystems

Một thuật toán để giảm thiểu hàm mục tiêu trong quá trình phân tích ma trận trong hệ thống đề xuất, cho phép giảm trọng số cho những ví dụ bị thiếu. WALS giảm thiểu sai số bình phương có trọng số giữa ma trận ban đầu và quá trình tái cấu trúc bằng cách xen kẽ giữa việc sửa lỗi phân tích hàng và phân tích cột. Bạn có thể giải từng phương pháp tối ưu hoá này bằng phương thức tối ưu hoá lồi bình phương tối thiểu. Để biết thông tin chi tiết, hãy xem khoá học về Hệ thống đề xuất.

tổng có trọng số

#fundamentals

Tổng của tất cả các giá trị đầu vào có liên quan nhân với trọng số tương ứng của chúng. Ví dụ: giả sử dữ liệu đầu vào có liên quan bao gồm:

giá trị nhập trọng số đầu vào
2 -1,3
-1 0,6
3 0,4

Do đó, tổng được trọng số là:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Tổng có trọng số là đối số đầu vào cho hàm kích hoạt.

mô hình rộng

Mô hình tuyến tính thường có nhiều tính năng nhập dữ liệu thưa thớt. Chúng tôi gọi đây là "rộng" vì mô hình như vậy là một loại mạng nơron đặc biệt có số lượng lớn đầu vào kết nối trực tiếp với nút đầu ra. Các mô hình rộng thường dễ gỡ lỗi và kiểm tra hơn so với mô hình sâu. Mặc dù các mô hình rộng không thể biểu thị tính phi tuyến tính thông qua lớp ẩn, nhưng mô hình rộng có thể sử dụng các phép biến đổi như chuyển tính năngphân giỏ để mô hình hoá các hành vi phi tuyến tính theo nhiều cách.

Tương phản với mô hình sâu.

chiều rộng

Số lượng nơ-ron trong một lớp cụ thể của mạng nơron.

của đám đông

#df

Ý tưởng rằng việc lấy trung bình ý kiến hoặc ước tính của một nhóm lớn người ("đám đông") thường tạo ra kết quả tốt đáng ngạc nhiên. Ví dụ: hãy xem xét một trò chơi trong đó mọi người đoán số lượng đậu thạch được đóng gói trong một lọ lớn. Mặc dù hầu hết các phỏng đoán của từng cá nhân sẽ không chính xác, nhưng theo kinh nghiệm, giá trị trung bình của tất cả các dự đoán đã gần đúng với số lượng đậu nành thạch thực tế trong lọ.

Ensembles là một phần mềm tương tự như trí tuệ của đám đông. Ngay cả khi từng mô hình riêng lẻ đưa ra dự đoán cực kỳ không chính xác, thì việc lấy trung bình dự đoán của nhiều mô hình thường tạo ra các dự đoán tốt đến bất ngờ. Ví dụ: mặc dù một cây quyết định riêng lẻ có thể đưa ra dự đoán kém, nhưng rừng quyết định thường đưa ra các dự đoán rất chính xác.

nhúng từ

#language

Biểu diễn từng từ trong một từ được đặt trong một vectơ nhúng; nghĩa là biểu thị mỗi từ dưới dạng một vectơ của các giá trị dấu phẩy động trong khoảng từ 0,0 đến 1,0. Những từ có nghĩa tương tự nhau có nhiều cách trình bày giống với những từ có nghĩa khác. Ví dụ: cà rốt, cần tâydưa chuột đều có cách biểu thị tương đối giống nhau, rất khác với cách biểu thị máy bay, kính râmkem đánh răng.

X

XLA (Đại số tuyến tính gia tốc)

Trình biên dịch học máy nguồn mở cho GPU, CPU và trình tăng tốc học máy.

Trình biên dịch XLA lấy mô hình từ các khung máy học phổ biến như PyTorch, TensorFlowJAX rồi tối ưu hoá các mô hình đó để thực thi hiệu suất cao trên nhiều nền tảng phần cứng, bao gồm GPU, CPU và trình tăng tốc học máy.

Z

học tập trung thực

Một loại hình huấn luyện học máy, trong đó mô hình dự đoán dự đoán cho một tác vụ chưa được huấn luyện cụ thể. Nói cách khác, mô hình không được cung cấp ví dụ huấn luyện dành riêng cho tác vụ cụ thể nhưng được yêu cầu thực hiện suy luận cho tác vụ đó.

nhắc thủ công

#language
#AI tạo sinh

Lời nhắc không đưa ra ví dụ về cách bạn muốn mô hình ngôn ngữ lớn phản hồi. Ví dụ:

Các phần của một câu lệnh Ghi chú
Đơn vị tiền tệ chính thức của quốc gia đã chỉ định là gì? Câu hỏi mà bạn muốn LLM trả lời.
Ấn Độ: Cụm từ tìm kiếm thực tế.

Mô hình ngôn ngữ lớn có thể phản hồi với bất kỳ yêu cầu nào sau đây:

  • Rupee
  • INR
  • Đồng rupi Ấn Độ
  • Rupee
  • Rupee Ấn Độ

Tất cả các câu trả lời đều đúng, mặc dù bạn có thể thích một định dạng cụ thể.

So sánh và đối chiếu lời nhắc chụp ảnh 0 chính với các cụm từ sau:

Chuẩn hoá điểm Z

#fundamentals

Kỹ thuật điều chỉnh theo tỷ lệ thay thế giá trị thô của tính năng bằng một giá trị dấu phẩy động biểu thị số độ lệch chuẩn so với giá trị trung bình của đối tượng đó. Ví dụ: hãy xem xét một đối tượng có giá trị trung bình là 800 và độ lệch chuẩn là 100. Bảng sau đây trình bày cách chuẩn hoá điểm Z sẽ ánh xạ giá trị thô đến điểm Z:

Giá trị thô Điểm Z
800 0
950 +1,5
575 -2,25

Sau đó, mô hình học máy sẽ huấn luyện dựa trên điểm Z cho tính năng đó thay vì các giá trị thô.