Bảng thuật ngữ về công nghệ máy học: Rừng quyết định

Trang này chứa các thuật ngữ trong bảng thuật ngữ của Decision Forests. Để biết tất cả các thuật ngữ trong bảng thuật ngữ, hãy nhấp vào đây.

A

lấy mẫu thuộc tính

#df

Chiến thuật để huấn luyện khu rừng quyết định, trong đó mỗi cây quyết định chỉ xem xét một tập hợp con ngẫu nhiên các tính năng có thể có khi tìm hiểu điều kiện. Nhìn chung, một nhóm nhỏ tính năng sẽ được lấy mẫu cho mỗi nút. Ngược lại, khi huấn luyện cây quyết định mà không lấy mẫu thuộc tính, tất cả các tính năng có thể có sẽ được xem xét cho mỗi nút.

điều kiện căn chỉnh theo trục

#df

Trong cây quyết định, một điều kiện chỉ liên quan đến một tính năng duy nhất. Ví dụ: nếu khu vực là một đối tượng, thì sau đây là điều kiện căn chỉnh theo trục:

area > 200

Tương phản với điều kiện xiên.

B

đóng gói

#df

Phương thức để huấn luyện một tập hợp, trong đó mỗi mô hình thành phần được huấn luyện dựa trên một tập hợp con ngẫu nhiên các ví dụ huấn luyện được lấy mẫu bằng cách thay thế. Ví dụ: rừng ngẫu nhiên là một tập hợp các cây quyết định được huấn luyện thông qua hành vi đóng gói.

Thuật ngữ bagging là viết tắt của bootstrap aggregating (Hành vi bỏ túi).

điều kiện nhị phân

#df

Trong cây quyết định, một điều kiện chỉ có hai kết quả có thể xảy ra, thường là yes hoặc no. Ví dụ: sau đây là điều kiện nhị phân:

temperature >= 100

Tương phản với điều kiện phi nhị phân.

C

điều kiện

#df

Trong cây quyết định, mọi nút đánh giá một biểu thức. Ví dụ: phần sau đây của cây quyết định chứa 2 điều kiện:

Cây quyết định bao gồm hai điều kiện: (x > 0) và (y > 0).

Điều kiện còn được gọi là phần tách hoặc kiểm thử.

Điều kiện tương phản với leaf.

Xem thêm:

D

rừng quyết định

#df

Mô hình được tạo từ nhiều cây quyết định. Rừng quyết định đưa ra thông tin dự đoán bằng cách tổng hợp thông tin dự đoán của các cây quyết định trong đó. Các loại rừng quyết định phổ biến bao gồm cây ngẫu nhiêncây tăng cường độ màu.

cây quyết định

#df

Mô hình học tập có giám sát bao gồm một tập hợp conditionsconditions được sắp xếp theo hệ phân cấp. Ví dụ: sau đây là một cây quyết định:

Một cây quyết định bao gồm 4 điều kiện được sắp xếp theo hệ thống phân cấp, dẫn đến 5 lá.

E

entropy

#df

Trong lý thuyết thông tin, nội dung mô tả về mức độ khó dự đoán của việc phân phối xác suất. Ngoài ra, entropy còn được định nghĩa là lượng thông tin chứa trong mỗi ví dụ. Một bản phân phối có entropy cao nhất có thể khi tất cả các giá trị của một biến ngẫu nhiên đều có khả năng như nhau.

Entropy của một tập hợp có hai giá trị có thể là "0" và "1" (ví dụ: các nhãn trong bài toán phân loại nhị phân) có công thức sau:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

nơi:

  • H là entropy.
  • p là phân số của "1".
  • q là phân số của ví dụ "0". Lưu ý rằng q = (1 - p)
  • nhật ký thường là nhật ký2. Trong trường hợp này, đơn vị entropy là một bit.

Ví dụ: giả sử những điều sau đây:

  • 100 ví dụ chứa giá trị "1"
  • 300 ví dụ chứa giá trị "0"

Do đó, giá trị entropy bằng:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit cho mỗi ví dụ

Một tập hợp hoàn toàn cân bằng (ví dụ: 200 "0" và 200 "1") sẽ có entropy là 1 bit. Khi một tập hợp trở nên mất cân bằng hơn, entropy của tập hợp đó sẽ tiến về 0.0.

Trong cây quyết định, entropy giúp lập công thức thu thập thông tin để giúp bộ tách chọn điều kiện trong quá trình phát triển của cây quyết định phân loại.

So sánh entropy với:

entropy thường được gọi là entropy của Shannon.

F

tầm quan trọng của tính năng

#df

Từ đồng nghĩa với biến quan trọng.

G

tạp chất gini

#df

Chỉ số tương tự như entropy. Bộ phân tách sử dụng các giá trị bắt nguồn từ độ không tinh khiết của gini hoặc entropy để kết hợp các điều kiện cho việc phân loại cây quyết định. Mức tăng thông tin được lấy từ entropy. Không có thuật ngữ tương đương nào được chấp nhận trên toàn cầu cho chỉ số bắt nguồn từ chất gini không tinh khiết; tuy nhiên, chỉ số chưa được đặt tên này cũng quan trọng như việc thu được thông tin.

Tạp chất Gini còn được gọi là chỉ số gini hoặc đơn giản là gini.

Cây tăng độ dốc (quyết định) (GBT)

#df

Một loại khu rừng quyết định, trong đó:

tăng độ dốc

#df

Một thuật toán huấn luyện trong đó các mô hình yếu được huấn luyện để cải thiện liên tục chất lượng (giảm tổn thất) của một mô hình mạnh. Ví dụ: mô hình yếu có thể là mô hình cây quyết định tuyến tính hoặc mô hình cây quyết định nhỏ. Mô hình mạnh sẽ trở thành tổng hợp của tất cả mô hình yếu được huấn luyện trước đó.

Ở hình thức đơn giản nhất của việc tăng độ dốc (gradient), ở mỗi vòng lặp, một mô hình yếu sẽ được huấn luyện để dự đoán độ dốc bị mất của mô hình mạnh. Sau đó, kết quả của mô hình mạnh được cập nhật bằng cách trừ đi độ dốc dự đoán, tương tự như giảm độ dốc.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

nơi:

  • $F_{0}$ là mô hình mạnh khởi đầu.
  • $F_{i+1}$ là mô hình mạnh mẽ tiếp theo.
  • $F_{i}$ là mô hình mạnh hiện tại.
  • $\xi$ là một giá trị từ 0 đến 1,0 có tên là shrinkage, tương tự như tốc độ học khi giảm độ dốc.
  • $f_{i}$ là mô hình yếu được huấn luyện để dự đoán độ dốc của $F_{i}$.

Các biến thể hiện đại của việc tăng độ dốc cũng bao gồm đạo hàm thứ hai (Hessian) của tổn thất trong phép tính.

Cây quyết định thường được dùng làm mô hình yếu trong việc tăng độ chuyển màu. Hãy xem cây tăng cường độ dốc (quyết định).

I

đường dẫn suy luận

#df

Trong một cây quyết định, trong quá trình suy luận, tuyến mà một ví dụ cụ thể đi từ gốc đến các điều kiện khác, kết thúc bằng một . Ví dụ: trong cây quyết định sau, các mũi tên dày hơn hiển thị đường dẫn suy luận cho ví dụ với các giá trị tính năng sau:

  • x = 7
  • y = 12
  • z = -3

Lộ trình suy luận trong hình minh hoạ sau đây đi qua 3 điều kiện trước khi đến lá (Zeta).

Cây quyết định gồm 4 điều kiện và 5 lá.
          Điều kiện gốc là (x > 0). Vì câu trả lời là Có, nên đường dẫn suy luận sẽ đi từ điều kiện gốc đến điều kiện tiếp theo (y > 0).
          Vì câu trả lời là Có, nên đường dẫn suy luận sẽ chuyển đến điều kiện tiếp theo (z > 0). Vì câu trả lời là Không, nên đường dẫn suy luận sẽ di chuyển đến nút cuối cùng là lá (Zeta).

Ba mũi tên đậm cho thấy đường dẫn suy luận.

lấy thông tin

#df

Trong rừng quyết định, sự khác biệt giữa entropy của một nút và tổng có trọng số (theo số lượng ví dụ) của tổng entropy của các nút con. Entropy của một nút là entropy của các ví dụ trong nút đó.

Ví dụ: hãy xem xét các giá trị entropy sau:

  • entropy của nút mẹ = 0,6
  • entropy của một nút con với 16 ví dụ liên quan = 0,2
  • entropy của một nút con khác với 24 ví dụ liên quan = 0,1

Vì vậy, 40% số ví dụ nằm trong một nút con và 60% nằm trong nút con khác. Vì thế:

  • tổng entropy có trọng số của các nút con = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Như vậy, thông tin đạt được là:

  • mức tăng thông tin = entropy của nút mẹ - tổng entropy của các nút con
  • độ thu được thông tin = 0,6 - 0,14 = 0,46

Hầu hết các trình phân tách đều tìm cách tạo ra các điều kiện để thu được nhiều thông tin nhất.

điều kiện trong phần đặt

#df

Trong cây quyết định, một điều kiện sẽ kiểm tra sự hiện diện của một mục trong tập hợp các mục. Ví dụ: sau đây là một điều kiện trong tập hợp:

  house-style in [tudor, colonial, cape]

Trong quá trình suy luận, nếu giá trị của tính năng kiểu ngôi nhà là tudor hoặc colonial hoặc cape, thì điều kiện này sẽ được đánh giá là Có. Nếu giá trị của đặc điểm kiểu ngôi nhà là giá trị khác (ví dụ: ranch), thì điều kiện này sẽ đánh giá là Không.

Điều kiện trong tập hợp thường dẫn đến cây quyết định hiệu quả hơn so với điều kiện kiểm thử các tính năng được mã hoá nóng một lần.

L

#df

Điểm cuối bất kỳ trong cây quyết định. Không giống như điều kiện, lá không thực hiện kiểm thử. Đúng hơn, một chiếc lá là một dự đoán có thể xảy ra. Lá cũng là nút cuối của đường dẫn suy luận.

Ví dụ: cây quyết định sau đây có ba lá:

Cây quyết định có hai điều kiện dẫn đến ba lá.

N

nút (cây quyết định)

#df

Trong cây quyết định, bất kỳ condition hoặc nào.

Cây quyết định có 2 điều kiện và 3 lá.

điều kiện phi nhị phân

#df

Một điều kiện chứa nhiều kết quả có thể xảy ra. Ví dụ: điều kiện phi nhị phân sau đây có thể có 3 kết quả:

Một điều kiện (number_of_legs = ?) dẫn đến 3 kết quả có thể xảy ra. Một kết quả (number_of_legs = 8) dẫn đến một lá
          có tên là trình thu thập dữ liệu. Kết quả thứ hai (number_of_legs = 4) dẫn đến một chiếc lá có tên là chó. Kết quả thứ ba (number_of_legs = 2) dẫn đến một chiếc lá tên là chim cánh cụt.

O

điều kiện xiên

#df

Trong cây quyết định, một điều kiện liên quan đến nhiều tính năng. Ví dụ: nếu chiều cao và chiều rộng đều là các tính năng, thì sau đây là một điều kiện xiên:

  height > width

Tương phản với điều kiện căn chỉnh theo trục.

đánh giá ngoài túi xách (đánh giá OOB)

#df

Cơ chế đánh giá chất lượng của khu rừng quyết định bằng cách kiểm thử từng cây quyết định dựa trên các ví dụ không được dùng trong huấn luyện của cây quyết định đó. Ví dụ: trong sơ đồ sau, hãy lưu ý rằng hệ thống sẽ huấn luyện từng cây quyết định trên khoảng 2/3 số ví dụ, sau đó đánh giá dựa trên 1/3 số ví dụ còn lại.

Khu rừng quyết định gồm ba cây quyết định.
          Một cây quyết định được huấn luyện trên 2/3 số ví dụ, sau đó sử dụng 1/3 còn lại để đánh giá OOB.
          Cây quyết định thứ hai sẽ huấn luyện trên 2/3 số ví dụ khác với cây quyết định trước đó, sau đó sử dụng 1/3 khác để đánh giá OOB so với cây quyết định trước đó.

Việc đánh giá ngoài túi là một phương pháp tính toán hiệu quả và thận trọng của cơ chế xác thực chéo. Trong quá trình xác thực chéo, một mô hình được huấn luyện cho mỗi vòng xác thực chéo (ví dụ: 10 mô hình được huấn luyện trong quy trình xác thực chéo 10 lần). Khi đánh giá OOB, một mô hình sẽ được huấn luyện. Do tính năng đóng gói sẽ giữ lại một số dữ liệu từ mỗi cây trong quá trình huấn luyện, nên việc đánh giá OOB có thể sử dụng dữ liệu đó để ước chừng quá trình xác thực chéo.

Điểm

tầm quan trọng của biến hoán vị

#df

Một loại mức độ quan trọng của biến đánh giá mức độ gia tăng lỗi dự đoán của mô hình sau khi bật/tắt các giá trị của tính năng. Tầm quan trọng của biến hoán vị là một chỉ số không phụ thuộc vào mô hình.

R

khu rừng ngẫu nhiên

#df

Một tập hợp gồm cây quyết định, trong đó mỗi cây quyết định được huấn luyện bằng một nhiễu ngẫu nhiên cụ thể, chẳng hạn như đóng gói.

Rừng ngẫu nhiên là một loại rừng quyết định.

gốc

#df

Nút bắt đầu (điều kiện đầu tiên) trong cây quyết định. Theo quy ước, các sơ đồ sẽ đặt gốc ở đầu cây quyết định. Ví dụ:

Cây quyết định có 2 điều kiện và 3 lá. Điều kiện bắt đầu (x > 2) là căn.

S

lấy mẫu và thay thế

#df

Phương pháp chọn các mục từ một tập hợp các mục đề xuất trong đó cùng một mục có thể được chọn nhiều lần. Cụm từ "với sự thay thế" có nghĩa là sau mỗi lựa chọn, mục đã chọn sẽ được trả về nhóm các mục đề xuất. Phương thức nghịch đảo, lấy mẫu mà không thay thế, có nghĩa là bạn chỉ có thể chọn một mục đề xuất một lần.

Ví dụ: hãy xem xét nhóm trái cây sau đây:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Giả sử hệ thống chọn ngẫu nhiên fig làm mục đầu tiên. Nếu sử dụng phương thức lấy mẫu kết hợp với thay thế, hệ thống sẽ chọn mục thứ hai trong tập hợp sau:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Đúng, cách thiết lập này giống với trước đây, nên hệ thống có thể chọn lại fig.

Nếu sử dụng phương thức lấy mẫu mà không thay thế, thì sau khi đã chọn, bạn không thể chọn lại mẫu. Ví dụ: nếu hệ thống chọn ngẫu nhiên fig làm mẫu đầu tiên, thì không thể chọn lại fig. Do đó, hệ thống sẽ chọn mẫu thứ hai trong tập hợp (giảm) sau:

fruit = {kiwi, apple, pear, cherry, lime, mango}

độ co rút

#df

Một hyperparameter trong tính năng tăng cường độ chuyển màu giúp kiểm soát việc thúc đẩy quá mức. Sự co lại trong tính năng tăng độ dốc cũng tương tự như tốc độ tự học trong giảm độ dốc. Độ co lại là một giá trị thập phân từ 0,0 đến 1,0. Giá trị độ co rút thấp hơn làm giảm tình trạng quá mức nhiều hơn giá trị độ co rút lớn hơn.

chia hoá đơn

#df

Trong cây quyết định, một tên khác cho điều kiện.

bộ chia

#df

Trong khi huấn luyện cây quyết định, quy trình (và thuật toán) chịu trách nhiệm tìm điều kiện tốt nhất ở mỗi nút.

T

thử nghiệm

#df

Trong cây quyết định, một tên khác cho điều kiện.

ngưỡng (đối với cây quyết định)

#df

Trong điều kiện căn chỉnh theo trục, giá trị mà một tính năng đang được so sánh. Ví dụ: 75 là giá trị ngưỡng trong điều kiện sau:

grade >= 75

V

mức độ quan trọng của biến

#df

Tập hợp các điểm số cho biết tầm quan trọng tương đối của từng tính năng đối với mô hình.

Ví dụ: hãy xem xét cây quyết định nhằm ước tính giá nhà. Giả sử cây quyết định này sử dụng 3 đặc điểm: kích thước, độ tuổi và kiểu. Nếu một tập hợp các tầm quan trọng thay đổi của 3 tính năng được tính là {size=5.8, age=2.5, style=4.7}, thì kích thước sẽ quan trọng hơn đối với cây quyết định so với độ tuổi hoặc kiểu.

Các chỉ số có tầm quan trọng khác nhau có thể cung cấp thông tin cho các chuyên gia máy học về các khía cạnh khác nhau của mô hình.

W

sự thông thái của cộng đồng

#df

Ý tưởng rằng việc tính trung bình các ý kiến hoặc ước tính của một nhóm người dùng lớn ("đám đông") thường tạo ra kết quả tốt một cách bất ngờ. Ví dụ: hãy xem xét một trò chơi trong đó mọi người đoán số lượng đậu thạch được đóng gói vào một chiếc lọ lớn. Mặc dù hầu hết từng cá nhân đều có kết quả không chính xác, nhưng thực tế chứng minh giá trị trung bình của tất cả các phỏng đoán là gần với số lượng đậu thạch thực tế trong lọ.

Ensembles là một phần mềm tương tự như sự hiểu biết của đám đông. Ngay cả khi từng mô hình riêng lẻ đưa ra các dự đoán cực kỳ không chính xác, thì việc lấy trung bình các dự đoán của nhiều mô hình thường tạo ra các dự đoán chính xác một cách đáng ngạc nhiên. Ví dụ: mặc dù cây quyết định riêng lẻ có thể đưa ra các dự đoán kém, nhưng khu rừng quyết định thường đưa ra các dự đoán rất tốt.