Trang này được dịch bởi Cloud Translation API.

Bảng thuật ngữ về công nghệ máy học: Rừng quyết định

Trang này chứa các thuật ngữ chú giải thuật ngữ của Rừng Quyết định. Đối với tất cả các thuật ngữ trong bảng thuật ngữ, nhấp vào đây.

A

lấy mẫu thuộc tính

#df

Một chiến thuật để huấn luyện một khu rừng quyết định trong đó mỗi cây quyết định chỉ xem xét một tập hợp con ngẫu nhiên trong số các giá trị có thể các tính năng khi tìm hiểu về tình trạng. Thông thường, một nhóm nhỏ tính năng khác nhau được lấy mẫu cho mỗi nút. Ngược lại, khi huấn luyện cây quyết định mà không lấy mẫu thuộc tính, tất cả các tính năng có thể có đều được xem xét cho mỗi nút.

điều kiện căn chỉnh theo trục

#df

Trong cây quyết định, một điều kiện chỉ liên quan đến một tính năng. Ví dụ: nếu khu vực là một đối tượng, thì sau đây là điều kiện căn chỉnh theo trục:

area > 200

Tương phản với điều kiện xiên.

B

hành lý

#df

Phương thức huấn luyện một nhóm trong đó mỗi mô hình cấu thành huấn luyện trên một tập con ngẫu nhiên huấn luyện các ví dụ về được lấy mẫu có thay thế. Ví dụ: khu rừng ngẫu nhiên là tập hợp cây quyết định được huấn luyện bằng cách đóng bao.

Thuật ngữ bagging là viết tắt của bootstrap aggregating.

điều kiện nhị phân

#df

Trong cây quyết định, một điều kiện chỉ có hai kết quả có thể xảy ra, thường là có hoặc không. Ví dụ: sau đây là điều kiện nhị phân:

temperature >= 100

Tương phản với tình trạng phi nhị giới.

C

điều kiện

#df

Trong cây quyết định, mọi nút đánh giá một biểu thức. Ví dụ: phần sau của cây quyết định chứa hai điều kiện:

Cây quyết định bao gồm hai điều kiện: (x > 0) và
(y > 0).

Một điều kiện còn được gọi là phân tách hoặc kiểm thử.

Điều kiện tương phản với leaf.

Xem thêm:

điều kiện nhị phân
điều kiện phi nhị giới.
điều kiện căn chỉnh theo trục
điều kiện xiên

D

rừng quyết định

#df

Mô hình được tạo từ nhiều cây quyết định. Nhóm rừng quyết định đưa ra dự đoán bằng cách tổng hợp các dự đoán của cây quyết định. Các loại rừng quyết định phổ biến bao gồm khu rừng ngẫu nhiên và cây được tăng cường độ dốc.

cây quyết định

#df

Mô hình học tập có giám sát bao gồm tập hợp điều kiện và rời khỏi được sắp xếp theo hệ thống phân cấp. Ví dụ: sau đây là cây quyết định:

Cây quyết định bao gồm 4 điều kiện được sắp xếp
phân cấp, dẫn đến 5 lá.

E

entropy

#df

Trong lý thuyết thông tin, nội dung mô tả về khả năng dự đoán của một xác suất là bao nhiêu. Ngoài ra, entropy còn được định nghĩa là giá trị thông tin mà mỗi ví dụ có. Phân phối có entropy cao nhất có thể khi tất cả các giá trị của một biến ngẫu nhiên là khả năng tương đương.

Entropy của một tập hợp với hai giá trị có thể có là "0" và "1" (ví dụ: các nhãn trong bài toán phân loại nhị phân) có công thức như sau:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

trong đó:

H là entropy.
p là phân số của "1" ví dụ.
q là phân số của "0" ví dụ. Lưu ý rằng q = (1 - p)
nhật ký thường là nhật ký₂. Trong trường hợp này, entropy là một bit.

Ví dụ: giả sử như sau:

100 ví dụ chứa giá trị "1"
300 ví dụ chứa giá trị "0"

Do đó, giá trị entropy là:

p = 0,25
q = 0,75
H = (-0,25)nhật ký₂(0,25) - (0,75)nhật ký₂(0,75) = 0,81 bit cho mỗi ví dụ

Một tập hợp hoàn toàn cân bằng (ví dụ: 200 "0"s và 200 "1"s) sẽ có entropy là 1,0 bit cho mỗi ví dụ. Khi tập hợp trở nên nhiều hơn không cân bằng thì entropy của nó dịch chuyển về 0.0.

Trong cây quyết định, entropy giúp lập công thức thu thập thông tin để giúp bộ chia chọn điều kiện trong quá trình phát triển cây quyết định phân loại.

So sánh entropy với:

tạp chất gini
Hàm mất cross-entropy

Entropy thường được gọi là entropy Shannon.

F

tầm quan trọng của tính năng

#df

Từ đồng nghĩa với tầm quan trọng thay đổi.

G

tạp chất gini

#df

Một chỉ số tương tự như entropy. Bộ chia đôi sử dụng các giá trị thu được từ độ không tinh khiết gini hoặc entropy để kết hợp điều kiện để phân loại cây quyết định. Mức nhận thông tin bắt nguồn từ entropy. Không có thuật ngữ tương đương được chấp nhận trên toàn cầu cho chỉ số bắt nguồn từ tạp chất gini; tuy nhiên, chỉ số chưa đặt tên này cũng quan trọng như kiếm được thông tin.

Tạp chất Gini còn được gọi là chỉ số gini hoặc đơn giản là gini.

Nhấp vào biểu tượng để xem thông tin chi tiết về toán học về tạp chất gini.

tạp chất Gini là xác suất phân loại sai một phần dữ liệu mới lấy từ cùng một phân phối. Tạp chất gini của một tập hợp có hai giá trị có thể "0" và "1" (ví dụ: nhãn trong phân loại nhị phân) được tính theo công thức sau:

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

trong đó:

I là tạp chất gini.
p là phân số của "1" ví dụ.
q là phân số của "0" ví dụ. Lưu ý rằng q = bên thứ nhất

Ví dụ: hãy xem xét tập dữ liệu sau:

100 nhãn (0,25 nhãn của tập dữ liệu) chứa giá trị "1"
300 nhãn (0,75 của tập dữ liệu) chứa giá trị "0"

Do đó, tạp chất gini là:

p = 0,25
q = 0,75
I = 1 - (0,25² + 0,75²) = 0,375

Do đó, một nhãn ngẫu nhiên từ cùng một tập dữ liệu sẽ có 37,5% cơ hội bị phân loại sai và có 62, 5% khả năng được phân loại đúng.

Một nhãn cân bằng hoàn hảo (ví dụ: 200 "0" và 200 "1") sẽ có tạp chất gini 0,5. Rất cao nhãn không cân bằng sẽ có độ tạp chất gần bằng 0,0.

Cây tăng độ dốc (quyết định) (GBT)

#df

Một loại rừng quyết định trong đó:

Chương trình huấn luyện dựa vào tăng độ dốc.
Mô hình yếu là cây quyết định.

tăng độ dốc

#df

Một thuật toán huấn luyện trong đó các mô hình yếu được huấn luyện lặp lại cải thiện chất lượng (giảm tổn thất) của mô hình mạnh. Ví dụ: một mô hình yếu có thể là mô hình cây quyết định tuyến tính hoặc nhỏ. Mô hình mạnh sẽ trở thành tổng hợp của tất cả mô hình yếu được huấn luyện trước đó.

Trong hình thức tăng độ dốc đơn giản nhất, ở mỗi lần lặp lại, một mô hình yếu được huấn luyện để dự đoán độ dốc của tổn thất trong mô hình mạnh. Sau đó, đầu ra của mô hình mạnh được cập nhật bằng cách trừ đi độ dốc dự đoán, tương tự như hiệu ứng giảm độ dốc.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

trong đó:

$F_{0}$ là mô hình khởi đầu mạnh mẽ.
$F_{i+1}$ là mô hình mạnh mẽ tiếp theo.
$F_{i}$ là mô hình mạnh hiện tại.
$\xi$ là một giá trị nằm trong khoảng từ 0.0 đến 1.0 có tên là rút gọn, tương tự như tỷ lệ học ở giảm độ dốc.
$f_{i}$ là mô hình yếu được huấn luyện để dự đoán gradient tổn thất của $F_{i}$.

Các biến thể hiện đại của tăng độ dốc cũng bao gồm đạo hàm thứ hai (Hessian) về tổn thất trong tính toán.

Cây quyết định thường được dùng làm mô hình yếu trong tăng độ dốc. Xem cây tăng cường độ dốc (quyết định).

I

đường dẫn suy luận

#df

Trong cây quyết định, trong quá trình suy luận, tuyến đường mà một ví dụ cụ thể lấy từ root sang điều kiện khác, kết thúc bằng một lá. Ví dụ: trong cây quyết định sau đây, mũi tên dày hơn hiển thị đường dẫn suy luận cho một ví dụ như sau các giá trị tính năng:

x = 7
y = 12
z = -3

Lộ trình suy luận trong hình minh hoạ sau đây đi qua ba điều kiện trước khi tiếp cận lá (Zeta).

Cây quyết định bao gồm 4 điều kiện và 5 lá.
Điều kiện gốc là (x > 0). Vì câu trả lời là Có, nên
đường suy luận đi từ gốc đến điều kiện tiếp theo (y > 0).
Vì câu trả lời là Có, nên đường dẫn suy luận sẽ đi đến
điều kiện tiếp theo (z > 0). Vì câu trả lời là Không nên đường dẫn suy luận
di chuyển đến nút đầu cuối là lá (Zeta).

Ba mũi tên dày cho thấy đường dẫn suy luận.

mức tăng thông tin

#df

Trong rừng quyết định, sự khác biệt giữa entropy của một nút và trọng số (theo số lượng ví dụ) tổng entropy của các nút con. Entropy của một nút là entropy các ví dụ trong nút đó.

Ví dụ: hãy xem xét các giá trị entropy sau:

entropy của nút mẹ = 0,6
entropy của một nút con với 16 ví dụ có liên quan = 0,2
entropy của nút con khác với 24 ví dụ có liên quan = 0,1

Vì vậy, 40% ví dụ nằm trong một nút con và 60% nằm trong nút con khác. Vì thế:

tổng entropy có trọng số của các nút con = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Vì vậy, thông tin nhận được là:

độ tăng thông tin = entropy của nút mẹ - tổng entropy có trọng số của các nút con
độ nhận thông tin = 0,6 - 0,14 = 0,46

Hầu hết các thiết bị phân tách tìm cách tạo ra điều kiện giúp tăng tối đa lượng thông tin thu thập được.

điều kiện đặt sẵn

#df

Trong cây quyết định, một điều kiện để kiểm tra sự hiện diện của một mục trong một tập hợp các mục. Ví dụ: sau đây là một điều kiện được đặt sẵn:

  house-style in [tudor, colonial, cape]

Trong quá trình suy luận, nếu giá trị của tính năng kiểu nhà là tudor, colonial hoặc cape, thì điều kiện này sẽ được đánh giá là Có. Nếu giá trị của đối tượng kiểu ngôi nhà là giá trị khác (ví dụ: ranch), thì điều kiện này có giá trị là Không.

Các điều kiện được đặt sẵn thường dẫn đến cây quyết định hiệu quả hơn so với để kiểm tra các tính năng được mã hoá một nóng.

L

lá

#df

Bất kỳ điểm cuối nào trong cây quyết định. Ngừng thích condition, một lá không thực hiện thử nghiệm. Đúng hơn, một chiếc lá là một dự đoán khả thi. Một chiếc lá cũng là thiết bị đầu cuối nút của đường dẫn suy luận.

Ví dụ: cây quyết định sau đây chứa ba lá:

Cây quyết định có hai điều kiện dẫn đến ba lá.

Không

nút (cây quyết định)

#df

Trong cây quyết định, bất kỳ condition [tình_trạng] hoặc lá.

Cây quyết định có hai điều kiện và ba lá.

điều kiện phi nhị giới

#df

Một điều kiện chứa nhiều hơn 2 kết quả có thể xảy ra. Ví dụ: điều kiện phi nhị phân sau đây có thể chứa 3 điều kiện kết quả:

Một điều kiện (number_of_legs = ?) có thể dẫn đến 3 kết quả
kết quả. Một kết quả (number_of_legs = 8) dẫn đến một chiếc lá
có tên là nhện. Kết quả thứ hai (number_of_legs = 4) dẫn đến
một chiếc lá có tên là chó. Kết quả thứ ba (number_of_legs = 2) dẫn đến
một chiếc lá có tên là chim cánh cụt.

O

điều kiện xiên

#df

Trong cây quyết định, tình trạng liên quan đến nhiều hơn một tính năng. Ví dụ: nếu chiều cao và chiều rộng là cả hai đối tượng, thì sau đây là điều kiện xiên:

  height > width

Tương phản với điều kiện căn chỉnh theo trục.

đánh giá ngay lập tức (đánh giá OOB)

#df

Một cơ chế để đánh giá chất lượng rừng quyết định bằng cách thử nghiệm từng cây quyết định so với ví dụ không được sử dụng trong khoảng thời gian huấn luyện của cây quyết định đó. Ví dụ: trong sơ đồ dưới đây, lưu ý rằng hệ thống sẽ huấn luyện từng cây quyết định vào khoảng 2/3 số ví dụ, sau đó đánh giá dựa trên 1/3 số ví dụ còn lại.

Rừng quyết định bao gồm 3 cây quyết định.
Cây quyết định một lần huấn luyện dựa trên 2/3 số ví dụ
rồi sử dụng một phần ba còn lại để đánh giá OOB.
Cây quyết định thứ hai huấn luyện trên hai khu vực khác nhau
các ví dụ so với cây quyết định trước đó, sau đó
sử dụng tỷ lệ 1/3 để đánh giá OOB khác với
cây quyết định trước đó.

Đánh giá ngoài túi là một cách tính toán hiệu quả và thận trọng cơ chế xác thực chéo. Trong trường hợp xác thực chéo, một mô hình sẽ được huấn luyện cho mỗi vòng xác thực chéo (ví dụ: 10 mô hình được huấn luyện bằng quy trình xác thực chéo 10 lần). Với đánh giá OOB, một mô hình duy nhất sẽ được huấn luyện. Vì hành vi bóc lột giữ lại một số dữ liệu từ mỗi cây trong quá trình huấn luyện, việc đánh giá OOB có thể sử dụng dữ liệu đó để ước tính xác thực chéo.

Điểm

tầm quan trọng của biến hoán vị

#df

Loại mức độ quan trọng có thể thay đổi đánh giá sự gia tăng của lỗi dự đoán của một mô hình sau khi xem xét các giá trị của tính năng. Tầm quan trọng của biến hoán vị là biến độc lập với mô hình chỉ số.

Điểm

khu rừng ngẫu nhiên

#df

Tập hợp cây quyết định trong trong đó mỗi cây quyết định được huấn luyện bằng một yếu tố nhiễu ngẫu nhiên cụ thể, chẳng hạn như bỏ túi.

Rừng ngẫu nhiên là một loại rừng quyết định.

gốc

#df

Nút bắt đầu (nút đầu tiên condition) trong cây quyết định. Theo quy ước, sơ đồ đặt phần gốc ở đầu cây quyết định. Ví dụ:

Cây quyết định có hai điều kiện và ba lá. Chiến lược phát hành đĩa đơn
điều kiện bắt đầu (x > 2) là căn.

CN

lấy mẫu bằng phương pháp thay thế

#df

Phương pháp chọn các mục từ một tập hợp các mục ứng viên có cùng có thể chọn mục nhiều lần. Cụm từ "có sản phẩm thay thế" nghĩa là sau mỗi lần lựa chọn, mục đã chọn sẽ được trả về nhóm mục ứng viên. Phương pháp nghịch đảo, lấy mẫu mà không thay thế, có nghĩa là bạn chỉ có thể chọn một mục ứng viên một lần.

Ví dụ: hãy xem xét nhóm trái cây sau đây:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Giả sử hệ thống chọn ngẫu nhiên fig làm mục đầu tiên. Nếu sử dụng phương thức lấy mẫu có thay thế, thì hệ thống sẽ chọn phương pháp mục thứ hai từ tập hợp sau:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Vâng, giá trị này vẫn được đặt giống như trước, nên hệ thống có thể chọn lại fig.

Nếu sử dụng phương thức lấy mẫu mà không thay thế thì sau khi đã chọn, bạn không thể lấy mẫu đã chọn lại. Ví dụ: nếu hệ thống chọn ngẫu nhiên fig làm giá trị mẫu đầu tiên, sau đó bạn không thể chọn lại fig. Do đó, hệ thống chọn mẫu thứ hai trong tập hợp sau (đã rút gọn):

fruit = {kiwi, apple, pear, cherry, lime, mango}

Nhấp vào biểu tượng để xem thêm ghi chú.

Từ replacement trong tính năng lấy mẫu có sự thay thế gây nhầm lẫn nhiều người. Trong tiếng Anh, replacement có nghĩa là "thay thế". Tuy nhiên, lấy mẫu có thay thế thực sự sử dụng định nghĩa tiếng Pháp cho replacement (thay thế), có nghĩa là "đặt lại thứ gì đó".

Từ tiếng Anh replacement được dịch sang tiếng Pháp từ remplacement.

co ngót

#df

Siêu tham số trong Tính năng tăng độ dốc giúp kiểm soát trang bị quá mức. Thu hẹp khi tăng độ dốc tương tự như tốc độ học tập ở giảm độ chuyển màu. Độ co lại là số thập phân có giá trị từ 0,0 đến 1,0. Giá trị co rút thấp hơn giúp giảm hiện tượng quá tải hơn giá trị co rút lớn hơn.

chia tách

#df

Trong cây quyết định, một tên khác của tình trạng.

bộ chia

#df

Trong khi huấn luyện cây quyết định, quy trình (và thuật toán) chịu trách nhiệm tìm ra kết quả tốt nhất tình trạng ở mỗi nút.

T

thử nghiệm

#df

Trong cây quyết định, một tên khác của tình trạng.

ngưỡng (cho cây quyết định)

#df

Trong điều kiện căn chỉnh theo trục, giá trị mà đang so sánh với feature. Ví dụ: 75 là ngưỡng trong điều kiện sau:

grade >= 75

V

tầm quan trọng thay đổi

#df

Một tập hợp điểm số cho biết tầm quan trọng tương đối của từng chỉ số feature đối với mô hình.

Ví dụ: hãy xem xét cây quyết định ước tính giá nhà. Giả sử cây quyết định này sử dụng đặc điểm: kích thước, độ tuổi và kiểu dáng. Nếu một tập hợp các mức độ quan trọng thay đổi 3 tính năng này sẽ được tính là {size=5,8, tuổi=2,5, style=4,7}, thì kích thước quan trọng hơn đối với cây quyết định hơn độ tuổi hoặc phong cách.

Tồn tại nhiều chỉ số tầm quan trọng khác nhau, điều này có thể cung cấp thông tin Các chuyên gia học máy về các khía cạnh khác nhau của mô hình.

W

của đám đông

#df

Ý tưởng cho rằng việc tính trung bình ý kiến hoặc ước tính của một nhóm lớn người dùng ("đám đông") thường tạo ra kết quả tốt đáng ngạc nhiên. Ví dụ: hãy xem xét một trò chơi trong đó mọi người đoán số lượng đậu thạch được đóng gói vào một lọ lớn. Mặc dù hầu hết các cá nhân dự đoán sẽ không chính xác, trung bình của tất cả các phỏng đoán là thực tế cho thấy gần sát với số lượng thực tế đậu phộng trong lọ.

Ensembles là một phần mềm tương tự như trí tuệ của đám đông. Ngay cả khi từng mô hình đưa ra những dự đoán hết sức chính xác, việc lấy trung bình dự đoán của nhiều mô hình thường tạo ra các kết quả đáng ngạc nhiên các dự đoán phù hợp. Ví dụ, mặc dù một cá nhân cây quyết định có thể đưa ra các dự đoán kém hiệu quả, rừng quyết định thường đưa ra các dự đoán rất chính xác.