Bảng thuật ngữ về công nghệ máy học: Rừng quyết định

Trang này chứa các thuật ngữ chú giải thuật ngữ của Rừng Quyết định. Đối với tất cả các thuật ngữ trong bảng thuật ngữ, nhấp vào đây.

A

lấy mẫu thuộc tính

#df

Một chiến thuật để huấn luyện một khu rừng quyết định trong đó mỗi cây quyết định chỉ xem xét một tập hợp con ngẫu nhiên trong số các giá trị có thể các tính năng khi tìm hiểu về tình trạng. Thông thường, một nhóm nhỏ tính năng khác nhau được lấy mẫu cho mỗi nút. Ngược lại, khi huấn luyện cây quyết định mà không lấy mẫu thuộc tính, tất cả các tính năng có thể có đều được xem xét cho mỗi nút.

điều kiện căn chỉnh theo trục

#df

Trong cây quyết định, một điều kiện chỉ liên quan đến một tính năng. Ví dụ: nếu khu vực là một đối tượng, thì sau đây là điều kiện căn chỉnh theo trục:

area > 200

Tương phản với điều kiện xiên.

B

hành lý

#df

Phương thức huấn luyện một nhóm trong đó mỗi mô hình cấu thành huấn luyện trên một tập con ngẫu nhiên huấn luyện các ví dụ về được lấy mẫu có thay thế. Ví dụ: khu rừng ngẫu nhiên là tập hợp cây quyết định được huấn luyện bằng cách đóng bao.

Thuật ngữ bagging là viết tắt của bootstrap aggregating.

điều kiện nhị phân

#df

Trong cây quyết định, một điều kiện chỉ có hai kết quả có thể xảy ra, thường là hoặc không. Ví dụ: sau đây là điều kiện nhị phân:

temperature >= 100

Tương phản với tình trạng phi nhị giới.

C

điều kiện

#df

Trong cây quyết định, mọi nút đánh giá một biểu thức. Ví dụ: phần sau của cây quyết định chứa hai điều kiện:

Cây quyết định bao gồm hai điều kiện: (x > 0) và
          (y > 0).

Một điều kiện còn được gọi là phân tách hoặc kiểm thử.

Điều kiện tương phản với leaf.

Xem thêm:

D

rừng quyết định

#df

Mô hình được tạo từ nhiều cây quyết định. Nhóm rừng quyết định đưa ra dự đoán bằng cách tổng hợp các dự đoán của cây quyết định. Các loại rừng quyết định phổ biến bao gồm khu rừng ngẫu nhiêncây được tăng cường độ dốc.

cây quyết định

#df

Mô hình học tập có giám sát bao gồm tập hợp điều kiệnrời khỏi được sắp xếp theo hệ thống phân cấp. Ví dụ: sau đây là cây quyết định:

Cây quyết định bao gồm 4 điều kiện được sắp xếp
          phân cấp, dẫn đến 5 lá.

E

entropy

#df

Trong lý thuyết thông tin, nội dung mô tả về khả năng dự đoán của một xác suất là bao nhiêu. Ngoài ra, entropy còn được định nghĩa là giá trị thông tin mà mỗi ví dụ có. Phân phối có entropy cao nhất có thể khi tất cả các giá trị của một biến ngẫu nhiên là khả năng tương đương.

Entropy của một tập hợp với hai giá trị có thể có là "0" và "1" (ví dụ: các nhãn trong bài toán phân loại nhị phân) có công thức như sau:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

trong đó:

  • H là entropy.
  • p là phân số của "1" ví dụ.
  • q là phân số của "0" ví dụ. Lưu ý rằng q = (1 - p)
  • nhật ký thường là nhật ký2. Trong trường hợp này, entropy là một bit.

Ví dụ: giả sử như sau:

  • 100 ví dụ chứa giá trị "1"
  • 300 ví dụ chứa giá trị "0"

Do đó, giá trị entropy là:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)nhật ký2(0,25) - (0,75)nhật ký2(0,75) = 0,81 bit cho mỗi ví dụ

Một tập hợp hoàn toàn cân bằng (ví dụ: 200 "0"s và 200 "1"s) sẽ có entropy là 1,0 bit cho mỗi ví dụ. Khi tập hợp trở nên nhiều hơn không cân bằng thì entropy của nó dịch chuyển về 0.0.

Trong cây quyết định, entropy giúp lập công thức thu thập thông tin để giúp bộ chia chọn điều kiện trong quá trình phát triển cây quyết định phân loại.

So sánh entropy với:

Entropy thường được gọi là entropy Shannon.

F

tầm quan trọng của tính năng

#df

Từ đồng nghĩa với tầm quan trọng thay đổi.

G

tạp chất gini

#df

Một chỉ số tương tự như entropy. Bộ chia đôi sử dụng các giá trị thu được từ độ không tinh khiết gini hoặc entropy để kết hợp điều kiện để phân loại cây quyết định. Mức nhận thông tin bắt nguồn từ entropy. Không có thuật ngữ tương đương được chấp nhận trên toàn cầu cho chỉ số bắt nguồn từ tạp chất gini; tuy nhiên, chỉ số chưa đặt tên này cũng quan trọng như kiếm được thông tin.

Tạp chất Gini còn được gọi là chỉ số gini hoặc đơn giản là gini.

Cây tăng độ dốc (quyết định) (GBT)

#df

Một loại rừng quyết định trong đó:

tăng độ dốc

#df

Một thuật toán huấn luyện trong đó các mô hình yếu được huấn luyện lặp lại cải thiện chất lượng (giảm tổn thất) của mô hình mạnh. Ví dụ: một mô hình yếu có thể là mô hình cây quyết định tuyến tính hoặc nhỏ. Mô hình mạnh sẽ trở thành tổng hợp của tất cả mô hình yếu được huấn luyện trước đó.

Trong hình thức tăng độ dốc đơn giản nhất, ở mỗi lần lặp lại, một mô hình yếu được huấn luyện để dự đoán độ dốc của tổn thất trong mô hình mạnh. Sau đó, đầu ra của mô hình mạnh được cập nhật bằng cách trừ đi độ dốc dự đoán, tương tự như tính năng giảm độ dốc.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

trong đó:

  • $F_{0}$ là mô hình khởi đầu mạnh mẽ.
  • $F_{i+1}$ là mô hình mạnh mẽ tiếp theo.
  • $F_{i}$ là mô hình mạnh hiện tại.
  • $\xi$ là một giá trị nằm trong khoảng từ 0.0 đến 1.0 có tên là rút gọn, tương tự như tỷ lệ học ở giảm độ dốc.
  • $f_{i}$ là mô hình yếu được huấn luyện để dự đoán gradient tổn thất của $F_{i}$.

Các biến thể hiện đại của tăng độ dốc cũng bao gồm đạo hàm thứ hai (Hessian) về tổn thất trong tính toán.

Cây quyết định thường được dùng làm mô hình yếu trong tăng độ dốc. Xem cây tăng cường độ dốc (quyết định).

I

đường dẫn suy luận

#df

Trong cây quyết định, trong quá trình suy luận, tuyến đường mà một ví dụ cụ thể lấy từ root sang điều kiện khác, kết thúc bằng một . Ví dụ: trong cây quyết định sau đây, mũi tên dày hơn hiển thị đường dẫn suy luận cho một ví dụ như sau các giá trị tính năng:

  • x = 7
  • y = 12
  • z = -3

Lộ trình suy luận trong hình minh hoạ sau đây đi qua ba điều kiện trước khi tiếp cận lá (Zeta).

Cây quyết định bao gồm 4 điều kiện và 5 lá.
          Điều kiện gốc là (x > 0). Vì câu trả lời là Có, nên
          đường suy luận đi từ gốc đến điều kiện tiếp theo (y > 0).
          Vì câu trả lời là Có, nên đường dẫn suy luận sẽ đi đến
          điều kiện tiếp theo (z > 0). Vì câu trả lời là Không nên đường dẫn suy luận
          di chuyển đến nút đầu cuối là lá (Zeta).

Ba mũi tên dày cho thấy đường dẫn suy luận.

mức tăng thông tin

#df

Trong rừng quyết định, sự khác biệt giữa entropy của một nút và trọng số (theo số lượng ví dụ) tổng entropy của các nút con. Entropy của một nút là entropy các ví dụ trong nút đó.

Ví dụ: hãy xem xét các giá trị entropy sau:

  • entropy của nút mẹ = 0,6
  • entropy của một nút con với 16 ví dụ có liên quan = 0,2
  • entropy của nút con khác với 24 ví dụ có liên quan = 0,1

Vì vậy, 40% ví dụ nằm trong một nút con và 60% nằm trong nút con khác. Vì thế:

  • tổng entropy có trọng số của các nút con = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Vì vậy, thông tin nhận được là:

  • độ tăng thông tin = entropy của nút mẹ - tổng entropy có trọng số của các nút con
  • độ nhận thông tin = 0,6 - 0,14 = 0,46

Hầu hết các thiết bị phân tách tìm cách tạo ra điều kiện giúp tăng tối đa lượng thông tin thu thập được.

điều kiện đặt sẵn

#df

Trong cây quyết định, một điều kiện để kiểm tra sự hiện diện của một mục trong một tập hợp các mục. Ví dụ: sau đây là một điều kiện được đặt sẵn:

  house-style in [tudor, colonial, cape]

Trong quá trình suy luận, nếu giá trị của tính năng kiểu nhà là tudor, colonial hoặc cape, thì điều kiện này sẽ được đánh giá là Có. Nếu giá trị của đối tượng kiểu ngôi nhà là giá trị khác (ví dụ: ranch), thì điều kiện này có giá trị là Không.

Các điều kiện được đặt sẵn thường dẫn đến cây quyết định hiệu quả hơn so với để kiểm tra các tính năng được mã hoá một nóng.

L

#df

Bất kỳ điểm cuối nào trong cây quyết định. Ngừng thích condition, một lá không thực hiện thử nghiệm. Đúng hơn, một chiếc lá là một dự đoán khả thi. Một chiếc lá cũng là thiết bị đầu cuối nút của đường dẫn suy luận.

Ví dụ: cây quyết định sau đây chứa ba lá:

Cây quyết định có hai điều kiện dẫn đến ba lá.

Không

nút (cây quyết định)

#df

Trong cây quyết định, bất kỳ condition [tình_trạng] hoặc .

Cây quyết định có hai điều kiện và ba lá.

điều kiện phi nhị giới

#df

Một điều kiện chứa nhiều hơn 2 kết quả có thể xảy ra. Ví dụ: điều kiện phi nhị phân sau đây có thể chứa 3 điều kiện kết quả:

Một điều kiện (number_of_legs = ?) có thể dẫn đến 3 kết quả
          kết quả. Một kết quả (number_of_legs = 8) dẫn đến một chiếc lá
          có tên là nhện. Kết quả thứ hai (number_of_legs = 4) dẫn đến
          một chiếc lá có tên là chó. Kết quả thứ ba (number_of_legs = 2) dẫn đến
          một chiếc lá có tên là chim cánh cụt.

O

điều kiện xiên

#df

Trong cây quyết định, tình trạng liên quan đến nhiều hơn một tính năng. Ví dụ: nếu chiều cao và chiều rộng là cả hai đối tượng, thì sau đây là điều kiện xiên:

  height > width

Tương phản với điều kiện căn chỉnh theo trục.

đánh giá ngay lập tức (đánh giá OOB)

#df

Một cơ chế để đánh giá chất lượng rừng quyết định bằng cách thử nghiệm từng cây quyết định so với ví dụ không được sử dụng trong khoảng thời gian huấn luyện của cây quyết định đó. Ví dụ: trong sơ đồ dưới đây, lưu ý rằng hệ thống sẽ huấn luyện từng cây quyết định vào khoảng 2/3 số ví dụ, sau đó đánh giá dựa trên 1/3 số ví dụ còn lại.

Rừng quyết định bao gồm 3 cây quyết định.
          Cây quyết định một lần huấn luyện dựa trên 2/3 số ví dụ
          rồi sử dụng một phần ba còn lại để đánh giá OOB.
          Cây quyết định thứ hai huấn luyện trên hai khu vực khác nhau
          các ví dụ so với cây quyết định trước đó, sau đó
          sử dụng tỷ lệ 1/3 để đánh giá OOB khác với
          cây quyết định trước đó.

Đánh giá ngoài túi là một cách tính toán hiệu quả và thận trọng cơ chế xác thực chéo. Trong trường hợp xác thực chéo, một mô hình sẽ được huấn luyện cho mỗi vòng xác thực chéo (ví dụ: 10 mô hình được huấn luyện bằng quy trình xác thực chéo 10 lần). Với đánh giá OOB, một mô hình duy nhất sẽ được huấn luyện. Vì hành vi bóc lột giữ lại một số dữ liệu từ mỗi cây trong quá trình huấn luyện, việc đánh giá OOB có thể sử dụng dữ liệu đó để ước tính xác thực chéo.

Điểm

tầm quan trọng của biến hoán vị

#df

Loại mức độ quan trọng có thể thay đổi đánh giá sự gia tăng của lỗi dự đoán của một mô hình sau khi xem xét các giá trị của tính năng. Tầm quan trọng của biến hoán vị là biến độc lập với mô hình chỉ số.

Điểm

khu rừng ngẫu nhiên

#df

Tập hợp cây quyết định trong trong đó mỗi cây quyết định được huấn luyện bằng một yếu tố nhiễu ngẫu nhiên cụ thể, chẳng hạn như bỏ túi.

Rừng ngẫu nhiên là một loại rừng quyết định.

gốc

#df

Nút bắt đầu (nút đầu tiên condition) trong cây quyết định. Theo quy ước, sơ đồ đặt phần gốc ở đầu cây quyết định. Ví dụ:

Cây quyết định có hai điều kiện và ba lá. Chiến lược phát hành đĩa đơn
          điều kiện bắt đầu (x > 2) là căn.

CN

lấy mẫu bằng phương pháp thay thế

#df

Phương pháp chọn các mục từ một tập hợp các mục ứng viên có cùng có thể chọn mục nhiều lần. Cụm từ "có sản phẩm thay thế" nghĩa là sau mỗi lần lựa chọn, mục đã chọn sẽ được trả về nhóm mục ứng viên. Phương pháp nghịch đảo, lấy mẫu mà không thay thế, có nghĩa là bạn chỉ có thể chọn một mục ứng viên một lần.

Ví dụ: hãy xem xét nhóm trái cây sau đây:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Giả sử hệ thống chọn ngẫu nhiên fig làm mục đầu tiên. Nếu sử dụng phương thức lấy mẫu có thay thế, thì hệ thống sẽ chọn phương pháp mục thứ hai từ tập hợp sau:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Vâng, giá trị này vẫn được đặt giống như trước, nên hệ thống có thể chọn lại fig.

Nếu sử dụng phương thức lấy mẫu mà không thay thế thì sau khi đã chọn, bạn không thể lấy mẫu đã chọn lại. Ví dụ: nếu hệ thống chọn ngẫu nhiên fig làm giá trị mẫu đầu tiên, sau đó bạn không thể chọn lại fig. Do đó, hệ thống chọn mẫu thứ hai trong tập hợp sau (đã rút gọn):

fruit = {kiwi, apple, pear, cherry, lime, mango}

co ngót

#df

Siêu tham số trong Tính năng tăng độ dốc giúp kiểm soát trang bị quá mức. Thu hẹp khi tăng độ dốc tương tự như tốc độ học tậpgiảm độ chuyển màu. Độ co lại là số thập phân có giá trị từ 0,0 đến 1,0. Giá trị co rút thấp hơn giúp giảm hiện tượng quá tải hơn giá trị co rút lớn hơn.

chia tách

#df

Trong cây quyết định, một tên khác của tình trạng.

bộ chia

#df

Trong khi huấn luyện cây quyết định, quy trình (và thuật toán) chịu trách nhiệm tìm ra kết quả tốt nhất tình trạng ở mỗi nút.

T

thử nghiệm

#df

Trong cây quyết định, một tên khác của tình trạng.

ngưỡng (cho cây quyết định)

#df

Trong điều kiện căn chỉnh theo trục, giá trị mà đang so sánh với feature. Ví dụ: 75 là ngưỡng trong điều kiện sau:

grade >= 75

V

tầm quan trọng thay đổi

#df

Một tập hợp điểm số cho biết tầm quan trọng tương đối của từng chỉ số feature đối với mô hình.

Ví dụ: hãy xem xét cây quyết định ước tính giá nhà. Giả sử cây quyết định này sử dụng đặc điểm: kích thước, độ tuổi và kiểu dáng. Nếu một tập hợp các mức độ quan trọng thay đổi 3 tính năng này sẽ được tính là {size=5,8, tuổi=2,5, style=4,7}, thì kích thước quan trọng hơn đối với cây quyết định hơn độ tuổi hoặc phong cách.

Tồn tại nhiều chỉ số tầm quan trọng khác nhau, điều này có thể cung cấp thông tin Các chuyên gia học máy về các khía cạnh khác nhau của mô hình.

W

của đám đông

#df

Ý tưởng cho rằng việc tính trung bình ý kiến hoặc ước tính của một nhóm lớn người dùng ("đám đông") thường tạo ra kết quả tốt đáng ngạc nhiên. Ví dụ: hãy xem xét một trò chơi trong đó mọi người đoán số lượng đậu thạch được đóng gói vào một lọ lớn. Mặc dù hầu hết các cá nhân dự đoán sẽ không chính xác, trung bình của tất cả các phỏng đoán là thực tế cho thấy gần sát với số lượng thực tế đậu phộng trong lọ.

Ensembles là một phần mềm tương tự như trí tuệ của đám đông. Ngay cả khi từng mô hình đưa ra những dự đoán hết sức chính xác, việc lấy trung bình dự đoán của nhiều mô hình thường tạo ra các kết quả đáng ngạc nhiên các dự đoán phù hợp. Ví dụ, mặc dù một cá nhân cây quyết định có thể đưa ra các dự đoán kém hiệu quả, rừng quyết định thường đưa ra các dự đoán rất chính xác.