Bảng thuật ngữ về công nghệ máy học: Rừng quyết định

Trang này chứa các thuật ngữ trong từ điển về Rừng quyết định. Để xem tất cả các thuật ngữ trong từ điển, hãy nhấp vào đây.

A

lấy mẫu thuộc tính

#df

Một chiến thuật để huấn luyện rừng quyết định, trong đó mỗi cây quyết định chỉ xem xét một tập hợp con ngẫu nhiên của các tính năng có thể có khi học điều kiện. Nhìn chung, một tập hợp con khác nhau của các tính năng được lấy mẫu cho mỗi nút. Ngược lại, khi huấn luyện cây quyết định mà không lấy mẫu thuộc tính, tất cả các đặc điểm có thể có sẽ được xem xét cho mỗi nút.

điều kiện căn chỉnh theo trục

#df

Trong cây quyết định, điều kiện chỉ liên quan đến một tính năng. Ví dụ: nếu area là một tính năng, thì sau đây là điều kiện căn chỉnh theo trục:

area > 200

Tương phản với điều kiện xiên.

B

đóng gói

#df

Một phương thức để huấn luyện một bộ mô hình, trong đó mỗi mô hình thành phần được huấn luyện trên một tập hợp con ngẫu nhiên của các ví dụ huấn luyện được lấy mẫu có thay thế. Ví dụ: Rừng ngẫu nhiên là một tập hợp các cây quyết định được huấn luyện bằng phương pháp gộp dữ liệu.

Thuật ngữ bagging là viết tắt của bootstrap aggregating.

Hãy xem phần Rừng ngẫu nhiên trong khoá học Rừng quyết định để biết thêm thông tin.

điều kiện nhị phân

#df

Trong cây quyết định, điều kiện chỉ có thể có hai kết quả, thường là hoặc không. Ví dụ: sau đây là một điều kiện nhị phân:

temperature >= 100

Tương phản với điều kiện không nhị phân.

Hãy xem phần Các loại điều kiện trong khoá học Rừng quyết định để biết thêm thông tin.

C

điều kiện

#df

Trong cây quyết định, mọi nút đều đánh giá một biểu thức. Ví dụ: phần sau của cây quyết định chứa hai điều kiện:

Cây quyết định bao gồm hai điều kiện: (x > 0) và (y > 0).

Điều kiện còn được gọi là phần phân tách hoặc kiểm thử.

Điều kiện tương phản với .

Xem thêm:

Hãy xem phần Các loại điều kiện trong khoá học Rừng quyết định để biết thêm thông tin.

D

rừng quyết định

#df

Mô hình được tạo từ nhiều cây quyết định. Rừng quyết định đưa ra dự đoán bằng cách tổng hợp các dự đoán của cây quyết định. Các loại rừng quyết định phổ biến bao gồm rừng ngẫu nhiênrừng tăng cường theo độ dốc.

Hãy xem phần Rừng quyết định trong khoá học Rừng quyết định để biết thêm thông tin.

cây quyết định

#df

Mô hình học có giám sát bao gồm một tập hợp điều kiện được sắp xếp theo hệ phân cấp. Ví dụ: sau đây là một cây quyết định:

Cây quyết định bao gồm 4 điều kiện được sắp xếp theo thứ bậc, dẫn đến 5 lá.

E

entropy

#df

Trong thuyết thông tin, entropy là một mô tả về mức độ khó dự đoán của một quá trình phân phối xác suất. Ngoài ra, entropy cũng được xác định là lượng thông tin mà mỗi ví dụ chứa. Một phân phối có entropi cao nhất có thể khi tất cả các giá trị của một biến ngẫu nhiên đều có khả năng như nhau.

Entanpi của một tập hợp có hai giá trị có thể là "0" và "1" (ví dụ: các nhãn trong bài toán phân loại nhị phân) có công thức sau:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

trong đó:

  • H là entropy.
  • p là phân số của các ví dụ "1".
  • q là phân số của các ví dụ "0". Lưu ý rằng q = (1 - p)
  • log thường là log2. Trong trường hợp này, đơn vị entropi là một bit.

Ví dụ: giả sử những điều sau:

  • 100 ví dụ chứa giá trị "1"
  • 300 ví dụ chứa giá trị "0"

Do đó, giá trị entropy là:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit/ví dụ

Một tập hợp được cân bằng hoàn hảo (ví dụ: 200 "0" và 200 "1") sẽ có entropi là 1, 0 bit cho mỗi ví dụ. Khi một tập hợp trở nên không cân bằng hơn, entropy của tập hợp đó sẽ chuyển về 0.0.

Trong cây quyết định, entropy giúp xây dựng mức tăng thông tin để giúp trình phân tách chọn các điều kiện trong quá trình phát triển của cây quyết định phân loại.

So sánh entropy với:

Entanpi thường được gọi là entanpi của Shannon.

Hãy xem phần Bộ phân tách chính xác để phân loại nhị phân bằng các tính năng số trong khoá học Rừng quyết định để biết thêm thông tin.

F

mức độ quan trọng của tính năng

#df

Đồng nghĩa với tầm quan trọng của biến.

G

tạp chất gini

#df

Một chỉ số tương tự như entropy. Trình phân tách sử dụng các giá trị bắt nguồn từ độ không tinh khiết gini hoặc entropy để tạo điều kiện cho việc phân loại cây quyết định. Mức tăng thông tin bắt nguồn từ entropy. Không có thuật ngữ tương đương nào được chấp nhận rộng rãi cho chỉ số bắt nguồn từ độ không tinh khiết gini; tuy nhiên, chỉ số chưa được đặt tên này cũng quan trọng như lợi tức thông tin.

Độ không tinh khiết của Gini còn được gọi là chỉ số Gini hoặc đơn giản là Gini.

cây tăng cường độ dốc (quyết định) (GBT)

#df

Một loại rừng quyết định trong đó:

Hãy xem phần Cây quyết định tăng cường theo độ dốc trong khoá học về Cây quyết định để biết thêm thông tin.

tăng cường độ dốc

#df

Một thuật toán huấn luyện trong đó các mô hình yếu được huấn luyện để cải thiện chất lượng (giảm tổn thất) của một mô hình mạnh theo cách lặp lại. Ví dụ: mô hình yếu có thể là mô hình cây quyết định tuyến tính hoặc nhỏ. Mô hình mạnh trở thành tổng của tất cả các mô hình yếu đã được huấn luyện trước đó.

Trong hình thức đơn giản nhất của phương pháp tăng cường độ dốc, tại mỗi lần lặp lại, một mô hình yếu sẽ được huấn luyện để dự đoán độ dốc tổn thất của mô hình mạnh. Sau đó, kết quả của mô hình mạnh được cập nhật bằng cách trừ độ dốc dự đoán, tương tự như độ dốc giảm.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

trong đó:

  • $F_{0}$ là mô hình mạnh ban đầu.
  • $F_{i+1}$ là mô hình mạnh tiếp theo.
  • $F_{i}$ là mô hình mạnh hiện tại.
  • $\xi$ là một giá trị nằm trong khoảng từ 0 đến 1 được gọi là hệ số thu hẹp, tương tự như tốc độ học trong phương pháp hạ gradient.
  • $f_{i}$ là mô hình yếu được huấn luyện để dự đoán độ dốc tổn thất của $F_{i}$.

Các biến thể hiện đại của phương pháp tăng cường độ dốc cũng bao gồm đạo hàm thứ hai (Hessian) của tổn thất trong quá trình tính toán.

Cây quyết định thường được dùng làm mô hình yếu trong kỹ thuật tăng cường độ dốc. Xem cây tăng cường độ dốc (quyết định).

I

đường dẫn suy luận

#df

Trong cây quyết định, trong quá trình xét suy, tuyến đường của một ví dụ cụ thể sẽ đi từ gốc đến các điều kiện khác, kết thúc bằng một . Ví dụ: trong cây quyết định sau đây, các mũi tên dày hơn cho thấy đường dẫn suy luận cho một ví dụ có các giá trị đặc điểm sau:

  • x = 7
  • y = 12
  • z = -3

Đường dẫn suy luận trong hình minh hoạ sau đây đi qua ba điều kiện trước khi đến lá (Zeta).

Cây quyết định bao gồm 4 điều kiện và 5 lá.
          Điều kiện gốc là (x > 0). Vì câu trả lời là Có, nên đường dẫn suy luận sẽ di chuyển từ gốc đến điều kiện tiếp theo (y > 0).
          Vì câu trả lời là Có, nên đường dẫn suy luận sẽ chuyển đến điều kiện tiếp theo (z > 0). Vì câu trả lời là Không, nên đường dẫn suy luận sẽ chuyển đến nút đầu cuối, tức là lá (Zeta).

Ba mũi tên dày cho thấy đường dẫn suy luận.

Xem phần Cây quyết định trong khoá học Rừng quyết định để biết thêm thông tin.

thông tin thu được

#df

Trong rừng quyết định, chênh lệch giữa entropy của một nút và tổng trọng số (theo số lượng ví dụ) của entropy của các nút con. Độ hỗn loạn của một nút là độ hỗn loạn của các ví dụ trong nút đó.

Ví dụ: hãy xem xét các giá trị entropy sau:

  • entropy của nút mẹ = 0,6
  • entropy của một nút con có 16 ví dụ có liên quan = 0,2
  • entropy của một nút con khác có 24 ví dụ có liên quan = 0,1

Vì vậy, 40% ví dụ nằm trong một nút con và 60% nằm trong nút con còn lại. Vì thế:

  • tổng entropy có trọng số của các nút con = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Do đó, thông tin thu được là:

  • thông tin thu được = entropy của nút mẹ – tổng entropy có trọng số của các nút con
  • thông tin thu được = 0,6 – 0,14 = 0,46

Hầu hết trình phân tách đều tìm cách tạo điều kiện giúp tối đa hoá lợi ích thông tin.

điều kiện trong tập hợp

#df

Trong cây quyết định, điều kiện kiểm tra sự hiện diện của một mục trong một tập hợp các mục. Ví dụ: sau đây là một điều kiện trong tập hợp:

  house-style in [tudor, colonial, cape]

Trong quá trình suy luận, nếu giá trị của tính năng kiểu nhà là tudor hoặc colonial hoặc cape, thì điều kiện này sẽ đánh giá là Có. Nếu giá trị của tính năng kiểu nhà là một giá trị khác (ví dụ: ranch), thì điều kiện này sẽ đánh giá là Không.

Các điều kiện trong tập hợp thường dẫn đến cây quyết định hiệu quả hơn so với các điều kiện kiểm thử tính năng được mã hoá một nóng.

L

#df

Mọi điểm cuối trong cây quyết định. Không giống như điều kiện, lá không thực hiện kiểm thử. Thay vào đó, một lá là một dự đoán có thể xảy ra. Lá cũng là nút đầu cuối của một đường dẫn suy luận.

Ví dụ: Cây quyết định sau đây chứa 3 lá:

Cây quyết định có hai điều kiện dẫn đến ba lá.

Không

nút (cây quyết định)

#df

Trong cây quyết định, mọi điều kiện hoặc .

Cây quyết định có hai điều kiện và ba lá.

điều kiện phi nhị phân

#df

Một điều kiện chứa nhiều hơn hai kết quả có thể xảy ra. Ví dụ: điều kiện không nhị phân sau đây chứa ba kết quả có thể xảy ra:

Một điều kiện (number_of_legs = ?) dẫn đến 3 kết quả có thể xảy ra. Một kết quả (number_of_legs = 8) dẫn đến một lá có tên là spider (mối). Kết quả thứ hai (number_of_legs = 4) dẫn đến một lá có tên là dog. Kết quả thứ ba (number_of_legs = 2) dẫn đến một lá có tên penguin.

O

điều kiện xiên

#df

Trong cây quyết định, một điều kiện liên quan đến nhiều tính năng. Ví dụ: nếu chiều cao và chiều rộng đều là các đặc điểm, thì sau đây là một điều kiện xiên:

  height > width

Tương phản với điều kiện căn chỉnh theo trục.

đánh giá ngoài phạm vi (đánh giá OOB)

#df

Cơ chế đánh giá chất lượng của rừng quyết định bằng cách kiểm thử từng cây quyết định dựa trên ví dụ không được sử dụng trong quá trình huấn luyện của cây quyết định đó. Ví dụ: trong sơ đồ sau, hãy lưu ý rằng hệ thống huấn luyện từng cây quyết định trên khoảng 2/3 số ví dụ, sau đó đánh giá dựa trên 1/3 số ví dụ còn lại.

Một rừng quyết định bao gồm ba cây quyết định.
          Một cây quyết định được huấn luyện trên hai phần ba số ví dụ, sau đó sử dụng một phần ba còn lại để đánh giá OOB.
          Cây quyết định thứ hai huấn luyện trên hai phần ba ví dụ khác với cây quyết định trước đó, sau đó sử dụng một phần ba khác để đánh giá OOB so với cây quyết định trước đó.

Phương pháp đánh giá ngoài túi là một phương pháp ước tính hiệu quả và bảo thủ về mặt tính toán của cơ chế xác thực chéo. Trong quy trình xác thực chéo, một mô hình được huấn luyện cho mỗi vòng xác thực chéo (ví dụ: 10 mô hình được huấn luyện trong quy trình xác thực chéo 10 lần). Với phương pháp đánh giá bên ngoài phạm vi, một mô hình duy nhất sẽ được huấn luyện. Vì bagging giữ lại một số dữ liệu từ mỗi cây trong quá trình huấn luyện, nên việc đánh giá OOB có thể sử dụng dữ liệu đó để ước chừng quy trình xác thực chéo.

Điểm

mức độ quan trọng của biến hoán vị

#df

Một loại tầm quan trọng của biến đánh giá mức tăng của lỗi dự đoán của một mô hình sau khi hoán vị các giá trị của đặc điểm. Tầm quan trọng của biến hoán vị là một chỉ số không phụ thuộc vào mô hình.

Điểm

rừng ngẫu nhiên

#df

Một bộ dữ liệu tổng hợp của cây quyết định, trong đó mỗi cây quyết định được huấn luyện bằng một nhiễu ngẫu nhiên cụ thể, chẳng hạn như bagging.

Rừng ngẫu nhiên là một loại rừng quyết định.

gốc

#df

Điểm bắt đầu (điều kiện đầu tiên) trong cây quyết định. Theo quy ước, sơ đồ đặt phần gốc ở đầu cây quyết định. Ví dụ:

Cây quyết định có hai điều kiện và ba lá. Điều kiện bắt đầu (x > 2) là gốc.

S

lấy mẫu có thay thế

#df

Một phương thức chọn các mục từ một tập hợp các mục đề xuất, trong đó có thể chọn cùng một mục nhiều lần. Cụm từ "có thay thế" có nghĩa là sau mỗi lần chọn, mục đã chọn sẽ được trả về nhóm các mục đề xuất. Phương thức nghịch đảo, lấy mẫu không thay thế, nghĩa là bạn chỉ có thể chọn một mục đề xuất một lần.

Ví dụ: hãy xem xét tập hợp các loại quả sau:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Giả sử hệ thống chọn ngẫu nhiên fig làm mục đầu tiên. Nếu sử dụng phương pháp lấy mẫu có thay thế, thì hệ thống sẽ chọn mục thứ hai trong tập hợp sau:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Có, đó là cùng một tập hợp như trước, vì vậy, hệ thống có thể chọn lại fig.

Nếu sử dụng phương pháp lấy mẫu không thay thế, sau khi chọn, bạn không thể chọn lại một mẫu. Ví dụ: nếu hệ thống chọn ngẫu nhiên fig làm mẫu đầu tiên, thì bạn không thể chọn lại fig. Do đó, hệ thống sẽ chọn mẫu thứ hai từ tập hợp (rút gọn) sau:

fruit = {kiwi, apple, pear, cherry, lime, mango}

co rút

#df

Một tham số siêu dữ liệu trong tăng cường độ dốc giúp kiểm soát hiệu ứng phù hợp quá mức. Sự co rút trong phương pháp tăng cường độ dốc tương tự như tốc độ học trong phương pháp giảm độ dốc. Độ co là một giá trị thập phân nằm trong khoảng từ 0,0 đến 1,0. Giá trị co rút thấp hơn sẽ làm giảm tình trạng phù hợp quá mức hơn so với giá trị co rút lớn hơn.

tách

#df

Trong cây quyết định, tên khác của điều kiện.

bộ chia

#df

Trong khi huấn luyện cây quyết định, quy trình (và thuật toán) chịu trách nhiệm tìm điều kiện tốt nhất tại mỗi nút.

T

thử nghiệm

#df

Trong cây quyết định, tên khác của điều kiện.

ngưỡng (đối với cây quyết định)

#df

Trong điều kiện căn chỉnh theo trục, giá trị mà một tính năng đang được so sánh. Ví dụ: 75 là giá trị ngưỡng trong điều kiện sau:

grade >= 75

V

mức độ quan trọng của biến

#df

Một tập hợp điểm số cho biết mức độ quan trọng tương đối của từng tính năng đối với mô hình.

Ví dụ: hãy xem xét một cây quyết định giúp ước tính giá nhà. Giả sử cây quyết định này sử dụng 3 tính năng: kích thước, độ tuổi và kiểu dáng. Nếu một tập hợp các mức độ quan trọng của biến cho 3 đặc điểm được tính là {size=5.8, age=2.5, style=4.7}, thì kích thước sẽ quan trọng hơn đối với cây quyết định so với độ tuổi hoặc kiểu dáng.

Có nhiều chỉ số về tầm quan trọng của biến, có thể cung cấp thông tin cho các chuyên gia về học máy về nhiều khía cạnh của mô hình.

W

trí tuệ của đám đông

#df

Ý tưởng về việc lấy trung bình các ý kiến hoặc ước tính của một nhóm lớn người ("đám đông") thường mang lại kết quả tốt đến bất ngờ. Ví dụ: hãy xem xét một trò chơi mà mọi người đoán số lượng đậu phộng được đóng gói vào một lọ lớn. Mặc dù hầu hết các dự đoán riêng lẻ sẽ không chính xác, nhưng trung bình của tất cả các dự đoán đã được chứng minh bằng kinh nghiệm là gần với số lượng đậu phộng thực tế trong lọ.

Ensembles là một phần mềm tương tự như trí tuệ của đám đông. Ngay cả khi các mô hình riêng lẻ đưa ra dự đoán không chính xác, việc lấy trung bình các dự đoán của nhiều mô hình thường tạo ra kết quả dự đoán tốt một cách đáng ngạc nhiên. Ví dụ: mặc dù một cây quyết định riêng lẻ có thể đưa ra dự đoán không chính xác, nhưng rừng quyết định thường đưa ra dự đoán rất chính xác.