Trang này chứa các thuật ngữ chú giải thuật ngữ của Rừng Quyết định. Đối với tất cả các thuật ngữ trong bảng thuật ngữ, nhấp vào đây.
A
lấy mẫu thuộc tính
Một chiến thuật để huấn luyện một khu rừng quyết định trong đó mỗi cây quyết định chỉ xem xét một tập hợp con ngẫu nhiên trong số các giá trị có thể các tính năng khi tìm hiểu về tình trạng. Thông thường, một nhóm nhỏ tính năng khác nhau được lấy mẫu cho mỗi nút. Ngược lại, khi huấn luyện cây quyết định mà không lấy mẫu thuộc tính, tất cả các tính năng có thể có đều được xem xét cho mỗi nút.
điều kiện căn chỉnh theo trục
Trong cây quyết định, một điều kiện chỉ liên quan đến một tính năng. Ví dụ: nếu khu vực là một đối tượng, thì sau đây là điều kiện căn chỉnh theo trục:
area > 200
Tương phản với điều kiện xiên.
B
hành lý
Phương thức huấn luyện một nhóm trong đó mỗi mô hình cấu thành huấn luyện trên một tập con ngẫu nhiên huấn luyện các ví dụ về được lấy mẫu có thay thế. Ví dụ: khu rừng ngẫu nhiên là tập hợp cây quyết định được huấn luyện bằng cách đóng bao.
Thuật ngữ bagging là viết tắt của bootstrap aggregating.
điều kiện nhị phân
Trong cây quyết định, một điều kiện chỉ có hai kết quả có thể xảy ra, thường là có hoặc không. Ví dụ: sau đây là điều kiện nhị phân:
temperature >= 100
Tương phản với tình trạng phi nhị giới.
C
điều kiện
Trong cây quyết định, mọi nút đánh giá một biểu thức. Ví dụ: phần sau của cây quyết định chứa hai điều kiện:
Một điều kiện còn được gọi là phân tách hoặc kiểm thử.
Điều kiện tương phản với leaf.
Xem thêm:
D
rừng quyết định
Mô hình được tạo từ nhiều cây quyết định. Nhóm rừng quyết định đưa ra dự đoán bằng cách tổng hợp các dự đoán của cây quyết định. Các loại rừng quyết định phổ biến bao gồm khu rừng ngẫu nhiên và cây được tăng cường độ dốc.
cây quyết định
Mô hình học tập có giám sát bao gồm tập hợp điều kiện và rời khỏi được sắp xếp theo hệ thống phân cấp. Ví dụ: sau đây là cây quyết định:
E
entropy
Trong lý thuyết thông tin, nội dung mô tả về khả năng dự đoán của một xác suất là bao nhiêu. Ngoài ra, entropy còn được định nghĩa là giá trị thông tin mà mỗi ví dụ có. Phân phối có entropy cao nhất có thể khi tất cả các giá trị của một biến ngẫu nhiên là khả năng tương đương.
Entropy của một tập hợp với hai giá trị có thể có là "0" và "1" (ví dụ: các nhãn trong bài toán phân loại nhị phân) có công thức như sau:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
trong đó:
- H là entropy.
- p là phân số của "1" ví dụ.
- q là phân số của "0" ví dụ. Lưu ý rằng q = (1 - p)
- nhật ký thường là nhật ký2. Trong trường hợp này, entropy là một bit.
Ví dụ: giả sử như sau:
- 100 ví dụ chứa giá trị "1"
- 300 ví dụ chứa giá trị "0"
Do đó, giá trị entropy là:
- p = 0,25
- q = 0,75
- H = (-0,25)nhật ký2(0,25) - (0,75)nhật ký2(0,75) = 0,81 bit cho mỗi ví dụ
Một tập hợp hoàn toàn cân bằng (ví dụ: 200 "0"s và 200 "1"s) sẽ có entropy là 1,0 bit cho mỗi ví dụ. Khi tập hợp trở nên nhiều hơn không cân bằng thì entropy của nó dịch chuyển về 0.0.
Trong cây quyết định, entropy giúp lập công thức thu thập thông tin để giúp bộ chia chọn điều kiện trong quá trình phát triển cây quyết định phân loại.
So sánh entropy với:
- tạp chất gini
- Hàm mất cross-entropy
Entropy thường được gọi là entropy Shannon.
F
tầm quan trọng của tính năng
Từ đồng nghĩa với tầm quan trọng thay đổi.
G
tạp chất gini
Một chỉ số tương tự như entropy. Bộ chia đôi sử dụng các giá trị thu được từ độ không tinh khiết gini hoặc entropy để kết hợp điều kiện để phân loại cây quyết định. Mức nhận thông tin bắt nguồn từ entropy. Không có thuật ngữ tương đương được chấp nhận trên toàn cầu cho chỉ số bắt nguồn từ tạp chất gini; tuy nhiên, chỉ số chưa đặt tên này cũng quan trọng như kiếm được thông tin.
Tạp chất Gini còn được gọi là chỉ số gini hoặc đơn giản là gini.
Cây tăng độ dốc (quyết định) (GBT)
Một loại rừng quyết định trong đó:
- Chương trình huấn luyện dựa vào tăng độ dốc.
- Mô hình yếu là cây quyết định.
tăng độ dốc
Một thuật toán huấn luyện trong đó các mô hình yếu được huấn luyện lặp lại cải thiện chất lượng (giảm tổn thất) của mô hình mạnh. Ví dụ: một mô hình yếu có thể là mô hình cây quyết định tuyến tính hoặc nhỏ. Mô hình mạnh sẽ trở thành tổng hợp của tất cả mô hình yếu được huấn luyện trước đó.
Trong hình thức tăng độ dốc đơn giản nhất, ở mỗi lần lặp lại, một mô hình yếu được huấn luyện để dự đoán độ dốc của tổn thất trong mô hình mạnh. Sau đó, đầu ra của mô hình mạnh được cập nhật bằng cách trừ đi độ dốc dự đoán, tương tự như hiệu ứng giảm độ dốc.
trong đó:
- $F_{0}$ là mô hình khởi đầu mạnh mẽ.
- $F_{i+1}$ là mô hình mạnh mẽ tiếp theo.
- $F_{i}$ là mô hình mạnh hiện tại.
- $\xi$ là một giá trị nằm trong khoảng từ 0.0 đến 1.0 có tên là rút gọn, tương tự như tỷ lệ học ở giảm độ dốc.
- $f_{i}$ là mô hình yếu được huấn luyện để dự đoán gradient tổn thất của $F_{i}$.
Các biến thể hiện đại của tăng độ dốc cũng bao gồm đạo hàm thứ hai (Hessian) về tổn thất trong tính toán.
Cây quyết định thường được dùng làm mô hình yếu trong tăng độ dốc. Xem cây tăng cường độ dốc (quyết định).
I
đường dẫn suy luận
Trong cây quyết định, trong quá trình suy luận, tuyến đường mà một ví dụ cụ thể lấy từ root sang điều kiện khác, kết thúc bằng một lá. Ví dụ: trong cây quyết định sau đây, mũi tên dày hơn hiển thị đường dẫn suy luận cho một ví dụ như sau các giá trị tính năng:
- x = 7
- y = 12
- z = -3
Lộ trình suy luận trong hình minh hoạ sau đây đi qua ba
điều kiện trước khi tiếp cận lá (Zeta
).
Ba mũi tên dày cho thấy đường dẫn suy luận.
mức tăng thông tin
Trong rừng quyết định, sự khác biệt giữa entropy của một nút và trọng số (theo số lượng ví dụ) tổng entropy của các nút con. Entropy của một nút là entropy các ví dụ trong nút đó.
Ví dụ: hãy xem xét các giá trị entropy sau:
- entropy của nút mẹ = 0,6
- entropy của một nút con với 16 ví dụ có liên quan = 0,2
- entropy của nút con khác với 24 ví dụ có liên quan = 0,1
Vì vậy, 40% ví dụ nằm trong một nút con và 60% nằm trong nút con khác. Vì thế:
- tổng entropy có trọng số của các nút con = (0,4 * 0,2) + (0,6 * 0,1) = 0,14
Vì vậy, thông tin nhận được là:
- độ tăng thông tin = entropy của nút mẹ - tổng entropy có trọng số của các nút con
- độ nhận thông tin = 0,6 - 0,14 = 0,46
Hầu hết các thiết bị phân tách tìm cách tạo ra điều kiện giúp tăng tối đa lượng thông tin thu thập được.
điều kiện đặt sẵn
Trong cây quyết định, một điều kiện để kiểm tra sự hiện diện của một mục trong một tập hợp các mục. Ví dụ: sau đây là một điều kiện được đặt sẵn:
house-style in [tudor, colonial, cape]
Trong quá trình suy luận, nếu giá trị của tính năng kiểu nhà
là tudor
, colonial
hoặc cape
, thì điều kiện này sẽ được đánh giá là Có. Nếu
giá trị của đối tượng kiểu ngôi nhà là giá trị khác (ví dụ: ranch
),
thì điều kiện này có giá trị là Không.
Các điều kiện được đặt sẵn thường dẫn đến cây quyết định hiệu quả hơn so với để kiểm tra các tính năng được mã hoá một nóng.
L
lá
Bất kỳ điểm cuối nào trong cây quyết định. Ngừng thích condition, một lá không thực hiện thử nghiệm. Đúng hơn, một chiếc lá là một dự đoán khả thi. Một chiếc lá cũng là thiết bị đầu cuối nút của đường dẫn suy luận.
Ví dụ: cây quyết định sau đây chứa ba lá:
Không
nút (cây quyết định)
Trong cây quyết định, bất kỳ condition [tình_trạng] hoặc lá.
điều kiện phi nhị giới
Một điều kiện chứa nhiều hơn 2 kết quả có thể xảy ra. Ví dụ: điều kiện phi nhị phân sau đây có thể chứa 3 điều kiện kết quả:
O
điều kiện xiên
Trong cây quyết định, tình trạng liên quan đến nhiều hơn một tính năng. Ví dụ: nếu chiều cao và chiều rộng là cả hai đối tượng, thì sau đây là điều kiện xiên:
height > width
Tương phản với điều kiện căn chỉnh theo trục.
đánh giá ngay lập tức (đánh giá OOB)
Một cơ chế để đánh giá chất lượng rừng quyết định bằng cách thử nghiệm từng cây quyết định so với ví dụ không được sử dụng trong khoảng thời gian huấn luyện của cây quyết định đó. Ví dụ: trong sơ đồ dưới đây, lưu ý rằng hệ thống sẽ huấn luyện từng cây quyết định vào khoảng 2/3 số ví dụ, sau đó đánh giá dựa trên 1/3 số ví dụ còn lại.
Đánh giá ngoài túi là một cách tính toán hiệu quả và thận trọng cơ chế xác thực chéo. Trong trường hợp xác thực chéo, một mô hình sẽ được huấn luyện cho mỗi vòng xác thực chéo (ví dụ: 10 mô hình được huấn luyện bằng quy trình xác thực chéo 10 lần). Với đánh giá OOB, một mô hình duy nhất sẽ được huấn luyện. Vì hành vi bóc lột giữ lại một số dữ liệu từ mỗi cây trong quá trình huấn luyện, việc đánh giá OOB có thể sử dụng dữ liệu đó để ước tính xác thực chéo.
Điểm
tầm quan trọng của biến hoán vị
Loại mức độ quan trọng có thể thay đổi đánh giá sự gia tăng của lỗi dự đoán của một mô hình sau khi xem xét các giá trị của tính năng. Tầm quan trọng của biến hoán vị là biến độc lập với mô hình chỉ số.
Điểm
khu rừng ngẫu nhiên
Tập hợp cây quyết định trong trong đó mỗi cây quyết định được huấn luyện bằng một yếu tố nhiễu ngẫu nhiên cụ thể, chẳng hạn như bỏ túi.
Rừng ngẫu nhiên là một loại rừng quyết định.
gốc
Nút bắt đầu (nút đầu tiên condition) trong cây quyết định. Theo quy ước, sơ đồ đặt phần gốc ở đầu cây quyết định. Ví dụ:
CN
lấy mẫu bằng phương pháp thay thế
Phương pháp chọn các mục từ một tập hợp các mục ứng viên có cùng có thể chọn mục nhiều lần. Cụm từ "có sản phẩm thay thế" nghĩa là sau mỗi lần lựa chọn, mục đã chọn sẽ được trả về nhóm mục ứng viên. Phương pháp nghịch đảo, lấy mẫu mà không thay thế, có nghĩa là bạn chỉ có thể chọn một mục ứng viên một lần.
Ví dụ: hãy xem xét nhóm trái cây sau đây:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Giả sử hệ thống chọn ngẫu nhiên fig
làm mục đầu tiên.
Nếu sử dụng phương thức lấy mẫu có thay thế, thì hệ thống sẽ chọn phương pháp
mục thứ hai từ tập hợp sau:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Vâng, giá trị này vẫn được đặt giống như trước, nên hệ thống có thể
chọn lại fig
.
Nếu sử dụng phương thức lấy mẫu mà không thay thế thì sau khi đã chọn, bạn không thể lấy mẫu
đã chọn lại. Ví dụ: nếu hệ thống chọn ngẫu nhiên fig
làm giá trị
mẫu đầu tiên, sau đó bạn không thể chọn lại fig
. Do đó, hệ thống
chọn mẫu thứ hai trong tập hợp sau (đã rút gọn):
fruit = {kiwi, apple, pear, cherry, lime, mango}
co ngót
Siêu tham số trong Tính năng tăng độ dốc giúp kiểm soát trang bị quá mức. Thu hẹp khi tăng độ dốc tương tự như tốc độ học tập ở giảm độ chuyển màu. Độ co lại là số thập phân có giá trị từ 0,0 đến 1,0. Giá trị co rút thấp hơn giúp giảm hiện tượng quá tải hơn giá trị co rút lớn hơn.
chia tách
Trong cây quyết định, một tên khác của tình trạng.
bộ chia
Trong khi huấn luyện cây quyết định, quy trình (và thuật toán) chịu trách nhiệm tìm ra kết quả tốt nhất tình trạng ở mỗi nút.
T
thử nghiệm
Trong cây quyết định, một tên khác của tình trạng.
ngưỡng (cho cây quyết định)
Trong điều kiện căn chỉnh theo trục, giá trị mà đang so sánh với feature. Ví dụ: 75 là ngưỡng trong điều kiện sau:
grade >= 75
V
tầm quan trọng thay đổi
Một tập hợp điểm số cho biết tầm quan trọng tương đối của từng chỉ số feature đối với mô hình.
Ví dụ: hãy xem xét cây quyết định ước tính giá nhà. Giả sử cây quyết định này sử dụng đặc điểm: kích thước, độ tuổi và kiểu dáng. Nếu một tập hợp các mức độ quan trọng thay đổi 3 tính năng này sẽ được tính là {size=5,8, tuổi=2,5, style=4,7}, thì kích thước quan trọng hơn đối với cây quyết định hơn độ tuổi hoặc phong cách.
Tồn tại nhiều chỉ số tầm quan trọng khác nhau, điều này có thể cung cấp thông tin Các chuyên gia học máy về các khía cạnh khác nhau của mô hình.
W
của đám đông
Ý tưởng cho rằng việc tính trung bình ý kiến hoặc ước tính của một nhóm lớn người dùng ("đám đông") thường tạo ra kết quả tốt đáng ngạc nhiên. Ví dụ: hãy xem xét một trò chơi trong đó mọi người đoán số lượng đậu thạch được đóng gói vào một lọ lớn. Mặc dù hầu hết các cá nhân dự đoán sẽ không chính xác, trung bình của tất cả các phỏng đoán là thực tế cho thấy gần sát với số lượng thực tế đậu phộng trong lọ.
Ensembles là một phần mềm tương tự như trí tuệ của đám đông. Ngay cả khi từng mô hình đưa ra những dự đoán hết sức chính xác, việc lấy trung bình dự đoán của nhiều mô hình thường tạo ra các kết quả đáng ngạc nhiên các dự đoán phù hợp. Ví dụ, mặc dù một cá nhân cây quyết định có thể đưa ra các dự đoán kém hiệu quả, rừng quyết định thường đưa ra các dự đoán rất chính xác.