Rất nhiều đơn biến quyết định triển khai cây học (C4.5 vv) vẫn tồn tại, nhưng không thực sự một ai đó biết đa biến quyết định thuật toán cây học?đa biến Quyết định Tree học
Trả lời
Bennett and Blue's A Support Vector Machine Approach to Decision Trees chia nhỏ đa lượng bằng cách sử dụng SVM được nhúng cho mỗi quyết định trong cây.
Tương tự, trong Multicategory classification via discrete support vector machines (2009), Orsenigo và Vercellis nhúng một biến thể danh mục đa dạng của các máy vectơ hỗ trợ rời rạc (DSVM) vào các nút cây quyết định.
Đây là những giấy tờ thú vị mà tôi không biết trước đây! Dù sao đi nữa, họ không cung cấp bất kỳ triển khai readyatiton sẵn sàng nào để đánh giá các phương pháp này. Nhưng tôi đánh dấu câu hỏi này là câu trả lời vì các liên kết giấy! Liên kết để triển khai vẫn được hoan nghênh! – Sney
Thuật toán HÀNG cho các quyết định có thể được thực hiện thành Đa biến. CART là một thuật toán tách nhị phân trái ngược với C4.5 tạo ra một nút cho mỗi giá trị duy nhất cho các giá trị rời rạc. Họ sử dụng cùng một thuật toán cho MARS như đối với các giá trị còn thiếu.
Để tạo cây đa biến, bạn tính toán phân chia tốt nhất tại mỗi nút, nhưng thay vì bỏ đi tất cả các phân tách không tốt nhất bạn lấy một phần (có thể là tất cả), sau đó đánh giá tất cả các thuộc tính của dữ liệu mỗi phân tách tiềm năng tại nút đó được tính theo thứ tự. Vì vậy, sự phân chia đầu tiên (mà dẫn đến tăng tối đa) là trọng số tại 1. Sau đó, sự chia rẽ cao nhất tiếp theo được trọng số bởi một số phần < 1.0, và như vậy. Trường hợp trọng số giảm khi mức tăng của phân chia đó giảm. Con số đó sau đó được so sánh với cùng một tính toán của các nút trong nút bên trái nếu nó ở trên con số đó đi sang trái. Nếu không thì đi đúng. Đó là mô tả khá thô, nhưng đó là sự phân chia đa biến thể cho cây quyết định.
Có, có một số, chẳng hạn như OC1, nhưng chúng ít phổ biến hơn so với những phân tách đơn lẻ. Việc thêm các phân tách đa biến sẽ mở rộng không gian tìm kiếm rất nhiều. Như một loại thỏa hiệp, tôi đã thấy một số người học logic mà chỉ đơn giản là tính toán các hàm phân biệt tuyến tính và thêm chúng vào danh sách biến ứng cử viên.
Bạn có thể giải thích thêm câu hỏi của mình không? Theo như tôi hiểu thuật ngữ, C4.5 là một thuật toán đa biến, theo nghĩa là phải mất các vectơ có kích thước tùy ý như đầu vào. – Stompchicken
Có, C4.5 lấy các vectơ có kích thước tùy ý như đầu vào. Nhưng tôi có nghĩa là univariate/multivariate liên quan đến cơ chế tách. Phân chia đơn biến là trục-trực giao và đa biến có nghĩa là chia tách bởi một siêu đối xứng tùy ý. – Sney
Điều đó rõ ràng hơn nhiều, nhưng tôi không có câu trả lời cho bạn :) Tốt nhất tôi có thể làm là gợi ý rằng một tập hợp các bộ phân loại tuyến tính (tôi đoán) có thể tương đương với cây quyết định đa biến. – Stompchicken