Tôi tương đối mới học máy và đang cố gắng đặt cảm ứng cây quyết định vào kế hoạch lớn của sự vật. Cây quyết định (ví dụ, những cây được xây dựng với C4.5 hoặc ID3) được coi là tham số hoặc không có tham số? Tôi đoán rằng họ có thể thực sự tham số vì điểm phân chia quyết định cho giá trị thực có thể được xác định từ một số phân phối các giá trị đối tượng, ví dụ như giá trị trung bình. Tuy nhiên, họ không chia sẻ các đặc tính không phải là đối tượng của việc phải giữ tất cả các dữ liệu huấn luyện ban đầu (giống như một dữ liệu sẽ làm với kNN).Cây quyết định (ví dụ: C4.5) có được coi là học tập không theo quy ước không?
6
A
Trả lời
9
Thuật ngữ "tham số" tham chiếu đến các tham số xác định phân phối dữ liệu. Vì các cây quyết định như C4.5 không đưa ra giả thiết về phân phối dữ liệu, chúng không phải là nonparametric. Phân loại khả năng thích ứng tối đa Gaussian (GMLC) là tham số vì nó giả định dữ liệu theo một phân bố Gauss đa biến (các lớp được đặc trưng bởi các phương tiện và các hiệp phương sai). Liên quan đến câu cuối cùng của bạn, giữ lại dữ liệu đào tạo (ví dụ: học tập dựa trên cá thể) không phải là phổ biến đối với tất cả các trình phân loại nonparametric. Ví dụ, các mạng thần kinh nhân tạo (ANN) được coi là nonparametric nhưng chúng không giữ lại dữ liệu huấn luyện.
Điều gì về ý tưởng về điểm chia tách của các nút quyết định cho các giá trị thực được xác định thông qua một số phân phối? – stackoverflowuser2010
Không cần phân phối. Bạn có thể sắp xếp tất cả các phiên bản của bạn bằng giá trị của thuộc tính liên tục của bạn, sau đó phân chia giữa hai giá trị tối đa hóa mức tăng thông tin. Không có giả định nào được thực hiện liên quan đến việc phân phối dữ liệu (tức là, không có giả định rằng dữ liệu được phân phối bình thường hoặc được phân phối khác). – bogatron
Nhưng giả sử rằng việc triển khai cụ thể cây quyết định sử dụng phân phối để thực hiện chia tách. Sau đó, nó sẽ làm cho nó tham số thực hiện này, phải không? – stackoverflowuser2010