Tôi có tập dữ liệu để phân loại văn bản sẵn sàng để sử dụng trong MATLAB. Mỗi tài liệu là một vectơ trong tập dữ liệu này và kích thước của vectơ này là rất cao. Trong những trường hợp này, mọi người thường thực hiện một số lựa chọn tính năng trên các vectơ giống như các vectơ mà bạn thực sự đã tìm thấy bộ công cụ WEKA. Có bất cứ điều gì như thế trong MATLAB? nếu không u có thể đề xuất và thuật toán cho tôi để làm điều đó ...? cảm ơnLựa chọn tính năng trong MATLAB
Trả lời
MATLAB (và các toolbox của nó) bao gồm một số chức năng mà đối phó với lựa chọn tính năng:
- RANDFEATURES (Bioinformatics Toolbox): Tạo nhóm ngẫu nhiên các tính năng của đạo diễn một bộ phân loại
- RANKFEATURES (Hộp công cụ tin sinh học): Xếp hạng đối tượng theo tiêu chí tách lớp học
- SEQUENTIALFS (kê Toolbox): tuần tự lựa chọn tính năng
- RELIEFF (kê Toolbox): Relief-F thuật toán
- TREEBAGGER.OOBPermutedVarDeltaError, predictorImportance (kê Toolbox): Sử dụng phương pháp quần thể (cây quyết định bagged)
Bạn cũng có thể tìm ví dụ chứng minh rằng việc sử dụng trên các tập dữ liệu thực tế:
- Identifying Significant Features and Classifying Protein Profiles
- Genetic Algorithm Search for Features in Mass Spectrometry Data
Bên cạnh đó, có tồn tại các toolbox của bên thứ ba:
Nếu không, bạn luôn có thể gọi chức năng yêu thích của bạn từ WEKA trực tiếp từ MATLAB vì nó bao gồm một JVM ...
Lựa chọn tính năng tùy thuộc vào tác vụ cụ thể bạn muốn thực hiện trên dữ liệu văn bản.
Một trong những phương pháp đơn giản và thô nhất là sử dụng Phân tích thành phần chính (PCA) để giảm kích thước của dữ liệu. Dữ liệu chiều giảm này có thể được sử dụng trực tiếp như các tính năng phân loại.
Xem hướng dẫn về sử dụng PCA ở đây:
http://matlabdatamining.blogspot.com/2010/02/principal-components-analysis.html
Dưới đây là liên kết để Matlab PCA lệnh giúp đỡ:
http://www.mathworks.com/help/toolbox/stats/princomp.html
Sử dụng các tính năng thu được, các nổi tiếng Support Vector Máy (SVM) có thể được sử dụng để phân loại.
http://www.mathworks.com/help/toolbox/bioinfo/ref/svmclassify.html http://www.autonlab.org/tutorials/svm.html
Bạn có thể xem xét sử dụng các tính năng độc lập kỹ thuật của Weiss và Kulikowski để nhanh chóng loại bỏ các biến mà rõ ràng là unimformative:
http://matlabdatamining.blogspot.com/2006/12/feature-selection-phase-1-eliminate.html
Duplicate của http://stackoverflow.com/questions/3047940/feature-selection -methods-in-matlab? Nhưng điều này dường như có một câu trả lời được chấp nhận tốt hơn. –