Tôi đang sử dụng Phân bổ Dirichlet tiềm ẩn với một kho dữ liệu tin tức từ sáu nguồn khác nhau. Tôi quan tâm đến tiến hóa chủ đề, sự xuất hiện và muốn so sánh các nguồn giống nhau và khác nhau như thế nào theo thời gian. Tôi biết rằng có một số thuật toán LDA được sửa đổi như mô hình Chủ đề tác giả, Chủ đề theo thời gian, v.v.Thực hiện các hình thức thay thế của LDA
Vấn đề của tôi là rất ít trong số các đặc điểm kỹ thuật mô hình thay thế này được triển khai ở bất kỳ định dạng chuẩn nào. Một số có sẵn trong Java, nhưng hầu hết chỉ tồn tại dưới dạng các giấy tờ hội nghị. Cách tốt nhất để thực hiện một số thuật toán này là của riêng tôi? Tôi khá thành thạo trong R và jags, và có thể vấp ngã trong Python khi được đưa ra đủ lâu. Tôi sẵn sàng viết mã, nhưng tôi không thực sự biết bắt đầu từ đâu và tôi không biết C hay Java. Tôi có thể xây dựng một mô hình trong JAGS hoặc Python chỉ có các công thức từ bản thảo? Nếu có, ai đó có thể chỉ cho tôi một ví dụ về việc này không? Cảm ơn.
Tôi có một người bạn thực sự phải làm việc này khoảng một tuần trước. Cuối cùng ông đã thực hiện phiên bản của riêng mình của mẫu Gibbs thu gọn trong Python và C. Tùy thuộc vào kích thước dữ liệu của bạn, bạn có thể không có lựa chọn nào ngoài việc sử dụng các ngôn ngữ nhanh hơn. Ở mức nào, tôi sẽ xem liệu tôi có thể nhờ người bạn này đăng bài về cách anh ta giải quyết vấn đề này không. – ely
Bạn đã xem qua các gói 'R'' topicmodels' và 'lda'? Ngoài ra còn có một chút trò chuyện về điều này trên http://stats.stackexchange.com/ – Ben
@Ben Có - Tôi đã sử dụng cả hai gói, nhưng phần thuật toán thực tế đã được biên dịch trong cả hai trường hợp không tự cho vay sự mở rộng. Các gói lda là tuyệt vời và nhanh chóng nhưng tôi cũng đang tìm kiếm một số tính linh hoạt mà không cần phải học C hoặc Java trong khi viết luận án của tôi. – Trey