Tôi đang thực hiện một dự án trong phân loại tin tức. Về cơ bản, hệ thống sẽ phân loại bài viết tin tức dựa trên chủ đề được xác định trước (ví dụ: thể thao, chính trị, quốc tế). Để xây dựng hệ thống, tôi cần các bộ dữ liệu miễn phí để đào tạo hệ thống.Tin tức Bài viết số liệu
Cho đến giờ, sau vài giờ googling và liên kết từ here các tập dữ liệu phù hợp duy nhất tôi có thể tìm thấy là this. Trong khi điều này hy vọng sẽ đủ, tôi nghĩ rằng tôi sẽ cố gắng tìm thêm.
Lưu ý rằng các bộ dữ liệu tôi muốn:
- Có bài báo đầy đủ, không chỉ tiêu đề
- là bằng tiếng Anh
- Trong định dạng .txt, không XML hoặc db
Ai có thể giúp tôi?
Vâng, tôi đang cố gắng tìm tập dữ liệu vì tôi sẽ bận rộn với dự án vì vậy tôi cố gắng giảm bớt những việc cần làm. Hơn nữa, tôi không biết cách viết một kịch bản bằng Python/Perl/PHP. – Hearty