Tôi đang cố gắng làm việc với gói tm trong R và có tệp phản hồi của khách hàng CSV với mỗi dòng là một phản hồi khác. Tôi muốn nhập tất cả nội dung của phản hồi này vào một kho văn bản nhưng tôi muốn mỗi dòng là một tài liệu khác trong kho văn bản, để tôi có thể so sánh phản hồi trong một DocTerms Matrix. Có hơn 10.000 hàng trong tập dữ liệu của tôi.Tài liệu khai thác văn bản R từ tệp CSV (một hàng cho mỗi tài liệu)
Ban đầu tôi đã làm như sau:
fdbk_corpus <-Corpus(VectorSource(fdbk), readerControl = list(language="eng"), sep="\t")
này tạo ra một corpus với 1 tài liệu và> 10.000 hàng, và tôi muốn> 10.000 tài liệu với 1 hàng mỗi.
Tôi tưởng tượng mình chỉ có thể có hơn 10.000 tài liệu CSV hoặc TXT riêng trong thư mục và tạo một kho văn bản từ đó ... nhưng tôi nghĩ có một câu trả lời đơn giản hơn nhiều, đọc từng dòng dưới dạng tài liệu riêng .