Giống như @richiemorrisroe tôi thấy điều này kém tài liệu đây là cách tôi nhận được văn bản của tôi trong để sử dụng với các gói tm và làm cho ma trận hạn tài liệu:
library(tm) #load text mining library
setwd('F:/My Documents/My texts') #sets R's working directory to near where my files are
a <-Corpus(DirSource("/My Documents/My texts"), readerControl = list(language="lat")) #specifies the exact folder where my text file(s) is for analysis with tm.
summary(a) #check what went in
a <- tm_map(a, removeNumbers)
a <- tm_map(a, removePunctuation)
a <- tm_map(a , stripWhitespace)
a <- tm_map(a, tolower)
a <- tm_map(a, removeWords, stopwords("english")) # this stopword file is at C:\Users\[username]\Documents\R\win-library\2.13\tm\stopwords
a <- tm_map(a, stemDocument, language = "english")
adtm <-DocumentTermMatrix(a)
adtm <- removeSparseTerms(adtm, 0.75)
trong trường hợp này, bạn không cần phải chỉ định tên tệp chính xác, miễn là tên tệp duy nhất trong t thư mục được đề cập trong dòng 3, nó sẽ được các hàm tm sử dụng. Tôi làm theo cách này bởi vì tôi không có bất kỳ thành công nào trong việc chỉ định tên tệp trong dòng 3.
Nếu bất kỳ ai có thể đề xuất cách đưa văn bản vào gói lda, tôi sẽ biết ơn nhất. Tôi không thể làm được điều đó.
Tôi vừa phát hiện ra rằng hàm stemDocument dường như không hoạt động chút nào trừ khi ngôn ngữ được chỉ định, vì vậy tôi đã chỉnh sửa mã ở trên để bao gồm. – Ben