Cố gắng thực hiện một số phân tích dữ liệu twitter. Tải về các tweets và tạo ra một corpus từ các văn bản của các tweet bằng cách sử dụng dưới đâyPhân tích dữ liệu Twitter - Lỗi trong ma trận tài liệu thuật ngữ
# Creating a Corpus
wim_corpus = Corpus(VectorSource(wimbledon_text))
Trong cố gắng để tạo ra một TermDocumentMatrix như dưới đây, tôi nhận được một lỗi và cảnh báo.
tdm = TermDocumentMatrix(wim_corpus,
control = list(removePunctuation = TRUE,
stopwords = TRUE,
removeNumbers = TRUE, tolower = TRUE))
Error in simple_triplet_matrix(i = i, j = j, v = as.numeric(v), nrow = length(allTerms), : 'i, j, v' different lengths
In addition: Warning messages:
1: In parallel::mclapply(x, termFreq, control) :
all scheduled cores encountered errors in user code
2: In is.na(x) : is.na() applied to non-(list or vector) of type 'NULL'
3: In TermDocumentMatrix.VCorpus(corpus) : invalid document identifiers
4: In simple_triplet_matrix(i = i, j = j, v = as.numeric(v), nrow = length(allTerms), :
NAs introduced by coercion
Mọi người có thể chỉ ra lỗi này cho biết điều này có thể liên quan đến gói tm không?
Thư viện tm đã được nhập. Tôi đang sử dụng R Phiên bản: R 3.0.1 và RStudio: 0.97
Bạn có thể tạo lại lỗi này bằng một tệp văn bản nhỏ (một số tệp bạn có thể chia sẻ) không? –