Tôi đang cố gắng sử dụng gói tm trong R để thực hiện một số phân tích văn bản. Tôi đã gắn các thông tin sau:Đầu vào không hợp lệ gói R tm trong 'utf8towcs'
require(tm)
dataSet <- Corpus(DirSource('tmp/'))
dataSet <- tm_map(dataSet, tolower)
Error in FUN(X[[6L]], ...) : invalid input 'RT @noXforU Erneut riesiger (Alt-)�lteppich im Golf von Mexiko (#pics vom Freitag) http://bit.ly/bw1hvU http://bit.ly/9R7JCf #oilspill #bp' in 'utf8towcs'
Sự cố là một số ký tự không hợp lệ. Tôi muốn loại trừ các ký tự không hợp lệ khỏi phân tích hoặc từ bên trong R hoặc trước khi nhập các tệp để xử lý.
tôi đã cố gắng sử dụng iconv để chuyển đổi tất cả các file để utf-8 và loại trừ bất cứ điều gì mà không thể được chuyển đổi sang đó như sau:
find . -type f -exec iconv -t utf-8 "{}" -c -o tmpConverted/"{}" \;
như đã chỉ ra ở đây Batch convert latin-1 files to utf-8 using iconv
Nhưng tôi vẫn nhận được cùng một lỗi.
Tôi đánh giá cao bất kỳ trợ giúp nào.
Cảm ơn bạn đã trả lời của bạn Ben! Vì một lý do nào đó, cùng một dòng mã không thành công cho tôi bây giờ. Tôi không biết nếu đây là một sự trùng hợp may mắn khác :) Tôi đã không thay đổi bất cứ điều gì, chỉ cần chạy lại nó và lần này nó hoạt động mà không có bất kỳ trục trặc. – maiaini
Rất vui khi biết bạn đã hoạt động! – Ben