Tôi có một bó các tệp csv
mà tôi đang đọc vào R và bao gồm trong thư mục gói/dữ liệu ở định dạng .rdata
. Thật không may, các ký tự không phải ASCII trong dữ liệu không kiểm tra được. Gói tools
có hai chức năng để kiểm tra các ký tự không phải ASCII (showNonASCII
và showNonASCIIfile
) nhưng dường như tôi không thể xác định vị trí một để xóa/xóa chúng.Xóa các ký tự không phải ASCII khỏi các tệp dữ liệu
Trước khi khám phá các công cụ UNIX khác, thật tuyệt vời khi thực hiện tất cả trong R để tôi có thể duy trì luồng công việc hoàn chỉnh từ dữ liệu thô đến sản phẩm cuối cùng. Có bất kỳ gói/chức năng hiện có nào để giúp tôi loại bỏ các ký tự không phải ASCII không?
Hãy thử với các biểu thức chính quy, ví dụ như hàm gsub. Kiểm tra? Regexp – aatrujillob
Bạn biết rằng 'read.csv()' lấy đối số 'encoding', vì vậy bạn có thể xử lý chúng, ít nhất là trong R? Kiểm tra cụ thể nào các ký tự không phải ASCII không thành công, có phải là trong R (nếu vậy hãy đăng nó ở đây) hay bên ngoài? – smci