Tôi đang cố gắng sử dụng EMR/Hive để nhập dữ liệu từ S3 vào DynamoDB. Tệp CSV của tôi có các trường được đặt trong dấu ngoặc kép và được phân tách bằng dấu phẩy. Trong khi tạo bảng bên ngoài trong hive, tôi có thể chỉ định dấu phân tách làm dấu phẩy nhưng làm cách nào để xác định các trường được đính kèm trong dấu ngoặc kép?Cách xử lý các trường được đính kèm trong dấu ngoặc kép (CSV) trong việc nhập dữ liệu từ S3 vào DynamoDB sử dụng EMR/Hive
Nếu tôi không chỉ định, tôi thấy rằng các giá trị trong DynamoDB được điền trong hai dấu ngoặc kép "" giá trị "" có vẻ sai.
Tôi đang sử dụng lệnh sau để tạo bảng bên ngoài. Có cách nào để chỉ định rằng các trường được đính kèm trong dấu ngoặc kép?
CREATE EXTERNAL TABLE emrS3_import_1(col1 string, col2 string, col3 string, col4 string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '","' LOCATION 's3://emrTest/folder';
Mọi đề xuất sẽ được đánh giá cao. Cảm ơn Jitendra
Tôi nghĩ rằng đây sẽ là câu trả lời 'đúng'. Bất kỳ ai? Chỉ một điều, thay đổi "\" "thành '\"' nếu mã của bạn không chạy. – kennyut
Trong trường hợp bất kỳ ai gặp lại điều này một lần nữa. Giờ đây, Hive bao gồm 'org.apache.hadoop.hive.serde2.OpenCSVSerde' ra khỏi hộp. Xem câu trả lời của tôi dưới đây. –