2013-09-27 232 views
5

Làm cách nào để phát hiện dấu phân cách CSV từ chuỗi trong Javascript/NodeJS?Tự động phát hiện dấu phân tách CSV trong Javascript

Thuật toán chuẩn là gì?

Lưu ý rằng dấu phân tách không phải là dấu phẩy luôn. Các dấu phân cách phổ biến nhất là ;, ,\t (tab).

+1

Đây là cách Python thực hiện: http://svn.python.org/view/python/trunk/Lib/csv.py?view=markup#l162 – Blender

+0

Bạn đang sử dụng mô-đun nào để phân tích cú pháp CSV? – Alex

+0

@Blender Nó sẽ là tốt đẹp để cổng nó cho javascript. Tôi không phải là chuyên gia về python ... và tôi không thấy câu hỏi tương tự về SO. –

Trả lời

12

Một thuật toán có thể để nhận được phân cách có thể (s) là khá đơn giản, và giả định các dữ liệu đúng định dạng:

  1. Đối với mỗi delimiter,
    1. Đối với mỗi dòng,
      1. Tách dòng bằng dấu tách, kiểm tra length.
      2. Nếu length của nó là không bằng với độ dài của dòng cuối cùng, đây không phải là dấu phân cách hợp lệ.

Bằng chứng về khái niệm (không xử lý các lĩnh vực trích dẫn):

function guessDelimiters (text, possibleDelimiters) { 
    return possibleDelimiters.filter(weedOut); 

    function weedOut (delimiter) { 
     var cache = -1; 
     return text.split('\n').every(checkLength); 

     function checkLength (line) { 
      if (!line) { 
       return true; 
      } 

      var length = line.split(delimiter).length; 
      if (cache < 0) { 
       cache = length; 
      } 
      return cache === length && length > 1; 
     } 
    } 
} 

Vui lòng cung length > 1 là để đảm bảo các split không chỉ trả lại toàn bộ dòng. Lưu ý rằng điều này trả về một mảng các dấu phân tách có thể có - nếu có nhiều hơn một mục, bạn có một vấn đề mơ hồ.