Tôi cần phải tạo một khung dữ liệu bằng cách sử dụng dữ liệu được lưu trữ trong một tệp. Cho rằng tôi muốn sử dụng phương pháp read_csv
. Tuy nhiên, phân cách không phải là rất thường xuyên. Một số cột được phân tách bằng các tab (\t
), các cột khác được phân tách bằng dấu cách. Hơn nữa, một số cột có thể được phân cách bằng 2 hoặc 3 hoặc nhiều không gian hơn hoặc thậm chí bằng cách kết hợp khoảng trống và tab (ví dụ 3 dấu cách, hai tab và sau đó 1 khoảng trắng).Làm cách nào để tạo dấu phân tách trong read_csv khoảng trắng wrt linh hoạt hơn?
Có cách nào để yêu cầu gấu trúc xử lý các tệp này đúng cách không?
Nhân tiện, tôi không gặp vấn đề này nếu tôi sử dụng Python. Tôi sử dụng:
for line in file(file_name):
fld = line.split()
Và nó hoạt động hoàn hảo. Nó không quan tâm nếu có 2 hoặc 3 khoảng trống giữa các trường. Ngay cả sự kết hợp của không gian và các tab không gây ra bất kỳ vấn đề nào. Gấu trúc có thể làm giống nhau không?
Bạn cũng có thể sử dụng 'skipinitialspace' để bỏ qua không gian ban đầu – jarondl