Tôi có khoảng 500 GB tệp văn bản được phân tách trong các tháng. Trong các tệp văn bản này, 43 dòng đầu tiên chỉ là thông tin kết nối (không cần thiết). 75 dòng tiếp theo là các bộ mô tả cho một quan sát. Tiếp theo là 4 dòng (không cần thiết) thì quan sát tiếp theo là 75 dòng.Cách nhanh nhất để nhập tệp văn bản 500GB chỉ lấy các phần muốn
Vấn đề là tất cả tôi muốn là những 75 dòng (mô tả là trong cùng một vị trí cho mỗi quan sát) được đặc trưng như thế này:
ID: 5523
Date: 20052012
Mixed: <Null>
.
.
Và tôi muốn thay đổi nó sang định dạng csv 5523;20052012;;..
cho mỗi quan sát. Vì vậy, tôi kết thúc với các tập tin văn bản nhỏ hơn nhiều. Vì các bộ mô tả giống nhau, tôi sẽ biết vị trí đầu tiên là ID.
Khi tôi kết thúc với tệp văn bản, tôi sẽ mở phần tiếp theo và thêm nó (hoặc sẽ tạo tệp mới nhanh hơn?).
Những gì tôi đã làm là khá không hiệu quả Tôi đã mở tệp. Đang tải nó. Xóa các quan sát này theo từng dòng. Nếu nó lấy một chút công bằng với một mẫu thử thì rõ ràng đó không phải là phương pháp tốt nhất.
Mọi đề xuất sẽ tuyệt vời.
có bất kỳ phần nào của tập tin của bạn cố định chiều dài? –
Lưu ý.CSV sử dụng, không; –
Có, do đó tên: [CSV, Giá trị được phân tách bằng dấu phẩy] (http://en.wikipedia.org/wiki/Comma-separated_values) – voithos