Tôi có một đơn giản attoparsec dựa trên pdf parser. Nó hoạt động tốt cho đến khi được sử dụng với iteratee. Khi kích thước đầu vào vượt quá kích thước bộ đệm.attoparsec-iteratee không hoạt động khi đầu vào lớn hơn kích thước bộ đệm
import qualified Data.ByteString as BS
import qualified Data.Iteratee as I
import qualified Data.Attoparsec as P
import qualified Data.Attoparsec.Iteratee as P
import System.Environment (getArgs)
import Control.Monad
import Pdf.Parser.Value
main :: IO()
main = do
[i] <- getArgs
liftM (P.parseOnly parseValue) (BS.readFile i) >>= print -- works
I.fileDriverRandomVBuf 2048 (P.parserToIteratee parseValue) i >>= print -- works
I.fileDriverRandomVBuf 1024 (P.parserToIteratee parseValue) i >>= print -- DOES NOT works!!!
Input:
<< /Annots [ 404 0 R 547 0 R ] /ArtBox [ 0.000000 0.000000 612.000000 792.000000 ] /BleedBox [ 0.000000 0.000000 612.000000 792.000000 ] /Contents [ 435 0 R 436 0 R 437 0 R 444 0 R 448 0 R 449 0 R 450 0 R 453 0 R ] /CropBox [ 0.000000 0.000000 612.000000 792.000000 ] /Group 544 0 R /MediaBox [ 0.000000 0.000000 612.000000 792.000000 ] /Parent 239 0 R /Resources << /ColorSpace << /CS0 427 0 R /CS1 427 0 R /CS2 428 0 R >> /ExtGState << /GS0 430 0 R /GS1 431 0 R /GS2 469 0 R /GS3 475 0 R /GS4 439 0 R /GS5 480 0 R /GS6 485 0 R /GS7 491 0 R /GS8 497 0 R >> /Font << /C2_0 447 0 R /T1_0 421 0 R /T1_1 422 0 R /T1_2 423 0 R /T1_3 424 0 R /T1_4 425 0 R /T1_5 426 0 R /T1_6 438 0 R >> /ProcSet [ /PDF /Text /ImageC /ImageI ] /Properties << /MC0 << /Metadata 502 0 R >> >> /XObject << /Fm0 451 0 R /Fm1 504 0 R /Fm2 513 0 R /Fm3 515 0 R /Fm4 517 0 R /Fm5 526 0 R /Fm6 528 0 R /Fm7 537 0 R /Fm8 539 0 R /Im0 540 0 R /Im1 541 0 R /Im2 452 0 R /Im3 542 0 R /Im4 543 0 R >> >> /Rotate 0 /StructParents 1 /TrimBox [ 0.000000 0.000000 612.000000 792.000000 ] /Type /Page >>
Vì vậy, phân tích cú pháp hoạt động mà không iteratee, làm việc với khối đủ lớn, nhưng không làm việc với những phần nhỏ hơn. Lỗi trong iteratee? Trong attoparsec-iteratee? Trong mã của tôi? Có bất kỳ công việc xung quanh? Đó là một vấn đề thực sự cấp bách đối với tôi.
Cảm ơn.
Không biết lỗi là ở đâu, nhưng có thể sử dụng kích thước chunk đủ lớn không? Hoặc sử dụng 'ByteString' thay cho 'Iteratees'? Giá trị pdf –
có thể dài tùy ý, do đó không có kích thước chunk đủ lớn. Re ByteString: bạn có nghĩa là lười biếng IO? Pdf yêu cầu truy cập ngẫu nhiên và bảng tham chiếu thường nằm ở cuối tệp. Vì vậy, lười biếng IO ~ = "nghiêm ngặt" trong trường hợp cụ thể này và sẽ sử dụng bộ nhớ không hiệu quả. – Yuras
Do 'Iteratee' có cho phép truy cập ngẫu nhiên không? Tôi đã không nghe nói về điều đó (không có nghĩa là bất cứ điều gì, tôi không phải là một người sử dụng). Nếu bạn cần truy cập ngẫu nhiên, hãy đọc toàn bộ tập tin cùng một lúc hoặc có một số giàn giáo để tìm kiếm và đọc các phần của tệp. Nếu có thể, tùy chọn đầu tiên ** đơn giản hơn **. –