2012-01-24 12 views
5

Tôi có một đơn giản attoparsec dựa trên pdf parser. Nó hoạt động tốt cho đến khi được sử dụng với iteratee. Khi kích thước đầu vào vượt quá kích thước bộ đệm.attoparsec-iteratee không hoạt động khi đầu vào lớn hơn kích thước bộ đệm

import qualified Data.ByteString as BS 
import qualified Data.Iteratee as I 
import qualified Data.Attoparsec as P 
import qualified Data.Attoparsec.Iteratee as P 
import System.Environment (getArgs) 
import Control.Monad 

import Pdf.Parser.Value 

main :: IO() 
main = do 
    [i] <- getArgs 
    liftM (P.parseOnly parseValue) (BS.readFile i) >>= print -- works 
    I.fileDriverRandomVBuf 2048 (P.parserToIteratee parseValue) i >>= print -- works 
    I.fileDriverRandomVBuf 1024 (P.parserToIteratee parseValue) i >>= print -- DOES NOT works!!! 

Input:

<< /Annots [ 404 0 R 547 0 R ] /ArtBox [ 0.000000 0.000000 612.000000 792.000000 ] /BleedBox [ 0.000000 0.000000 612.000000 792.000000 ] /Contents [ 435 0 R 436 0 R 437 0 R 444 0 R 448 0 R 449 0 R 450 0 R 453 0 R ] /CropBox [ 0.000000 0.000000 612.000000 792.000000 ] /Group 544 0 R /MediaBox [ 0.000000 0.000000 612.000000 792.000000 ] /Parent 239 0 R /Resources << /ColorSpace << /CS0 427 0 R /CS1 427 0 R /CS2 428 0 R >> /ExtGState << /GS0 430 0 R /GS1 431 0 R /GS2 469 0 R /GS3 475 0 R /GS4 439 0 R /GS5 480 0 R /GS6 485 0 R /GS7 491 0 R /GS8 497 0 R >> /Font << /C2_0 447 0 R /T1_0 421 0 R /T1_1 422 0 R /T1_2 423 0 R /T1_3 424 0 R /T1_4 425 0 R /T1_5 426 0 R /T1_6 438 0 R >> /ProcSet [ /PDF /Text /ImageC /ImageI ] /Properties << /MC0 << /Metadata 502 0 R >> >> /XObject << /Fm0 451 0 R /Fm1 504 0 R /Fm2 513 0 R /Fm3 515 0 R /Fm4 517 0 R /Fm5 526 0 R /Fm6 528 0 R /Fm7 537 0 R /Fm8 539 0 R /Im0 540 0 R /Im1 541 0 R /Im2 452 0 R /Im3 542 0 R /Im4 543 0 R >> >> /Rotate 0 /StructParents 1 /TrimBox [ 0.000000 0.000000 612.000000 792.000000 ] /Type /Page >> 

Vì vậy, phân tích cú pháp hoạt động mà không iteratee, làm việc với khối đủ lớn, nhưng không làm việc với những phần nhỏ hơn. Lỗi trong iteratee? Trong attoparsec-iteratee? Trong mã của tôi? Có bất kỳ công việc xung quanh? Đó là một vấn đề thực sự cấp bách đối với tôi.

Cảm ơn.

+0

Không biết lỗi là ở đâu, nhưng có thể sử dụng kích thước chunk đủ lớn không? Hoặc sử dụng 'ByteString' thay cho 'Iteratees'? Giá trị pdf –

+0

có thể dài tùy ý, do đó không có kích thước chunk đủ lớn. Re ByteString: bạn có nghĩa là lười biếng IO? Pdf yêu cầu truy cập ngẫu nhiên và bảng tham chiếu thường nằm ở cuối tệp. Vì vậy, lười biếng IO ~ = "nghiêm ngặt" trong trường hợp cụ thể này và sẽ sử dụng bộ nhớ không hiệu quả. – Yuras

+0

Do 'Iteratee' có cho phép truy cập ngẫu nhiên không? Tôi đã không nghe nói về điều đó (không có nghĩa là bất cứ điều gì, tôi không phải là một người sử dụng). Nếu bạn cần truy cập ngẫu nhiên, hãy đọc toàn bộ tập tin cùng một lúc hoặc có một số giàn giáo để tìm kiếm và đọc các phần của tệp. Nếu có thể, tùy chọn đầu tiên ** đơn giản hơn **. –

Trả lời

2

Chỉnh sửa 2: Tôi đã tạo ra một phân tích cú pháp mới trong Pdf/Parser/Giá trị

dictOrStream :: Parser PdfValue 
dictOrStream = do 
    dict <- parseDict 
    P.skipSpace 
    let s1 = do 
      P.string $ fromString "stream" 
      content <- P.manyTill P.anyWord8 $ P.endOfLine >> P.string (fromString "endstream") 
      return $ PdfValStream (PdfStream dict (BS.pack content)) 
    s1 <|> return (PdfValDict dict) 

sau đó sử dụng phân tích cú pháp này trong parseValue. Điều này làm việc cho tất cả các trường hợp của bạn. Tôi không biết tại sao choice không quay lại đúng cách, có thể là lỗi attoparsec?

Chỉnh sửa: Tôi nhận thấy rằng, nếu tôi thay thế cấp cao nhất của bạn parseValue với parseDict, nó hoạt động. Nó cũng hoạt động nếu tôi xóa parseStream khỏi các lựa chọn trong parseValue. Tôi nghĩ attoparsec đã cam kết "parseStream" sau khi hoàn thành từ điển cấp cao nhất, do đó nó mong đợi nhiều đầu vào hơn (dấu cách, mã thông báo "luồng", v.v.) dẫn đến lỗi này. Tại thời điểm này có một sự mơ hồ giữa hai tùy chọn phân tích cú pháp mà bạn sẽ cần phải giải quyết. Tôi không biết tại sao nó hoạt động đúng khi toàn bộ đầu vào có sẵn; Tôi sẽ mong đợi một lỗi được báo cáo khi trình phân tích cú pháp của bạn được nạp khối.

Hiện tại, tôi nghi ngờ có lỗi trong mã của bạn hoặc có thể là attoparsec. Tôi chạy thử nghiệm sau đây bằng cách thủ công đọc khối bytestring và nuôi nó để phân tích cú pháp attoparsec của bạn:

*Main System.IO> h <- openFile "test.pdf" ReadMode 
*Main System.IO Data.ByteString> let hget = hGetSome h 1024 
*Main System.IO Data.ByteString> b <- hget 
*Main System.IO Data.ByteString> let r = P.parse parseValue b 
*Main System.IO Data.ByteString> r 
Partial _ 
*Main System.IO Data.ByteString> b <- hget 
*Main System.IO Data.ByteString> let r' = P.feed r b 
*Main System.IO Data.ByteString> r' 
Partial _ 
*Main System.IO Data.ByteString> b <- hget 
*Main System.IO Data.ByteString> Data.ByteString.length b 
0 
*Main System.IO Data.ByteString> let r'2 = P.feed r' b 
*Main System.IO Data.ByteString> r'2 
Fail "<< /Annots [ 404 0 R 547 0 R ] /ArtBox [ 0.000000 0.000000 612.000000 792.000000 ] /BleedBox [ 0.000000 0.000000 612.000000 792.000000 ] /Contents [ 435 0 R 436 0 R 437 0 R 444 0 R 448 0 R 449 0 R 450 0 R 453 0 R ] /CropBox [ 0.000000 0.000000 612.000000 792.000000 ] /Group 544 0 R /MediaBox [ 0.000000 0.000000 612.000000 792.000000 ] /Parent 239 0 R /Resources << /ColorSpace << /CS0 427 0 R /CS1 427 0 R /CS2 428 0 R >> /ExtGState << /GS0 430 0 R /GS1 431 0 R /GS2 469 0 R /GS3 475 0 R /GS4 439 0 R /GS5 480 0 R /GS6 485 0 R /GS7 491 0 R /GS8 497 0 R >> /Font << /C2_0 447 0 R /T1_0 421 0 R /T1_1 422 0 R /T1_2 423 0 R /T1_3 424 0 R /T1_4 425 0 R /T1_5 426 0 R /T1_6 438 0 R >> /ProcSet [ /PDF /Text /ImageC /ImageI ] /Properties << /MC0 << /Metadata 502 0 R >> >> /XObject << /Fm0 451 0 R /Fm1 504 0 R /Fm2 513 0 R /Fm3 515 0 R /Fm4 517 0 R /Fm5 526 0 R /Fm6 528 0 R /Fm7 537 0 R /Fm8 539 0 R /Im0 540 0 R /Im1 541 0 R /Im2 452 0 R /Im3 542 0 R /Im4 543 0 R >> >> /Rotate 0 /StructParents 1 /TrimBox [ 0.000000 0.000000" [] "Failed reading: empty" 

Đối với một số lý do, phân tích cú pháp của bạn dường như không muốn nhận dữ liệu trong khối, và thất bại sau khi nhận được thứ ba (trống) chunk mà không tốn bất kỳ đầu vào nào. Tôi vẫn chưa tìm ra nơi phân tích cú pháp của bạn bị lỗi, nhưng nó chắc chắn không phải là iteratee hoặc attoparsec-iteratee.

+0

Bạn nói đúng, có vẻ như cả iteratee và attoparsec-iteratee đều không liên quan gì đến điều đó. ty, John – Yuras

+0

Bạn có thể giải thích lý do tại sao nó không rõ ràng? Tôi mong đợi 'parserDict' sẽ thất bại nếu không tìm thấy" stream ", và' choice' sẽ thử tùy chọn tiếp theo - 'parseDict'. – Yuras

+0

xin lỗi, tôi có nghĩa là 'parseStream' sẽ thất bại nếu không tìm thấy" dòng " – Yuras