Tôi đang trong quá trình chuyển đổi tài liệu Word thành XML. Tôi đã gặp sự cố sau:Nội dung hỗn hợp và thao tác chuỗi xóa sạch
<?xml version="1.0" encoding="UTF-8"?>
<root>
<p>
<element>This one is taken care of.</element> Some more text. „<hi rend="italics">Is this a
quote</hi>?” (Source). </p>
<p>
<element>This one is taken care of.</element> Some more text. „<hi rend="italics">This is a
quote</hi>” (Source). </p>
<p>
<element>This one is taken care of.</element> Some more text. „<hi rend="italics">This is
definitely a quote</hi>!” (Source). </p>
<p>
<element>This one is taken care of.</element> Some more text.„<hi rend="italics">This is a
first quote</hi>” (Source). „<hi rend="italics">Sometimes there is a second quote as
well</hi>!?” (Source). </p>
</root>
<p>
các nút có nội dung hỗn hợp. <element>
Tôi đã quan tâm đến việc lặp lại trước đó. Nhưng bây giờ vấn đề là với dấu ngoặc kép và các nguồn xuất hiện một phần trong phạm vi <hi rend= "italics"/>
và một phần là các nút văn bản.
Làm thế nào tôi có thể sử dụng XSLT 2.0 để:
- trận đấu tất cả
<hi rend="italics">
nút được ngay lập tức trước bởi các nút văn bản có ký tự cuối cùng là "“"? - xuất nội dung của
<hi rend="italics">
là<quote>...</quote>
, loại bỏ dấu ngoặc kép ("„ "và" ""), nhưng bao gồm trong bất kỳ câu hỏi và dấu chấm than nào xuất hiện ngay sau anh chị em của<hi rend="italics">
? - chuyển đổi nút văn bản giữa "(" và ")" sau nút
<hi rend="italics">
là<source>...</source>
không có dấu ngoặc. - bao gồm toàn bộ điểm dừng cuối cùng.
Nói cách khác, đầu ra của tôi sẽ giống như thế này:
<root>
<p>
<element>This one is taken care of.</element> Some more text. <quote>Is this a quote?</quote> <source>Source</source>.
</p>
<p>
<element>This one is taken care of.</element> Some more text. <quote>This is a quote</hi> <source>Source</source>.
</p>
<p>
<element>This one is taken care of.</element> Some more text. <quote>This is definitely a quote!</hi> <source>Source</source>.
</p>
<p>
<element>This one is taken care of.</element> Some more text. <quote>This is a first quote</quote> <source>Source</source>. <quote>Sometimes there is a second quote as well!?</quote> <source>Source</source>.
</p>
</root>
Tôi chưa bao giờ bị xử lý nội dung và chuỗi thao tác hỗn hợp như thế này và toàn bộ điều thực sự là ném tôi ra. Tôi sẽ vô cùng biết ơn những lời khuyên của bạn.
Dấu hỏi và dấu chấm than trong tài liệu đầu vào của bạn nằm ngoài phần tử 'hi', nhưng ở đầu ra dự kiến, chúng nằm trong phần tử' quote'. Điều này có vẻ kỳ quặc. Có đúng không? Vui lòng xác nhận. –
Đó là ý định, vâng. – Tench