2008-11-25 6 views
8

Điều này có thể đã được yêu cầu theo cách khác. Tôi không làm điều đó trên bay tuy nhiên. Đôi khi, chúng tôi nhận được các mẩu nội dung trong các tệp tin từ có các dấu gạch ngang, chữ in đậm, chữ in nghiêng và dấu ngoặc kép. Có một công cụ tốt để chuyển đổi này thành một mã html sạch.Cách dễ nhất hoặc Công cụ tốt nhất để chuyển đổi văn bản từ thành sạch (X) HTML

Nếu không thì cách tiếp cận khác mà mọi người thực hiện.

Trả lời

2

Tôi ngạc nhiên khi không ai đề cập đến nó, nhưng HTML Tidy thường làm tốt công việc này. Tôi đã không sử dụng nó gần đây, nhưng tôi hiểu nó phù hợp để làm sạch nội dung HTML tiếp xúc từ Word nói riêng.

+0

Đã thử trên phiên bản Word hiện tại, không nhận được kết quả tốt - có thể xử lý đầu ra HTML phiên bản cũ tốt hơn. –

0

Từ rất "bẩn" với mã hóa riêng. Nó có thể có các thẻ đậm được lồng vào nhau, các thẻ in đậm và tất cả các loại nastiness tùy thuộc vào việc người dùng có sử dụng các kiểu dựng sẵn (nhóm 1, tiêu đề 2, v.v.) hay không. Bất cứ điều gì mà có tài liệu Word và cố gắng "chuyển đổi" nó sang HTML sẽ thừa hưởng các vấn đề đánh dấu tương tự như là tốt.

Điều tốt nhất để làm là ghi lại một macro trong Word để thực hiện nhiều tìm kiếm và thay thế các hành động trên những điều hiển nhiên, chẳng hạn như M-dấu gạch ngang, tab, lược, vv

Sau đó thay thế định dạng các đoạn ^p^p với một placeholder (như ~), sau đó thay thế tất cả nghỉ duy nhất (^p) với một không gian, sau đó thay thế ~ với </p>^p</p> để tạo ra các đoạn mã HTML. Sau đó sao chép toàn bộ tài liệu, dán nó vào Notepad để xóa bất kỳ đánh dấu ascii nào, sau đó sao chép và dán vào trình soạn thảo HTML của bạn, và đánh dấu thủ công 10% còn lại, như in nghiêng đậm, đoạn không khớp các thẻ, v.v.

Sẽ không có gì tốt bằng mã hóa tay, vì vậy với kỹ thuật này hầu hết công việc grunt được thực hiện và bạn có văn bản rõ ràng để bắt đầu.

+0

Ngoài ra, bạn sẽ có thể tự động hóa việc "dán vào Notepad" một phần bởi Calling gettext trên đối tượng Clipboard với loại thích hợp. –

4

A long thời gian trước Tôi được giao nhiệm vụ lấy một tài liệu từ nhiều megabyte được cấu trúc hợp lý và chuyển đổi nó thành một chuỗi các trang HTML (khoảng 20.000 trang!) Điều này được thực hiện bằng cách lưu từ doc thành RTF (Word Save As HTML đầu ra quá nhiều "bẩn") và chuyển đổi RTF sang HTML thông qua một kịch bản Perl. Việc chuyển đổi là một quá trình hai vượt qua ... Đầu tiên làm sạch các lỗi định dạng phổ biến, sau đó chuyển đổi RTF được làm sạch thành HTML.

Vì trình chỉnh sửa tài liệu tiếp tục duy trì tài liệu Word, nó được trả tiền để mã hóa các lỗi định dạng phổ biến trong lần truyền đầu tiên vì các lỗi thường tái phát ngay cả sau khi được sửa. Ngẫu nhiên, quá trình này cho thấy một quản lý rất hoài nghi chỉ trong 40 giờ (hoặc lâu hơn) một coder tốt có thể tạo ra ~ 20.000 trang web giữ cho chúng được cập nhật vô thời hạn, trong khi các tác giả gốc (ai là thời gian thậm chí là có giá trị hơn) sẽ chi tiêu nhiều trăm giờ thực hiện chuyển đổi và sẽ bị buộc phải duy trì HTML kết quả bằng tay sau đó.

0

Chuyển đổi sang RTF và sử dụng XSLT để chuyển đổi văn bản đa dạng thành HTML. Tôi sẽ khuyên bạn nên cố gắng để có được tất cả mọi thứ như RTF thay vì .docx hoặc bất cứ định dạng Word.

0

Bạn có thể muốn thử công cụ này: OpenXML Document Viewer.

Nó cung cấp công cụ dòng lệnh để chuyển đổi tài liệu OpenXML (DOCX) sang HTML.

0

Nếu bạn có thể cài đặt Word 2003 hoặc 2007, thì bạn có thể sử dụng định dạng OOXML mới để tạo tệp XML. Định dạng khá đẹp ... phức tạp nhưng ít nhất bạn có thể phân tích nó bằng các công cụ chuẩn.Điều đó sẽ cho phép bạn trích xuất thông tin bạn cần từ tệp.

Tệp OfficeXMLMarkupExplained_en.docx chứa phần giới thiệu và nhiều chi tiết về cách hoạt động của OOXML.

1

Cách đơn giản nhất và nhanh hơn đối với tôi là để sao chép tất cả các văn bản từ Word và dán nó vào trình soạn thảo wysiwyg của Dreamweaver (bất kỳ phiên bản từ MX để CS3) sử dụng dán đặc biệt lệnh và chọn để giữ chỉ cấu trúc của tài liệu. Nó hoạt động tốt nếu tài liệu từ của bạn không quá phức tạp, và nếu nó thực sự phức tạp, bạn chỉ cần chỉnh sửa thêm trong chế độ xem mã. Html kết quả là thực sự sạch sẽ.

Vấn đề duy nhất với phương pháp này là bạn cần Dreamweaver, điều đó không miễn phí. Dù sao, bạn có thể kiểm tra phương pháp với phiên bản dùng thử của DW.

1

Tôi đã viết một công cụ cách đây nhiều năm được gọi là CleanXHTML 1.2 for Microsoft Office Word 2003 (.NET 2.0). Điều này được thiết kế để hoạt động bên trong từ và cho phép bạn xuất XHTML dựa trên nội dung được đánh dấu (hoặc được chọn) trong tài liệu. Tôi đã ngồi trên một phiên bản Word 2007 trong nhiều năm.

+0

Tôi sẽ thử điều này trong Word 2007 –

0

Cũng thử http://www.manglebracket.com/, đây là ứng dụng web nơi bạn tải lên Word DOC và chuyển đổi nó thành HTML với các tùy chọn khác nhau (quá nhiều thực sự). Hoàn hảo cho chuyển đổi ad-hoc, khi copywriter của bạn gửi cho bạn một thông cáo báo chí trong Word và bạn muốn đặt nó trên trang web, ví dụ.

1

Tôi đã viết một tiện ích dòng lệnh để thực hiện việc này: để biết chi tiết, hãy xem số Doc to HTML converter này.

2

Tôi sử dụng TinyMCE để tách và chuyển đổi một tài liệu Word đơn. Nó là miễn phí, miễn là bạn có thể tải nó lên máy chủ web của bạn (giả sử bạn có một). Tôi bảo vệ cài đặt của mình để tránh spam, nhưng bạn có thể sử dụng bản trình diễn của mình tại http://tinymce.moxiecode.com/tryit/full.php.

Nó thực sự thực hiện công việc tốt hơn so với hầu hết các chương trình chuyển đổi độc lập mà tôi đã thử, ít nhất là cách tôi sử dụng nó.

1

Bạn có thể thử số này Doc To HTML Converter. Nó không phải là miễn phí, nhưng nó giải quyết vấn đề.

+0

Tôi đã thử điều này. Chỉ cần được nhận thức nó không xử lý các đối tượng vẽ và những thứ như thế cũng như của từ được xây dựng trong lưu như html. – Andy

0

WordDown là một bookmarklet để chuyển đổi tài liệu Microsoft Word sang HTML5. Nó không chỉ thay đổi cú pháp của tài liệu mà còn thay đổi ngữ nghĩa và ngoại hình. Trong trường hợp thử nghiệm của tôi, kết quả trực quan rất dễ chịu so với tài liệu gốc. Nếu bạn muốn in tài liệu được chuyển đổi, bạn nên biết rằng biểu ngữ nhỏ màu đỏ ở bên trái không được bao gồm trong bản định kiểu in.

1

Necromancing:

Mở Word-Document trong Word 2013.
Save as odt (OpenOffice Document).
Open with OpenOffice
Và thể sử dụng
"Save As" ==> HTML-Document
hoặc sử dụng

"File" ==> Export ==> XHTML 

xuất khẩu sẽ yêu cầu JRE cài đặt, Save as sẽ không.

Đối với Word, bạn có thể sử dụng COM-interop hoặc bạn có thể sử dụng Aspose Words.

Bạn cũng có thể trực tiếp sử dụng Aspose.Words, và chỉ cần loại bỏ các "bản quyền" text với truy vấn xpath;)