Từ rất "bẩn" với mã hóa riêng. Nó có thể có các thẻ đậm được lồng vào nhau, các thẻ in đậm và tất cả các loại nastiness tùy thuộc vào việc người dùng có sử dụng các kiểu dựng sẵn (nhóm 1, tiêu đề 2, v.v.) hay không. Bất cứ điều gì mà có tài liệu Word và cố gắng "chuyển đổi" nó sang HTML sẽ thừa hưởng các vấn đề đánh dấu tương tự như là tốt.
Điều tốt nhất để làm là ghi lại một macro trong Word để thực hiện nhiều tìm kiếm và thay thế các hành động trên những điều hiển nhiên, chẳng hạn như M-dấu gạch ngang, tab, lược, vv
Sau đó thay thế định dạng các đoạn ^p^p với một placeholder (như ~), sau đó thay thế tất cả nghỉ duy nhất (^p) với một không gian, sau đó thay thế ~ với </p>^p</p>
để tạo ra các đoạn mã HTML. Sau đó sao chép toàn bộ tài liệu, dán nó vào Notepad để xóa bất kỳ đánh dấu ascii nào, sau đó sao chép và dán vào trình soạn thảo HTML của bạn, và đánh dấu thủ công 10% còn lại, như in nghiêng đậm, đoạn không khớp các thẻ, v.v.
Sẽ không có gì tốt bằng mã hóa tay, vì vậy với kỹ thuật này hầu hết công việc grunt được thực hiện và bạn có văn bản rõ ràng để bắt đầu.
Nguồn
2008-11-25 16:20:56
Đã thử trên phiên bản Word hiện tại, không nhận được kết quả tốt - có thể xử lý đầu ra HTML phiên bản cũ tốt hơn. –