Tôi có một chuỗi chứa văn bản, ký tự điều khiển, chữ số, dấu âm (tiếng Đức) và các ký tự utf8 khác. Tôi muốn xóa tất cả các ký tự utf8 không phải là "một phần của ngôn ngữ". Các ký tự đặc biệt như (da
Tôi cần một cách để xác định các chuỗi nhất định trong đánh dấu HTML. Tôi biết các dây là gì, nhưng có thể chúng có thể là các chuỗi của các chuỗi khác trong tài liệu. Để tìm chúng, tôi xuất một ký tự
Thỉnh thoảng tôi có các ký tự không in được ở giữa một chuỗi. Những chuỗi này là đầu vào của người dùng, vì vậy tôi phải làm cho chương trình của tôi nhận được nó tốt thay vì cố gắng thay đổi nguồn củ