Trong mã C# của tôi, tôi trích xuất văn bản từ một tài liệu PDF. Khi tôi làm điều đó, tôi nhận được một chuỗi trong mã hóa UTF-8 hoặc Unicode (Tôi không chắc chắn). Khi tôi sử dụng Encoding.UTF8.GetBytes(src);
để chuyển đổi nó thành một mảng byte, tôi nhận thấy rằng các khoảng trắng thực sự là hai nhân vật với các giá trị byte 194 và 160.Cách sửa mã hóa UTF cho khoảng trắng?
Ví dụ chuỗi "hành động CLE" trông giống như
[67, 76, 69, 194 ,160, 65 ,99, 116, 105, 111, 110]
trong một mảng byte, trong đó khoảng trắng là 194 và 160 ... Và vì điều này src.IndexOf("CLE action");
đang trở lại -1 khi tôi cần nó trở lại 1.
Làm cách nào để sửa mã hóa chuỗi?
Làm cách nào để thay thế một không gian không bị phá vỡ bằng một không gian thông thường? – omega
@omega: src = src.Replace ('\ u00A0', ''); – RichieHindle