Sau khi nghiên cứu một chút về cách thức mà mọi người khác nhau slugify tiêu đề, tôi đã nhận thấy rằng nó thường thiếu làm thế nào để đối phó với các tiêu đề không phải tiếng Anh.quy tắc cho sên và unicode
mã hóa url rất hạn chế. Xem http://www.blooberry.com/indexdot/html/topics/urlencoding.htm
Vì vậy, ví dụ làm thế nào để folks đối phó với cho sên tiêu đề cho những thứ như
"Una lágrima Cayo en la trường"
Người ta có thể đưa ra một bảng hợp lý cho indo ngôn ngữ châu Âu, I E. những thứ có thể được mã hóa thông qua ISO-8859-1. Ví dụ, một bảng chuyển đổi sẽ dịch 'á' => 'a', do đó sên sẽ
"una-lagrima-Cayo-en-la-arena"
Tuy nhiên, tôi đang sử dụng unicode (đặc biệt bằng cách sử dụng mã hóa UTF-8), vì vậy không có bảo đảm về những gì sắp xếp mã điểm tôi sẽ nhận được (tôi phải chuẩn bị cho những thứ không thể được mã hóa ISO-8859-1.
Tôi một nushell Làm thế nào để đối phó với điều này? Tôi có nên đến với một bảng chuyển đổi cho ký tự trong phạm vi ISO_8859-1 (< 255) và thả tất cả mọi thứ khác?
EDIT: Để cung cấp thêm một ngữ cảnh, một ưu tiên, tôi không thực sự mong đợi để slugify dữ liệu trong các ngôn ngữ châu Âu không indo, nhưng tôi muốn có một kế hoạch nếu tôi gặp phải dữ liệu đó. Một bảng chuyển đổi cho ASCII mở rộng sẽ được tốt đẹp. Bất kỳ con trỏ?
Ngoài ra, vì mọi người đang hỏi, tôi đang sử dụng python, chạy trên Google App Engine
Nhân tiện, có lý do chính đáng nào khiến tại sao Unicode không được phép trong URL không? – Zifre