Tôi muốn có một regex để khớp với một thẻ bắt đầu bằng # đơn giản giống như trong twitter (ví dụ: #someword). Tôi cũng muốn nó nhận ra các ký tự không chuẩn (như tiếng Tây Ban Nha, tiếng Do Thái hoặc tiếng Trung).Regex cho một hashtag (giống như twitter) cho phép các ký tự không phải ASCII
Đây là regex ban đầu của tôi: (^|\s|\b)(#(\w+))\b
-> nhưng không nhận dạng được ký tự không chuẩn.
Sau đó, tôi đã thử sử dụng XRegExp.js, hoạt động nhưng chạy quá chậm.
Bất kỳ đề xuất nào về cách thực hiện?
Ranh giới từ không thể đơn giản được sử dụng với unicode. xem http://www.unicode.org/reports/tr18/#Default_Word_Boundaries – Toto