2010-02-09 12 views
9

Trong PHP, cách nào thanh lịch nhất để có danh sách đầy đủ (chuỗi các chuỗi) của tất cả Unicode whitespace characters, được mã hóa bằng utf8?Cách đơn giản nhất để có danh sách đầy đủ tất cả các ký tự khoảng trắng UTF-8 trong PHP

Tôi cần điều đó để tạo dữ liệu thử nghiệm.

+1

Nếu bạn muốn thay thế thành chuỗi, hãy xem trong '\ p {Z}' trong cụm từ thông dụng: http://www.regular-expressions.info/unicode.html –

Trả lời

9

This email chứa danh sách tất cả các ký tự khoảng trắng Unicode được mã hóa theo UTF-8, UTF-16 và HTML.

chỉnh sửa

Nguyên đã trả lời 09 Tháng hai '10 (!). Thực sự, nếu thông tin đã lỗi thời, bạn có thể thêm câu trả lời của riêng mình, thay vì than phiền. Chỉ cần google cho URL được đề cập trong câu trả lời của tôi, và kiếm được một số đại diện:

Các email đã được lưu trữ here (đưa tôi giây), và bảng trắng thậm chí được đề cập trong phần giới thiệu

static $whitespace = array(
    "SPACE" => "\x20", 
    "NO-BREAK SPACE" => "\xc2\xa0", 
    "OGHAM SPACE MARK" => "\xe1\x9a\x80", 
    "EN QUAD" => "\xe2\x80\x80", 
    "EM QUAD" => "\xe2\x80\x81", 
    "EN SPACE" => "\xe2\x80\x82", 
    "EM SPACE" => "\xe2\x80\x83", 
    "THREE-PER-EM SPACE" => "\xe2\x80\x84", 
    "FOUR-PER-EM SPACE" => "\xe2\x80\x85", 
    "SIX-PER-EM SPACE" => "\xe2\x80\x86", 
    "FIGURE SPACE" => "\xe2\x80\x87", 
    "PUNCTUATION SPACE" => "\xe2\x80\x88", 
    "THIN SPACE" => "\xe2\x80\x89", 
    "HAIR SPACE" => "\xe2\x80\x8a", 
    "ZERO WIDTH SPACE" => "\xe2\x80\x8b", 
    "NARROW NO-BREAK SPACE" => "\xe2\x80\xaf", 
    "MEDIUM MATHEMATICAL SPACE" => "\xe2\x81\x9f", 
    "IDEOGRAPHIC SPACE" => "\xe3\x80\x80", 
); 
+0

oh! Mất tích của nó hai tôi đang tìm kiếm. x2028, dấu tách dòng và ranh giới đoạn x2029 – ppostma1

+0

Vui lòng tải thư lên một nơi khác. Liên kết này không hoạt động –

+2

Liên kết bị hỏng. Đó là lý do bạn nên ** luôn luôn ** sao chép thông tin từ liên kết, đưa ra câu trả lời khép kín và không dễ bị tổn thương bởi các liên kết bị hỏng. – cprcrack

3

http://en.wikipedia.org/wiki/Space_%28punctuation%29#Spaces_in_Unicode

Thật không may, nó không cung cấp UTF-8, nhưng nó có ký tự trong trang web, vì vậy bạn có thể cắt và dán vào trình soạn thảo của mình (nếu nó lưu trong UTF-8). Ngoài ra, http://www.fileformat.info/info/unicode/char/180E/index.htm cung cấp UTF-8 (thay thế "180E" bằng giá trị hex UTF-16 bạn đang tìm kiếm).

Điều này cũng cung cấp thêm một vài ký tự mà câu trả lời tuyệt vời của @ devio bị bỏ sót.

3

Năm sau, câu hỏi này vẫn có kết quả hàng đầu trên Google khi tìm kiếm ký tự khoảng trống unicode. câu trả lời của devio là tuyệt vời, nhưng không đầy đủ. Theo văn bản này (tháng 10 năm 2017) Wikipedia có danh sách các ký tự khoảng trắng ở đây: https://en.wikipedia.org/wiki/Whitespace_character

Danh sách này chỉ định 25 điểm mã, danh sách câu trả lời hiện được chấp nhận 18. Bao gồm bảy điểm mã khác, danh sách là:

U+0009 character tabulation 
U+000A line feed 
U+000B line tabulation 
U+000C form feed 
U+000D carriage return 
U+0020 space 
U+0085 next line 
U+00A0 no-break space 
U+1680 ogham space mark 
U+180E mongolian vowel separator 
U+2000 en quad 
U+2001 em quad 
U+2002 en space 
U+2003 em space 
U+2004 three-per-em space 
U+2005 four-per-em space 
U+2006 six-per-em space 
U+2007 figure space 
U+2008 punctuation space 
U+2009 thin space 
U+200A hair space 
U+200B zero width space 
U+200C zero width non-joiner 
U+200D zero width joiner 
U+2028 line separator 
U+2029 paragraph separator 
U+202F narrow no-break space 
U+205F medium mathematical space 
U+2060 word joiner 
U+3000 ideographic space 
U+FEFF zero width non-breaking space