Tôi muốn xây dựng một mô hình ngôn ngữ cho Nhân sư CMU, nhưng kho văn bản của tôi có hơn 1000 từ nên tôi không thể sử dụng công cụ trực tuyến. Làm thế nào để sử dụng (các script trong cmuclmtk?) Để xây dựng mô hình ngôn ngữ của tôi?Làm cách nào để xây dựng mô hình ngôn ngữ từ vựng lớn cho Nhân sư CMU?
Trả lời
Vui lòng đọc các hướng dẫn
Không phải là một công việc tầm thường. Tạo ra một mô hình ngôn ngữ là một nhiệm vụ tốn thời gian và tài nguyên.
Nếu bạn muốn có một mô hình ngôn ngữ "tốt", bạn sẽ cần một văn bản lớn hoặc rất lớn để đào tạo một mô hình ngôn ngữ (suy nghĩ theo thứ tự độ dài vài năm của các bản tin trên báo phố).
"tốt" có nghĩa là: nếu mô hình ngôn ngữ sẽ có thể khái quát hóa từ dữ liệu huấn luyện để nhập dữ liệu mới và trước đây chưa từng
Bạn nên xem xét các tài liệu của Sphinx và bộ công cụ mô hình ngôn ngữ HTK.
http://cmusphinx.sourceforge.net/wiki/tutoriallm
Ngoài ra kiểm tra hai chủ đề sau đây:
Building openears compatible language model
Bạn có thể mất một ngôn ngữ mô hình tổng quát hơn, dựa trên một corpus lớn hơn và suy Ngôn ngữ mô hình nhỏ của bạn với nó .. ví dụ như một mô hình ngôn ngữ ngược lại ... nhưng đó không phải là một nhiệm vụ tầm thường.
Tài liệu đó rất hữu ích ngoại trừ 'Tạo từ điển'. Bản phân phối có đi kèm với tập lệnh để tạo từ điển đó không? – joeforker
Bạn có thể sử dụng công cụ phát âm mà bạn có thể kiểm tra từ subversion http://cmusphinx.svn.sourceforge.net/viewvc/cmusphinx/trunk/logios/Tools/MakeDict/ Có các gói g2p bên ngoài như http://code.google. com/p/phonetisaurus/hoặc sequitur-g2p, chúng cũng có thể được sử dụng. –
Nó xuất hiện pocketsphinx có một từ điển trong thư mục en_US, ngay bên cạnh các mô hình. Tôi sẽ thử sử dụng cái đó. – joeforker