2009-10-21 6 views

Trả lời

38

Chunking còn được gọi là phân tích cú pháp nông và về cơ bản là xác định các phần của lời nói và cụm từ ngắn (như cụm từ danh từ). Part of speech tagging cho bạn biết các từ là danh từ, động từ, tính từ, vv, nhưng nó không cung cấp cho bạn bất kỳ đầu mối nào về cấu trúc của câu hoặc cụm từ trong câu. Đôi khi rất hữu ích khi có nhiều thông tin hơn là chỉ các phần của lời nói của các từ, nhưng bạn không cần cây phân tích đầy đủ mà bạn sẽ nhận được từ phân tích cú pháp.

Ví dụ về thời điểm chunking có thể thích hợp hơn là Named Entity Recognition. Trong NER, mục tiêu của bạn là để tìm thực thể có tên, mà có xu hướng được danh từ cụm từ (mặc dù không phải lúc nào), do đó bạn sẽ muốn biết rằng Tổng thống Barack Obama là trong các câu sau đây:

Tổng thống Barack Obama các công ty bảo hiểm và ngân hàng bị chỉ trích khi ông kêu gọi những người ủng hộ áp lực Quốc hội để ủng hộ hệ thống chăm sóc sức khỏe và sửa chữa các quy định tài chính. (source)

Nhưng bạn không nhất thiết phải quan tâm rằng mình là chủ ngữ của câu.

Chunking cũng đã được sử dụng khá phổ biến như một bước tiền xử lý cho các tác vụ khác như dịch máy dựa trên ví dụ, hiểu ngôn ngữ tự nhiên, tạo lời nói và những thứ khác.

6

Đối với "chunking văn bản" trong xử lý ngôn ngữ tự nhiên, xem here (bạn có thể muốn tất cả các bài giảng trong loạt bài này là một loại "NLP 101" ...): nó mở rộng một loạt các nhiệm vụ như tìm nhóm danh từ , tìm các nhóm động từ, và câu phân vùng hoàn chỉnh -> các khối của nhiều loại. Bài giảng có URL tôi trích dẫn đi vào chi tiết hơn!

+0

Trả lời trong một lâu đài khác? Có lẽ nên được thực hiện một bình luận chứ không phải là một câu trả lời. –

0

Từ nhóm thành các cụm từ tương quan cú pháp (đoạn). NB: Ghi nhãn IOB có thể được sử dụng để chỉ ra ranh giới chunk.