5
Tôi đang học NLP. Tôi hiện đang chơi với Word Sense Disambiguation. Tôi đang lập kế hoạch sử dụng dữ liệu semcor làm dữ liệu đào tạo nhưng tôi gặp khó khăn trong việc hiểu cấu trúc xml. Tôi đã thử googling nhưng không nhận được bất kỳ tài nguyên nào mô tả cấu trúc nội dung của semcor.hiểu cấu trúc phân cụm semcor h
<s snum="1">
<wf cmd="ignore" pos="DT">The</wf>
<wf cmd="done" lemma="group" lexsn="1:03:00::" pn="group" pos="NNP" rdf="group" wnsn="1">Fulton_County_Grand_Jury</wf>
<wf cmd="done" lemma="say" lexsn="2:32:00::" pos="VB" wnsn="1">said</wf>
<wf cmd="done" lemma="friday" lexsn="1:28:00::" pos="NN" wnsn="1">Friday</wf>
<wf cmd="ignore" pos="DT">an</wf>
<wf cmd="done" lemma="investigation" lexsn="1:09:00::" pos="NN" wnsn="1">investigation</wf>
<wf cmd="ignore" pos="IN">of</wf>
<wf cmd="done" lemma="atlanta" lexsn="1:15:00::" pos="NN" wnsn="1">Atlanta</wf>
<wf cmd="ignore" pos="POS">'s</wf>
<wf cmd="done" lemma="recent" lexsn="5:00:00:past:00" pos="JJ" wnsn="2">recent</wf>
<wf cmd="done" lemma="primary_election" lexsn="1:04:00::" pos="NN" wnsn="1">primary_election</wf>
<wf cmd="done" lemma="produce" lexsn="2:39:01::" pos="VB" wnsn="4">produced</wf>
<punc>``</punc>
<wf cmd="ignore" pos="DT">no</wf>
<wf cmd="done" lemma="evidence" lexsn="1:09:00::" pos="NN" wnsn="1">evidence</wf>
<punc>''</punc>
<wf cmd="ignore" pos="IN">that</wf>
<wf cmd="ignore" pos="DT">any</wf>
<wf cmd="done" lemma="irregularity" lexsn="1:04:00::" pos="NN" wnsn="1">irregularities</wf>
<wf cmd="done" lemma="take_place" lexsn="2:30:00::" pos="VB" wnsn="1">took_place</wf>
<punc>.</punc>
</s>
- Tôi giả định wnsn là 'chữ nghĩa'. Nó có đúng không?
- Thuộc tính lexsn có nghĩa là gì? Làm thế nào để nó ánh xạ tới wordnet?
- Thuộc tính pn là gì? (dòng thứ ba)
- Thuộc tính rdf được gán như thế nào? (một lần nữa dòng thứ ba)
- Nói chung, các thuộc tính có thể là gì?
Wnsn là "từ được sử dụng" hoặc "dạng lemmatised" của nó, bởi vì chúng có thể khác nhau. – damned