2011-01-03 8 views
5

Tôi đang học NLP. Tôi hiện đang chơi với Word Sense Disambiguation. Tôi đang lập kế hoạch sử dụng dữ liệu semcor làm dữ liệu đào tạo nhưng tôi gặp khó khăn trong việc hiểu cấu trúc xml. Tôi đã thử googling nhưng không nhận được bất kỳ tài nguyên nào mô tả cấu trúc nội dung của semcor.hiểu cấu trúc phân cụm semcor h

<s snum="1"> 
<wf cmd="ignore" pos="DT">The</wf> 
<wf cmd="done" lemma="group" lexsn="1:03:00::" pn="group" pos="NNP" rdf="group" wnsn="1">Fulton_County_Grand_Jury</wf> 
<wf cmd="done" lemma="say" lexsn="2:32:00::" pos="VB" wnsn="1">said</wf> 
<wf cmd="done" lemma="friday" lexsn="1:28:00::" pos="NN" wnsn="1">Friday</wf> 
<wf cmd="ignore" pos="DT">an</wf> 
<wf cmd="done" lemma="investigation" lexsn="1:09:00::" pos="NN" wnsn="1">investigation</wf> 
<wf cmd="ignore" pos="IN">of</wf> 
<wf cmd="done" lemma="atlanta" lexsn="1:15:00::" pos="NN" wnsn="1">Atlanta</wf> 
<wf cmd="ignore" pos="POS">'s</wf> 
<wf cmd="done" lemma="recent" lexsn="5:00:00:past:00" pos="JJ" wnsn="2">recent</wf> 
<wf cmd="done" lemma="primary_election" lexsn="1:04:00::" pos="NN" wnsn="1">primary_election</wf> 
<wf cmd="done" lemma="produce" lexsn="2:39:01::" pos="VB" wnsn="4">produced</wf> 
<punc>``</punc> 
<wf cmd="ignore" pos="DT">no</wf> 
<wf cmd="done" lemma="evidence" lexsn="1:09:00::" pos="NN" wnsn="1">evidence</wf> 
<punc>''</punc> 
<wf cmd="ignore" pos="IN">that</wf> 
<wf cmd="ignore" pos="DT">any</wf> 
<wf cmd="done" lemma="irregularity" lexsn="1:04:00::" pos="NN" wnsn="1">irregularities</wf> 
<wf cmd="done" lemma="take_place" lexsn="2:30:00::" pos="VB" wnsn="1">took_place</wf> 
<punc>.</punc> 
</s> 
  • Tôi giả định wnsn là 'chữ nghĩa'. Nó có đúng không?
  • Thuộc tính lexsn có nghĩa là gì? Làm thế nào để nó ánh xạ tới wordnet?
  • Thuộc tính pn là gì? (dòng thứ ba)
  • Thuộc tính rdf được gán như thế nào? (một lần nữa dòng thứ ba)
  • Nói chung, các thuộc tính có thể là gì?

Trả lời

10

Định dạng được mô tả trong tệp "doc/cxtfile.txt" trong SemCor 1.6 archive; vì một số lý do, tài liệu không được bao gồm trong các phiên bản sau.

+0

Wnsn là "từ được sử dụng" hoặc "dạng lemmatised" của nó, bởi vì chúng có thể khác nhau. – damned