文章詳目資料

International Journal of Computational Linguistics And Chinese Language Processing THCI

  • 加入收藏
  • 下載文章
篇名 《人民日報》語料庫命名實体分類的研究
卷期 10:4
並列篇名 The Chinese Named Entity Categorization Based on the People’s Daily Corpus
作者 夏迎炬于浩西野文人
頁次 533-542
關鍵字 命名實体分類語料庫自然語言處理Named EntityNatural Language ProcessingCorpusClassificationTHCI Core
出刊日期 200512

中文摘要

在信息檢索、信息抽取等應用中,命名實体的處理十分重要。本文在目前的命名實体分類体系的基礎上,從信息檢索和抽取的角度對命名實体的細分類進行了深入的研究。提出了命名實体的多級分類并給出了每一級的詳細分類。為了檢驗該分類体系的實際效果,我們在人民日報語料上進行了初步的標注。并使用常用的基于統計模型的命名實体識別算法在人民日報語料上做了一系列的對比實驗。實驗結果表明:面向機器處理的細分類能有效地提高識別系統的性能并最終有助于信息檢索和抽取。

英文摘要

Named entity recognition is a very important part of information retrieval and information extraction. Classification is also very important. This paper investigates the sub-classification of named entities from the point of view of information retrieval and information extraction. This paper also presents multi-classification and gives detailed information about each sub-class. We have manually annotated people’s daily corpus (1998) and conducted a serial of experiments using the statistical model of named entity recognition. The experimental results show that the sub-classes presented by this paper can enhance
the recognition system’s performance and aid information retrieval and information extraction.

相關文獻