篇名 | 《人民日報》語料庫命名實体分類的研究 |
---|---|
卷期 | 10:4 |
並列篇名 | The Chinese Named Entity Categorization Based on the People’s Daily Corpus |
作者 | 夏迎炬 、 于浩 、 西野文人 |
頁次 | 533-542 |
關鍵字 | 命名實体 、 分類 、 語料庫 、 自然語言處理 、 Named Entity 、 Natural Language Processing 、 Corpus 、 Classification 、 THCI Core |
出刊日期 | 200512 |
在信息檢索、信息抽取等應用中,命名實体的處理十分重要。本文在目前的命名實体分類体系的基礎上,從信息檢索和抽取的角度對命名實体的細分類進行了深入的研究。提出了命名實体的多級分類并給出了每一級的詳細分類。為了檢驗該分類体系的實際效果,我們在人民日報語料上進行了初步的標注。并使用常用的基于統計模型的命名實体識別算法在人民日報語料上做了一系列的對比實驗。實驗結果表明:面向機器處理的細分類能有效地提高識別系統的性能并最終有助于信息檢索和抽取。
Named entity recognition is a very important part of information retrieval and information extraction. Classification is also very important. This paper investigates the sub-classification of named entities from the point of view of information retrieval and information extraction. This paper also presents multi-classification and gives detailed information about each sub-class. We have manually annotated people’s daily corpus (1998) and conducted a serial of experiments using the statistical model of named entity recognition. The experimental results show that the sub-classes presented by this paper can enhance
the recognition system’s performance and aid information retrieval and information extraction.