资源大小: 83KB
发布时间: 2008-10-16
文件格式: pdf
下载次数: 1
分享到:

下载地址:

下载地址1
(本站为飞网专业下载站,域名:down.cfei.net)

资源简介:

中文信息计算机自动处理的研究已有几十年的历史 , 但至今仍有许多技术难题没有得到很好解决 , 中文姓名自动识别问题就是其中的一个。由于它与中文文本的自动分词一样 , 属于中文信息处理的基础研究领域 , 因而它的研究成果直接影响到中文信息的深层次研究。汉语的自身特点使得中文信息自动处理大多是先对要处理的文本进行自动分词(加入显式分割符) , 然后再在分词的基础上进行词法、语法、语义等方面的深入分析。而在分词阶段 , 文本中的人名、地名以及其它专有名词和生词大多被切分成单字词 , 在这种情形下如不能很好地解决汉语文本中专有名词生词的识别问题 , 将给其后的汉语文本的深入分析带来难以逾越的障碍。中文姓名的自动识别问题就是在这种背景下提出来的。对这一问题的研究目前采用的技术中主要利用以下几方面的信息: 姓名用字的频率信息、上下文信息[1 ,2 ]、语料库统计信息[2 ]、词性信息等[3 ]。本文的方法是 , 首先对中文人名的构成、姓名用字的规律及上下文文本信息特征进行充分分析 , 在此基础上建立起两组规则集 , 将其作用于测试文本 , 获得初步识别结果 , 再利用大规模语料库的统计信息对初步识


飞网下载站,免费下载共享资料,内容涉及教育资源、专业资料、IT资源、娱乐生活、经济管理、办公文书、游戏资料等。