分词技术是搜索引擎的关键性技术,据报道海量将面向全世界范围提供中文分词基础件研究版,业内人士认为这必将推动中文信息处理技术的发展。
分词有多重要?比如“..黄河北京东”一词,搜索会如何来进行分词?是分为“黄河”,“北京”,还是会分为“河北”,“京东”?中文的分词相比英文来说难度更大,因为没有空格的中文,很容易使程序产生歧义。海量做为分词技术领先的机构,被广泛应用。
据海量技术人员介绍,中文自动分词准确率低主要有两个难题:一是分词歧义,二是为登录词(例如人名、地名)识别。海量以“砌词”为突破口,博采众长各个击破,采用复方概念平衡各算法,有效地提高了未登录词的识别率,降低了分词歧义的干扰,使海量分词在大规模语料测试中的准确率达到了99.5%,分词效率2000万字/分钟,已经达到实用要求。
作为中文信息处理的核心和汉语自然语言理解的基础,中文智能分词基础件有着广泛的应用前景。海量产品总监沈止戈归纳了以下五大类:
1)信息检索:如全文检索、主题检索
2)汉字处理:如智能拼音输入、手写识别输入、中文OCR识别、自动校对、简繁转换
3)语音处理:如语音合成、语音识别
4)内容识别与分析:如信息摘录、自动文摘、自动标引、文本自动分类、自动过滤、数据挖掘
5)自然语言理解:如机器翻译、自然语言接口
“对于以上五类研究项目来说,我们的分词对他们都有莫大帮助” 沈止戈说,“中文分词的经济价值是不可估量的,我们现在在公司网站提供免费下载,更多考虑的是它的社会价值。”