· [专题] 泛海27.55亿元入股联想控股 苹果新品发布
· [专题] 2009通信展 高端访谈 "图说" 博友游展会
· [专题] 优酷遇反盗版 遭一亿索赔 李开复真离职了
· [热点] 泛微协同办公(OA)软件打造企业和谐管理
· [热点] "魔兽"烧钱5000万不见回报 否认18日开服
· [热点] 李开复造创新工场 马云炮轰银行嫌贫爱富

免费发分词基础件 海量点亮情报时代启明灯

发布时间:2007.09.18 12:25     来源:赛迪网    作者:太阳飞雪

【赛迪网讯】9月18日消息,昨日国内IT企业海量公司宣布:海量将面向世界范围内的中文信息处理研究机构,推出中文分词基础件研究版,供用户无限期免费下载。消息传出后,引起了相关专业人士热切关注。专家认为,海量此举,解决了国内外诸多研究机构最头疼的难题,必将推动中文信息处理技术的提高及应用。

据了解,分词技术是中文自然语言理解最基本的前提,也是中文信息从“数据时代”向“情报时代”发展进程中必“跳”之“龙门”。由于技术难度大、开发周期长,长期以来,分词技术一直是中文搜索引擎、知识管理、内容数据挖掘等技术研究的门槛和瓶颈。而海量公司在中文自然语言理解领域一直处于国际领先地位,其分词基础件技术领先、产品成熟,是目前唯一被广泛应用的分词产品。

由于语言文化的差异,中文信息化处理一直远远落后于英文以及其他语种。而中文分词技术是中文信息自动化处理技术发展的瓶颈。国际著名自然语言理解技术专家周富秋说:“英文清晰的单词分隔和严格的语法规范使得英文信息智能化处理具有天然的优势。现在基于英文人工智能系统水平已经相当于7岁的儿童,而使用中文的情况下只有两岁儿童的水平。一个重要的原因在于,英文清晰的单词分隔。可以设想,英文句子中没有空格,立刻就成了一堆没有人能读懂的字母乱码。但中文天生就是没有空格的,这就使汉字在信息时代的智能化处理非常困难。”

据海量技术人员介绍,中文自动分词准确率低主要有两个难题:一是分词歧义,二是为登录词(例如人名、地名)识别。海量以“砌词”为突破口,博采众长各个击破,采用复方概念平衡各算法,有效地提高了未登录词的识别率,降低了分词歧义的干扰,使海量分词在大规模语料测试中的准确率达到了99.5%,分词效率2000万字/分钟,已经达到实用要求。

作为中文信息处理的核心和汉语自然语言理解的基础,中文智能分词基础件有着广泛的应用前景。海量产品总监沈止戈归纳了以下五大类:

1)信息检索:如全文检索、主题检索

2)汉字处理:如智能拼音输入、手写识别输入、中文OCR识别、自动校对、简繁转换

3)语音处理:如语音合成、语音识别

4)内容识别与分析:如信息摘录、自动文摘、自动标引、文本自动分类、自动过滤、数据挖掘

5)自然语言理解:如机器翻译、自然语言接口

“对于以上五类研究项目来说,我们的分词对他们都有莫大帮助” 沈止戈说,“中文分词的经济价值是不可估量的,我们现在在公司网站提供免费下载,更多考虑的是它的社会价值。”(责任编辑:胡祥宝)


[ 发表评论 ] 字体[  ] [ 打印 ] [ 进入博客 ] [ 进入论坛 ]  [ 推荐给朋友 ]
  相关文章
· 周富秋博士加盟海量 出任智能计算中心主任 (05-21) · 海量免费开放MYSQL中文加强版 解决检索缺陷 (06-07)
· 海量智能计算中心核心技术:智能分词研究版 (04-28) · 囤积电影 没它怎行——海量硬盘中谁最超值 (03-04)
  客户需求反馈表
* 姓  名:
更多资料  了解方案  认识厂商
* 单位名称:
* 联系电话:
* 电子邮件:
资讯 通信 IT产品 IT技术 信息化
专题:谷歌发布PC操作系统Chrome OS
·芯能量 新动力 兴经济:..
·专题:英特尔与AMD和解 ..
·专题:惠普27亿收购3Com..
专题:
·专题:诺基亚危局已现 ..
·六股势力角逐4G标准 中..
·专题:联通iPhone并不贵..
 
·惠普123459黑白激打家族..
·云计算格局初现 三大阵..
·分析:虚拟化在高性能计..
2009 IBM动态架构新动力论坛
·直播:第八届中国系统与..
·专题:置身智慧海洋——..
·专题:让物品开口说话 ..