赛迪网 > 资讯中心 即时新闻 > 文章
  IT资讯搜索
 
IT产品搜索
· [专题] 乔布斯余情未了 重造iPod王国
· [专题] 淘宝屏蔽百度搜索 C2C大战全面升级
· [专题] 谷歌推浏览器Google Chrome挑战微软
· [热点] 雷曼兄弟申请破产 中国资产受到波及
· [热点] 特别策划专题:奥运巨星“邂逅”IT金主
· [热点] 王志东推GKE不惧“互联网寒冬”

免费发分词基础件 海量点亮情报时代启明灯

发布时间:2007.09.18 12:25     来源:赛迪网    作者:太阳飞雪

【赛迪网讯】9月18日消息,昨日国内IT企业海量公司宣布:海量将面向世界范围内的中文信息处理研究机构,推出中文分词基础件研究版,供用户无限期免费下载。消息传出后,引起了相关专业人士热切关注。专家认为,海量此举,解决了国内外诸多研究机构最头疼的难题,必将推动中文信息处理技术的提高及应用。

据了解,分词技术是中文自然语言理解最基本的前提,也是中文信息从“数据时代”向“情报时代”发展进程中必“跳”之“龙门”。由于技术难度大、开发周期长,长期以来,分词技术一直是中文搜索引擎、知识管理、内容数据挖掘等技术研究的门槛和瓶颈。而海量公司在中文自然语言理解领域一直处于国际领先地位,其分词基础件技术领先、产品成熟,是目前唯一被广泛应用的分词产品。

由于语言文化的差异,中文信息化处理一直远远落后于英文以及其他语种。而中文分词技术是中文信息自动化处理技术发展的瓶颈。国际著名自然语言理解技术专家周富秋说:“英文清晰的单词分隔和严格的语法规范使得英文信息智能化处理具有天然的优势。现在基于英文人工智能系统水平已经相当于7岁的儿童,而使用中文的情况下只有两岁儿童的水平。一个重要的原因在于,英文清晰的单词分隔。可以设想,英文句子中没有空格,立刻就成了一堆没有人能读懂的字母乱码。但中文天生就是没有空格的,这就使汉字在信息时代的智能化处理非常困难。”

据海量技术人员介绍,中文自动分词准确率低主要有两个难题:一是分词歧义,二是为登录词(例如人名、地名)识别。海量以“砌词”为突破口,博采众长各个击破,采用复方概念平衡各算法,有效地提高了未登录词的识别率,降低了分词歧义的干扰,使海量分词在大规模语料测试中的准确率达到了99.5%,分词效率2000万字/分钟,已经达到实用要求。

作为中文信息处理的核心和汉语自然语言理解的基础,中文智能分词基础件有着广泛的应用前景。海量产品总监沈止戈归纳了以下五大类:

1)信息检索:如全文检索、主题检索

2)汉字处理:如智能拼音输入、手写识别输入、中文OCR识别、自动校对、简繁转换

3)语音处理:如语音合成、语音识别

4)内容识别与分析:如信息摘录、自动文摘、自动标引、文本自动分类、自动过滤、数据挖掘

5)自然语言理解:如机器翻译、自然语言接口

“对于以上五类研究项目来说,我们的分词对他们都有莫大帮助” 沈止戈说,“中文分词的经济价值是不可估量的,我们现在在公司网站提供免费下载,更多考虑的是它的社会价值。”(责任编辑:胡祥宝)


[ 发表评论 ] 字体[  ] [ 打印 ] [ 进入博客 ] [ 进入论坛 ]  [ 推荐给朋友 ]
  相关文章
· 周富秋博士加盟海量 出任智能计算中心主任 (05-21) · 海量免费开放MYSQL中文加强版 解决检索缺陷 (06-07)
· 海量智能计算中心核心技术:智能分词研究版 (04-28) · 囤积电影 没它怎行——海量硬盘中谁最超值 (03-04)
  客户需求反馈表
* 姓  名:
更多资料  了解方案  认识厂商
* 单位名称:
* 联系电话:
* 电子邮件:
  赛迪推荐  
  手机·资费 ·新品·导购·评测·手机资费·宽带
手机搜索  诺基亚 N73 MOTO Z6
  IT产品 ·笔记本·台式机·服务器·打印·投影
IT产品搜索 
  IT技术 ·开发·网管·安全·数据库·操作系统
  信息化 ·热点·专题·访谈·周刊·方案案例
· 信息化市场百家争鸣 SaaS深陷争议“泥潭”
· 提高管理水平 "两栖"CIO应具备的六大能力
· 国产ITIL运维先行者 四大厂商角力BI市场
· 金融行业GSN专题解决方案 企业网解决方案
  IT博客 ·曾剑秋·项立刚·Java学习·网管
  IT技术论坛 ·开发·网管·安全·数据库·系统