· [专题] 乔布斯成功肝移植 将回归苹果 用钱买肝脏
· [专题] 揭秘九城人事变动内幕 谷歌"涉黄"引争议
· [专题] 赛迪网直播:第十三届中国国际软件博览会
· [热点] 泛微协同办公(OA)软件打造企业和谐管理
· [热点] 微软免费杀毒软件下载 Win7比Vista便宜
· [热点] 巴茨一个错误决定 雅虎永远不能东山再起

免费发分词基础件 海量点亮情报时代启明灯

发布时间:2007.09.18 12:25     来源:赛迪网    作者:太阳飞雪

【赛迪网讯】9月18日消息,昨日国内IT企业海量公司宣布:海量将面向世界范围内的中文信息处理研究机构,推出中文分词基础件研究版,供用户无限期免费下载。消息传出后,引起了相关专业人士热切关注。专家认为,海量此举,解决了国内外诸多研究机构最头疼的难题,必将推动中文信息处理技术的提高及应用。

据了解,分词技术是中文自然语言理解最基本的前提,也是中文信息从“数据时代”向“情报时代”发展进程中必“跳”之“龙门”。由于技术难度大、开发周期长,长期以来,分词技术一直是中文搜索引擎、知识管理、内容数据挖掘等技术研究的门槛和瓶颈。而海量公司在中文自然语言理解领域一直处于国际领先地位,其分词基础件技术领先、产品成熟,是目前唯一被广泛应用的分词产品。

由于语言文化的差异,中文信息化处理一直远远落后于英文以及其他语种。而中文分词技术是中文信息自动化处理技术发展的瓶颈。国际著名自然语言理解技术专家周富秋说:“英文清晰的单词分隔和严格的语法规范使得英文信息智能化处理具有天然的优势。现在基于英文人工智能系统水平已经相当于7岁的儿童,而使用中文的情况下只有两岁儿童的水平。一个重要的原因在于,英文清晰的单词分隔。可以设想,英文句子中没有空格,立刻就成了一堆没有人能读懂的字母乱码。但中文天生就是没有空格的,这就使汉字在信息时代的智能化处理非常困难。”

据海量技术人员介绍,中文自动分词准确率低主要有两个难题:一是分词歧义,二是为登录词(例如人名、地名)识别。海量以“砌词”为突破口,博采众长各个击破,采用复方概念平衡各算法,有效地提高了未登录词的识别率,降低了分词歧义的干扰,使海量分词在大规模语料测试中的准确率达到了99.5%,分词效率2000万字/分钟,已经达到实用要求。

作为中文信息处理的核心和汉语自然语言理解的基础,中文智能分词基础件有着广泛的应用前景。海量产品总监沈止戈归纳了以下五大类:

1)信息检索:如全文检索、主题检索

2)汉字处理:如智能拼音输入、手写识别输入、中文OCR识别、自动校对、简繁转换

3)语音处理:如语音合成、语音识别

4)内容识别与分析:如信息摘录、自动文摘、自动标引、文本自动分类、自动过滤、数据挖掘

5)自然语言理解:如机器翻译、自然语言接口

“对于以上五类研究项目来说,我们的分词对他们都有莫大帮助” 沈止戈说,“中文分词的经济价值是不可估量的,我们现在在公司网站提供免费下载,更多考虑的是它的社会价值。”(责任编辑:胡祥宝)


[ 发表评论 ] 字体[  ] [ 打印 ] [ 进入博客 ] [ 进入论坛 ]  [ 推荐给朋友 ]
  相关文章
· 周富秋博士加盟海量 出任智能计算中心主任 (05-21) · 海量免费开放MYSQL中文加强版 解决检索缺陷 (06-07)
· 海量智能计算中心核心技术:智能分词研究版 (04-28) · 囤积电影 没它怎行——海量硬盘中谁最超值 (03-04)
  客户需求反馈表
* 姓  名:
更多资料  了解方案  认识厂商
* 单位名称:
* 联系电话:
* 电子邮件:
资讯 通信 IT产品 IT技术 信息化
2009第七届中国电脑商年会直播
·创业投资系列访谈:产业..
·特别策划:视频网站系列..
·专题:网游虚拟货币新规..
专题:6月上市手机新品回顾及7月新机展望
·2009年中国电信业信息化..
·专题:把iPhone 3GS“解..
·WAPI重启国际标准进程 ..
专题:09年中盘点-联想春季打印机新品回顾
·InfoComm 2009 视听与集..
·网游背后的故事 网游服..
·[专题]联想ThinkPad T40..
BizSpark:微软为技术创业企业点燃火花
·社区活动:我的IT求知生..
·访谈:内网安全2009系列..
·安全访谈:网银安全之Sa..