首 页 工作机构 法规·标准 语文工作 科研工作 学术交流 培训测试 中文信息处理 语文博物馆 网上服务 百家论坛 图片·视频
信息浏览
首页 >>>公告
回首页 返回首页 放入收藏夹 放入收藏夹 打印 打印 向朋友推荐 向朋友推荐 关闭窗口 关闭窗口


简繁汉字智能转换系统评测大纲

 

1.引言

目前使用的汉字有简体和繁体两大形式:中国大陆和新加坡等地使用简化字,我国港澳台地区和部分海外华人社区使用繁体字。简繁转换技术对汉字文化圈交流起到重要作用,广泛应用于新闻出版、文化教育、古籍数字化处理等领域。

本次简繁汉字智能转换系统评测的目的是:评估现有简繁汉字智能转换系统性能,在评测结果基础上对现有简繁汉字智能转换系统进行择优扶持,为落实海峡两岸经贸论坛确立的“简繁汉字智能转换系统”项目研发提供基础。同时,通过评测探索简繁转换新技术、新方法,并逐步建立完善简繁汉字智能转换技术的基础数据集和评测标准。

 

2.评测任务设置

本次简繁转换评测对简繁转换的两类核心任务进行评测: 1)一对多简繁字转换评测。简化字总表中共收2236个字。其中大多数简化字的意义和用法与对应的繁体字是一样的,具有一一对应关系,这种情况通过编码转换就可以正确处理。然而,还有相当一部分简化字对应多个繁体字,例如简化字“干”对应四个不同的繁体字“幹”“干”“乾”“榦”。一对多汉字的转换是汉字简繁转换的重点和难点。一对多简化字只有通过对文本进行语法和语义分析,利用语句甚至篇章的上下文语境才能将其正确转换为对应的繁体字。因此,一对多简繁汉字转换是一个值得研究的课题,对汉字简繁转换性能起到至关重要的作用。2)简繁同实异名术语转换评测。由于海峡两岸各自按照自己的理解和习惯来定名,所以在术语方面存在着诸多不一致。例如,大陆将计算机领域的术语“software”翻译为“软件”,而台湾地区翻译为“軟體”。因此,如何识别术语并将其转换为正确的对应形式,也是简繁转换的核心问题之一。

基于上述讨论,本次评测的具体任务设置如下表所示:

任务号

转换类型

任务名称

任务描述

任务1

字转换

一对多简繁字转换评测

在给定的句子中,将具有多个目标繁体字的简化字转换为正确的繁体字

任务2

术语转换

简繁术语转换评测

给定一个句子,将指定术语转换为指定的目标地区(包括中国大陆和中国台湾)的形式

 2.1 一对多简繁汉字转换评测

针对一对多简繁汉字的转换,本评测针对给定数据集(以utf-8方式编码,全部为包含有一对多简体字的句子),要求参加评测的系统给出句子中指定简体字的目标繁体字。

给定数据格式:

<Doc>

  <Sent ID=0>

      <text>他对这件事毫无<待转换字></待转换字></text>

</Sent>

<Sent ID=1>

      <text>是用<待转换字></待转换字>冰和金属录制的</text>

</Sent>

<Doc>

提交结果格式:

Id    SenID    Run-tag    TargetCharacter

  其中各部分解释如下:

Id: 任务编号(此任务编号为1

SenID:句子编号

Run-tag:评测系统编号

TargetCharacter:目标繁体字

注意:不同字段以tab分割,下同

评价流程和评价指标:

主办方将会从所提供的待转换句子中抽取出一部分句子(不低于50%)作为最终的评价语料。评价指标为一对多简体字转换准确率:

一对多简化字转换准确率 = 评价语料中转换正确的字数目 / 评价语料中待转换的字数目

2.2 简繁同实异名术语转换评测

针对简繁同实异名术语的转换,本评测给定数据集(以utf-8方式编码,全部为包含有特定术语的句子),要求参加评测的系统给出句子中指定术语的指定目标地区(包括中国大陆和中国台湾)的对应术语。

给定数据格式:

<Doc>

  <Sent ID=0>

      <text><待转换术语>黑山</待转换术语>现任总统、社会主义者民主党候选人武亚诺维奇宣布自己赢得</text>

      <目标地区>台湾</目标地区>

</Sent>

<Sent ID=1>

      <text>2010104日,瑞典<待转换术语>卡羅琳學院</待转换术语>宣布將2010年度諾貝爾生理學</text>

      <目标地区>大陆</目标地区>

</Sent>

<Doc>

提交结果格式:

Id    SenID    Run-tag    TargetWord

  其中各部分解释如下:

Id: 任务编号(此任务编号为1

SenID:句子编号

Run-tag:评测系统编号

TargetWord:目标术语

注意:不同字段以tab分割,下同

评价流程和评价指标:

主办方将会从所有提供的待转换句子中抽取出一部分句子(不低于50%)作为最终的评价语料。评价指标为术语转换准确率:

术语转换准确率 = 评价语料中转换正确的术语数目 / 评价语料中待转换的术语数目

 

3.评测日程

2013.2.25:发布评测大纲

2013.2.26-2013.3.20:征集参评单位(提交报名表)

2013.3.20:报名截止

2013.3.20:公布评测数据

2013.3.20-3.22:参评单位运行系统,并提交评测结果

2013.3.22:评测结果提交截止

2013.3.22 - 3.26:组织方对提交结果进行评测

2013.3.27:向参评单位返回各自系统的评测结果

2013.3.29: 发布总体评测报告

 

4.评测组织

评测主办单位

教育部语言文字信息管理司

中国中文信息学会

评测支持单位

中国科学院软件研究所

中国科学院自动化研究所

中国科学院计算技术研究所

   北京大学

北京师范大学

教育部语言文字应用研究所

评测资源提供单位

中国科学院软件研究所

中国科学院自动化研究所

中国科学院计算技术研究所

北京大学

北京师范大学

教育部语言文字应用研究所

 

5.报名方式

报名单位到http://www.cipsc.org.cn/chcontent.php?&xuhao=81处下载报名表,填写盖章之后发送电子版本及扫描件到下面的邮件地址zste2013@126.com



来源:语信司
[上传时间:2013-02-25]
回首页 返回首页 放入收藏夹 放入收藏夹 打印 打印 向朋友推荐 向朋友推荐 关闭窗口 关闭窗口