bakeoff快讯
1.[2007-10-26]
Dear Bakeoff Participants,
Thank you for participating in the SIGHAN Bakeoff. We are looking forward to your writeup on your system and results. You will receive further information on where and how to submit your paper in due course. Meanwhile please provide us with the following information, so that we could set up a slot in the START system for you. Please send the following information to bakeoff_4@126.com with subject line "Bakeoff Paper Info" on or before 31 October 2007:
1. Tentative title of your paper
2. Corresponding author's name, affiliation, phone, and email
3. Whether any of the authors will attend the workshop in person to present the paper
When you prepare your final paper, make sure you refer to http://www.ijcnlp2008.org/styles/index.html for detailed author instructions. In particular, we would like to draw your attention to the following guidelines:
1. You are strongly recommended to use the style files provided on the website, which are tailor-made for the IJCNLP-08 conference.
2. Papers must follow the two-column format with the appropriate margins as specified in the instructions.
3. It is very important to specify US Letter for paper size.
4. In general, each team should just submit one paper, regardless of the number of tasks you joined. The maximum length of your paper is 4 pages for teams joining only one task, and 6 pages for those joining more than one tasks.
5. Do not change the font sizes in the style files.
6. Do not include headers and page numbers on your paper.
7. Do not use all-capitalized letters in the last names of the authors on the first page, i.e. only the first letter of the last names should be capitalized.
8. Your final paper should be submitted no later than 16 November 2007 23:59 GMT.
2.bakeoff08评测成绩已经揭晓,现公布于此。各评测项目所需的标准答案和其它资源请登录注册网站后下载,此处只提供下载:(1)成绩表 (2)bakeoff08评测系统。[2007-10-15]
3.到目前为止,我们已收到以下参赛者发来的结果文件,其ID如下:1、2、3、5、7、8、9、11、14、15、16、18、19、21、22、23、24、25、26、27、28、29、30、31、33、34、37、39。如果有参赛者发来了结果文件,但是其ID号不在其中,或下载列表中ID号和所提交的结果对应有误,请速与我们联系。[2007-09-28]
4.由于特殊原因,本次bakeoff评测将取消在北京大学计算语言学研究所提供的命名实体识别语料上的评测,我们将不再接收在该项目上的测试结果。详情请点击下载。[2007-09-26]
5.我们开始准备为参赛者分配唯一的参赛ID号,分配完毕,我们将通过邮件的形式将ID号发送到各个参赛者注册时留下的邮箱中。请各位参赛者尽快登录网站查看您的各项信息,务必保证各项信息准确无误,否则由此引起的一切后果自己承担![2007-09-26]
6.北京大学提供的命名实体识别训练语料(pku_train_ner.rar)和国家语言文字应用研究所的中文分词训练语料(ncc_train_seg.rar)已经刷新过,希望参加上述语料评测的参赛单位下载最新版本的语料。另外,希望各语料提供单位在提交测试语料时务必做好文件的格式及全半角字符检查。[2007-09-10]
7.鉴于部分欲参加本次bakeoff评测的参赛者未能在北京时间2007年8月25日前注册,现将注册时间延长至北京时间2007年9月25日中午12:00。[2007-09-03]
8.到目前为止,共有以下42支参赛队伍[2007-09-26]:
| Sequence number | Site name |
Location |
| 1 | Simon Fraser University | Canada |
| 2 | 中国科学院自动化研究所 | China |
| 3 | 香港城市大学 | China |
| 4 | 复旦大学 | China |
| 5 | Computing Laboratory, University of Oxford | China |
| 6 | 戴帅湘(个人) | China |
| 7 | 南京师范大学 | China |
| 8 | 中科院软件所 | China |
| 9 | 南京大学 | China |
| 10 | 山西大学计算机与信息技术学院 | China |
| 11 | 香港城市大学中文翻译及语言学系 | China |
| 12 | 北京大学 | China |
| 13 | IRLab of Dalian University of technology | China |
| 14 | 澳門大學, 科技學院, 澳門電腦與系統工程研究所 | China |
| 15 | 北京邮电大学智能科学技术研究中心 | China |
| 16 | 香港中文大学 | China |
| 17 | 微软亚洲研究院和东北大学 | China |
| 18 | 北京法国电信研发中心有限公司 | China |
| 19 | 北京大学计算语言所 | China |
| 20 | 北京大学视觉与听觉信息处理国家重点实验室 | China |
| 21 | 大连理工大学 | China |
| 22 | 复旦大学计算机与信息技术系网络工程中心 | China |
| 23 | 诺基亚(中国)投资有限公司,诺基亚研究中心 | China |
| 24 | 上海贝科软件有限公司 | China |
| 25 | 北京大学计算机科学技术研究所 | China |
| 26 | 哈尔滨工业大学计算机科学与技术学院 智能技术与自然语言处理研究室 | China |
| 27 | Private | China |
| 28 | 北京理工大学 | China |
| 29 | SCUT | China |
| 30 | 合肥电子工程学院 | China |
| 31 | Dept. of Decision Sciences, The Chinese University of Hong Kong | Hong Kong |
| 32 | IIIT-H | India |
| 33 | Mohan RAO | Italy |
| 34 | Nara Institute of Science and Technology, JAPAN | Japan |
| 35 | NiCT/ATR | Japan |
| 36 | Pohang University of Science and Technology | Korea |
| 37 | 國立中央大學 | Taiwan |
| 38 | 東南科技大學 | Taiwan |
| 39 | NaCTeM | UK |
| 40 | USA |
|
| 41 | Yahoo! Inc | USA |
| 42 | Language Computer Corporation | USA |
9.中文分词评测专题讨论会报告[2007-09-03]
2007年8月6日在全国第九届计算语言学学术会议(JSCL-2007)召开的当天晚上加插了一场中文分词评测专题讨论会,主题是“中文分词评测的相关问题讨论”。经过第一天紧凑的会议日程,讨论会仍得到百多位老师同学的积极参与,会上发言踊跃、讨论热烈,实在令人鼓舞。同时,也反映了大家对中文分词这个老题目仍然十分关注。
讨论会由 ACL国际计算语言学会属下的 SIGHAN 汉语语言处理兴趣小组和中国中文信息学会联办,并得到 AFNLP 亚洲自然语言处理联盟的支持,这次邀得几位在中文分词和评测各个方面的专家在台上发言,包括微软亚洲研究院黄昌宁教授、香港城市大学邹嘉彦教授、教育部语言文字应用研究所靳光瑾博士、中国科学院刘群博士、以及专程从美国前来参加讨论会的芝加哥大学李琴博士(Dr. Gina-Anne Levow),主持人是香港城市大学邝蔼儿博士。
讨论会在晚上大概八时二十分开始,以中英双语进行,主持人首先欢迎所有出席的老师同学,并指出是次讨论会饶有意义,因为 SIGHAN 第六次会议将在2008年一月在印度海德拉巴举行,同时,第四届 SIGHAN 国际中文自然语言处理评测(International Chinese Language Processing Bakeoff)马上就要进行,而且这次评测将会与第一届中国中文信息学会汉语处理评测联合举行,由 SIGHAN、中文语言资源联盟、以及国家语委语言文字规范标准测查认证中心共同组织,语用所靳光瑾博士统筹。我们希望透过这场讨论会,再次引起大家的兴趣,达到共同推动自动分词技术的目标。
台上的专家首先轮流发言。邹嘉彦教授先指出分词是一项语言工程的艰巨挑战,当中有关语言和信息的整体意义更不可忽视,从而带出分词背后的深层问题,值得深思。接着是李琴博士引导大家回顾过去 SIGHAN 评测的经验,总结各种理论和技术问题,堪为未来的评测借鉴。分词规范从来是分词评测的必然问题,靳光瑾博士向大家介绍了国家语委花了十多年筹备建设、最近出台的国家语委现代汉语语料库,为国家规范的语言资源建设掀开新一页。接下来刘群博士按他办评测的丰富经验,分析了汉语自动分词评测的历史和现状,展望未来,也提出了几个需要解决的问题。最后黄昌宁教授向大家说了一则有关评测的故事,故事简短但教训深刻,特别点出了评测指标的考虑,其合理应用对推动分词技术有莫大意义。
接着是自由讨论时间,包括宋柔、苑春法、吴安迪、江荻、黄萱菁、宗成庆等多位与会者踊跃提问,台上专家积极回应,大家关心的问题广泛,包括词典在分词评测中的角色、各类分词方法如何客观比较、如何在现有评测基础上再进一步、评测对于工业应用的有效性等等,一时间讨论声音此起彼落,掀起讨论会的高潮。
讨论会进行了差不多两个小时,讨论气氛一直炽热,相信我们对于分词和分词评测的意义又多了几分了解,对于我们举办评测定有裨益。主持人再次呼吁大家支持SIGHAN在印度的第六次会议和第四届国际中文自然语言处理评测,亦祝愿这次评测成功。