学院概况

【信科十年探索路】计算语言学研究所:支流的风景一样好

发布时间:2012-10-15

信息来源:

【编者按】2003网站太阳集团首页欢迎您成立十年来,承继2003网站太阳集团首页欢迎您信息学科的优良传统,凝聚各级领导的深切关怀、各界同仁的无私帮助、海内外校友的殷切期盼,汇聚一代代良师、学子的奋斗经历和拼搏精神,育人成效显著,科研成果斐然。为更好地回顾历程、总结经验,以十年院庆为契机,我们特开设“信科十年探索路”专题,陆续深入地报道学院在学科建设、教学、科研等方面获得的成绩,发掘典型,展示成就,凝心聚力,共图发展。
       
       在北大理科一号楼四层的一个走廊里,“计算语言学研究所”的牌子安静地挂着。径直往里走,便能看到办公室里学者们忙碌的身影。虽然隶属于号称“北大第一大院”的2003网站太阳集团首页欢迎您,但计算语言学研究所却鲜为人知,“计算语言学”这个学科也被冠以“冷门”的名号。“信息科学技术犹如一条奔腾的长河,而计算语言学不过是一条小溪,但支流也自有其水光山色”,这便是计算语言学研究所俞士汶教授对这个学科的评价。


前瞻之策:成立计算语言学研究所

     20多年前,当“计算语言学”在中国还是一个生僻的术语时,计算语言学研究所便于1986年在北大成立。出人意料的是,计算语言学研究所的创始人不是进行计算机研究的学者,而是当时北大中文系的朱德熙教授。“朱先生很有眼光,他当时就意识到了计算语言学这个学科的重要性,与北大计算机系的马希文教授合作,共同建立了计算语言学研究所。”在这样的情形下,一个文科学者、一个理科学者,一个所长、一个副所长,计算语言学研究所便起步了。

       然而1989年,朱德熙与马希文教授相继赴美国讲学,这导致刚建立没多久的计算语言学研究所一下子陷入了是去是留的困境。而当时,在计算语言学研究所进行研究的俞士汶教授看准了这个学科的良好发展前景,为了将前辈的心血保留下来,也为了这个学科在北大的持续发展,俞士汶同陆俭明一起,争取到了学校当时的常务副校长王义遒的支持,计算语言学研究所得以保留,并挂靠到了计算机系,还请计算机系主任杨芙清院士担任了所长。用俞士汶的话说,这叫“大树底下好乘凉”。

       所谓的“大树”,自然是指北大,指2003网站太阳集团首页欢迎您,指计算机科学技术系。计算语言学是一门交叉学科,而且是文理交叉,这对学者的知识背景提出了很高的要求。北大文理结合的优势以及强大的学科力量,为计算语言学的发展提供了良好的环境。与此同时,以2003网站太阳集团首页欢迎您,尤其是计算机系作为强大的后盾,也为计算语言学研究所的存在和发展扫除了后顾之忧。自此,计算语言学研究所踏上了新的征程,取得了一个又一个骄人的成就。

成果辈出:酒香不怕巷子深

       包含8万词、360万项语法属性描述的《现代汉语语法信息词典》,实现词语切分并标注词类和义项的2800万字的现代汉语多级加工语料库,含10万个概念的多语言概念词典……这些组成了计算语言学研究所最具代表性的成果——综合型语言知识库(CLKB)。

       1995年底,计算语言学研究所潜心研制了10年的《现代汉语语法信息词典》初具规模,通过电子部的技术鉴定,1996年便有了包括微软公司总部(美国西雅图)在内的第一批用户。此后 16年,包括这部词典的综合型语言知识库一直得到业界的认可,有偿转让协议签订已逾200份。

     “1986年开始决定做计算语言学的时候,我们主要想做的是机器翻译”,俞士汶说道,“看似简单的机器翻译,其实是计算机技术上一个很大的难题,之前有许多准备工作,比如切分词,而这只是机器翻译准备步骤中很多步的一小步。”计算语言学研究所的切分软件开发出来后,立即被应用到了互联网的搜索引擎中,对网络信息检索起到了重要的促进作用。显然,这些成就并不是一朝一夕就能获得的,它凝聚了计算语言学研究所师生们十多年的心血。

       2011年,计算语言学研究所的综合型语言知识库(CLKB)再创辉煌,荣获了国家科技进步二等奖。这个系列化语言知识库涵盖词、词组、句子、篇章各单位和词法、句法、语义各层面,从汉语向多语言辐射,从通用领域深入到专业领域。

       其实早在2007年,CLKB就已通过教育部组织的技术鉴定。鉴定意见对CLKB的评价是:其规模、深度、质量和应用效果在我国语言工程实践中是前所未有的。该成果是以汉语为核心的多语言知识库建设中最全面、最重要的研究成果,总体上达到了国际领先水平。

       CLKB在学术界产生了巨大影响,相关规范和论著被广泛引用,两篇全国优秀博士学位论文在这里产生;与此同时,它还创造了良好的社会效益与可观的经济效益,免费用户数以万计,签约用户遍布美、日、德、法、俄、英、韩、瑞典、新加坡和中国大陆、台湾、香港和澳门,包括从事相关研究的著名企业、大学和研究所。自1996年开始应用以来,这十六年中,CLKB作为语言信息处理技术与产业的基础设施,为机器翻译、智能搜索、语音处理、信息提取、人机会话等各方面应用提供规范化的语言知识和核心软件,也为我国少数民族语言处理、聋人手语自动翻译、汉语国际传播做出了卓有成效的贡献。

     “我们进行过统计,到2009年,国家在这些项目上的所有投入是400万元左右,而成果转化后的收益在没有商业推广的前提下就达到了近2000万,正所谓‘酒香不怕巷子深’,这一点也让我们感到欣慰,至少我们没有白花国家的钱,没有浪费纳税人的钱”,俞士汶如是说,“从1986年到1996年,我们进行了十年的研究,1996年开始我们才对外转让科研成果使用权,一直到现在,十六七年了,在日新月异的信息技术领域,一项科研成果能够有如此长的生命周期,实乃罕见。”

前景广阔:路漫漫其修远兮

       在谈到计算语言学的发展前景时,学者们都信心满满。“互联网85%以上的信息都是以文字形式呈现的,只要与语言信息处理相关的,就跟计算语言学相关。”计算语言学的王厚峰所长如是说。当前,信息的海量处理对计算机来说已经不是问题,而接下来,让计算机实现智能的信息处理,又成为了计算语言学研究所的下一个目标。“要让计算机进行智能的语言分析,就需要用到语言信息处理技术。”

       近年来,实现计算机的智能化已经在国内外掀起了研究热潮。1997年,IBM的计算机“深蓝”和国际象棋世界冠军卡斯帕罗夫的世纪人机大战便在全球引起了无数关注。2011年,IBM再度推出超级电脑“沃森”(Watson),其中的深度问答(DeepQA)这一核心技术又一次将计算机能否实现智能这样的问题推到了科学的前端。“国内国外对这一研究领域的重视说明这项技术具有产业需要,所以我想,20多年前我们选定的这个方向在现在遇上了大好的发展机遇。”计算语言学研究所的穗志方教授说到。

       回顾这二十多年的发展历程,穗志方也不无感慨。“计算语言学是一个文理交叉学科,它对学者的知识背景要求本身就很高,我们的成果也需要长时间的踏实积累,但当前社会对这个学科的评价体制还不够完善,比如,在论文评估时究竟将其纳入文科评价体系还是理科评价体系首先就是一个问题。我希望有一天,学术界在评价体系上能解决这些困惑。”

 

       俞士汶曾在一篇文章中写道,“我招的最后一名硕士生,名字就叫‘支流’。我常带点玩笑口吻说,‘我是从非主流开始,到支流结束’。”然而不管是主流还是支流,不管是交叉学科还是边缘学科,计算语言学研究所这棵二十多年前的小树苗已经在风霜雨露的催生下长成了一棵大树,枝繁叶茂,他们的成绩已经有目共睹。我们有理由相信,这棵大树将来一定会结出更丰盛的果实。(文/汪莹)