2018年4月28日,应中国中文信息学会青工委委员、厦门大学苏劲松老师邀请,中科院计算所的郭嘉丰老师,武汉大学的李晨亮老师以及中科院自动化所的张家俊、刘康两位老师来到厦门大学举行了题为“基于深度学习的自然语言处理研究进展”的四场系列学术讲座。本次活动在厦门大学海韵园科研楼一号楼的三楼报告厅举行,报告由苏劲松老师主持。参与系列报告活动的人员包括厦门大学软件学院、信息科学与技术学院以及一些跨学科前来参会的老师、学生,其中前来听讲的学生中既有从事自然语言处理相关研究的硕士生、博士生,也有许多对自然语言处理深感兴趣的本科生。沙龙首先由青工委执委刘康老师对青工委进行了简单的介绍,并向在座的老师同学预告了今年晚些时间会举行的一系列由青工委主办的学术活动。
活动的具体内容如下:
(1)郭嘉丰老师报告题目—“Modeling Relevance from a Cognitive View”
信息检索技术在当今人们的生活之中已经是一种不可缺少的技术了,现在人们在遇到问题的时候总会倾向于到网络上搜索一下,很快搜索引擎就会返回一大堆的答案。然而如何让搜索引擎返回的答案更加符合用户的需求一直是学术界和工业界非常关注的一个重要问题。郭嘉丰老师在报告中介绍了一种基于人的认知过程所设计的基于深度学习的信息检索方法,不再像传统的网页信息检索办法那样将网页看成是朴素的文本信息,而是将网页内容还原成其在浏览器中出现的形式再输入给神经网络模型进行信息提取,这样神经网络所看到的网页包括了图片、视频、不同大小的字体等等的信息。实验结果表明加入的这些信息对于模型找到网页与用户搜索的问题的匹配关系具有重要的辅助作用。
郭嘉丰老师是中科院计算机技术研究所研究员,中国科学院大学岗位教授,国家自然科学基金优秀青年基金获得者。长期从事信息检索与数据挖掘方向的基础研究,研究方向包括用户查询理解、排序学习、文本建模、神经网络搜索等。在本领域国际重要学术会议与期刊上发表学术论文80余篇(如TKDE、SIGIR、AAAI、CIKM等),Google Scholar累计引用2500余次,获得ACM CIKM 2011最佳论文奖,ACM SIGIR 2012最佳学生论文奖,ACM CIKM 2017最佳论文Runner-up奖,2012年国家科技进步二等奖、2012年中国中文信息学会“钱伟长中文信息处理科学技术奖——汉王青年创新奖”一等奖,2016年中科院青年促进会优秀会员等。
(2)张家俊老师报告题目—“基于部分标注的机器翻译方法探索”
机器翻译研究如何利用计算机实现自然语言之间的自动翻译,是人工智能和自然语言处理领域的重要研究方向之一。目前基于深度学习的机器翻译方法由于其更好的翻译效果,已经取代了传统的统计机器翻译方法成为学术界和工业界新的主流方法。然而基于深度学习的机器翻译模型往往需要大量的平行语料进行训练,而目前世界上有许多语种之间的平行语料非常稀少,这样稀少的语料难以训练一个好的机器翻译模型。在这样的前提下,张家俊老师介绍了几种解决这一问题的思路,包括为相同图片产生双语的描述作为可比语料以及通过已有词典的方式从大量的数据中提取出一些可比语料,来增加训练数据。
张家俊老师是中科院自动化所模式识别国家重点实验室副研究员,中国科学院青年创新促进会会员。研究方向为自然语言处理、机器翻译、跨语言文本信息处理、深度学习等。现任人工智能学会青年工作委员会常务委员、中文信息学会计算语言学专委会和青年工作委员会委员。在国际著名期刊IEEE/ACM TASLP、IEEE Intelligent Systems、ACM TALLIP与国际重要会议AAAI、IJCAI、ACL、EMNLP、COLING等发表学术论文50余篇。曾四次获自然语言处理学术会议(PACLIC-2009、NLPCC-2012、CWMT-2014和NLPCC-2017)最佳论文奖。2014年获中国中文信息学会“钱伟长中文信息处理科学技术奖”一等奖(排名第三)。2015年入选首届中国科协“青年人才托举工程”计划。担任国际人工智能大会IJCAL-2017和IJCAL-2018的高级程序委员会委员、国际自然语言处理大会COLING-2018的领域主席以及2018年全国机器翻译研讨会CWMT-2018的程序委员会共同主席。
(3)李晨亮老师报告题目—“跨语言情感分析中的语言差异性模型”
文本情感分析在自然语言处理领域一直是一个热点问题。基于深度学习的文本情感分析模型依赖于大量的训练数据进行训练,然而许多任务上训练数据的匮乏使得分类模型的效果无法达到人们的预期。因此,一部分研究人员把眼光放到了跨语言的情感分析任务上。李晨亮老师首先概述了跨语言情感分析这一课题,然后向大家介绍了他所在的研究组提出的一种建模语言差异性的方法并通过实验结果向大家展示了这一方法的有效性。最后李晨亮老师还向大家介绍了对未来可能出现的一些工作的展望。
李晨亮老师是武汉大学国家网络安全学院副教授,硕士生导师。入选武汉大学珞珈青年学者,目前担任中国中文信息学会青年工作委员会委员、社交媒体专委会委员、信息检索专委会委员。担任IEEE TKDE、ACM TOIS、JASIST、ACMTWEB等国际权威学术期刊审稿人;单人SIGIR、ACL、WWW、CIKM、IJCAI、EMNLP权威国际学术会议程序委员会委员(TPC),并担任权威期刊ASIST编委。在SIGIR,CIKM,TKDE,JASIST 等信息检索、数据挖掘的权威国际会议和期刊上以第一作者发表论文近20篇,并获SIGIR2017 年Outstanding Reviewer Award; SIGIR2016 Best Student Paper Award Honorable Mention。
(4)刘康老师报告题目—“基于深度学习的知识问答”
近年来,知识问答一直是自然语言处理领域的一个重要问题。智能问答也渐渐地在我们的日常生活中开始频繁出现,比如一些聊天机器人和一些智能回答用户问题的导航机器人等等。刘康老师首先向大家介绍了知识问答系统的一些基本概念,并且介绍了现在基于深度学习的知识问答系统的一些做法以及存在的一些问题。为了便于大家理解,刘康老师以淘宝客服问答的例来说明知识问答系统面临的多个问题多个答案的情况,并且介绍了他们的一项匹配问题与对应答案的工作,通过实验证明了他们的工作在该任务上表现出色。
刘康老师是现任中科院自动化所模式识别国家重点实验室副研究员,西安电子科技大学客座教授。研究领域包括信息抽取、网络挖掘、问答系统等,同时也涉及模式识别与机器学习方面的基础研究。在自然语言处理、知识工程等领域国际重要会议和期刊发表论文九十余篇(如TKDE、ACL、IJCAI、EMNLP、COLING、CIKM等),获得KDD CUP 2011 Track2 全球亚军,COLING 2014最佳论文奖,首届“CCF-腾讯犀牛鸟基金卓越奖”、2014年度中国中文信息学会“钱伟长中文信息处理科学技术奖-汉王青年创新一等奖”、2015、2016 Google Focused Research Award等。
报告结束后,在场的各位老师、专家学者和在座的同学们进行了进一步深入的交流,同学们进一步了解了各个老师团队的工作,并就相关学术研究上的一些问题进行了讨论,对于研究工作有了新的启发和思路。本次活动的开展,有利地扩大了自然语言处理,深度学习,中文信息学会青工委在厦门大学的影响力。