2019年3月23日,中文信息学会青工委学术报告会于华中科技大学计算机科学与技术学院成功举行,本次学术报告会旨在加强武汉及周边地区高校自然语言处理的学术交流与合作。本次会议由中国中文信息学会青年工作委员会(青工委)和华中科技大学认知计算与智能信息处理实验室联合组织。青工委委员中科院自动化所刘康教授、哈尔滨工业大学车万翔教授、清华大学刘知远副教授、中国人民大学徐君教授及北京理工大学毛先领副教授参加了报告会。
报告会开幕时,青工委主任刘康教授代表组织方介绍了青工委的基本情况。随后,五位专家带来了精彩的学术报告。
首先中科院自动化所刘康教授带来题为《开放域知识抽取研究新进展》的报告。知识图谱是人工智能的核心基础设施之一,对于语义内容理解有重要的支撑作用。在本次报告中,刘康老师介绍了从非结构化文本中抽取结构化知识的基本方法,其中重点介绍了融合知识的事件抽取和基于知识蒸馏的事件语义表示等研究的最新进展。同时,针对当前开放域下多种知识类型缺乏标注数据的现状,刘康老师介绍了异构数据对其和自动回标获得训练数据等有效方法从而自动进行数据标注,训练鲁棒的知识抽取器。在最后,刘康老师分享了其课题组在金融领域实践过程中的经验和体会。
刘康教授报告
哈尔滨工业大学车万翔教授带来题为《从“静态”到“动态”词向量》的精彩报告。以Word2vec,GloVe等为代表的“静态”词向量假设“一个词由唯一的向量表示”,忽略了一个词在不同上下文下的差异。以ELMo和BERT为代表的上下文相关词向量取消了以上假设,在不同的上下文环境下,赋予相同的词以不同的词向量,在众多自然语言处理任务上取得了很好的效果。车老师的报告首先介绍“静态”词向量到“动态”词向量的演化过程,接着介绍其所在课题组基于“动态”词向量所做的一系列研究工作,最后对“动态”词向量技术的发展趋势进行了展望。
车万翔教授报告
清华大学刘知远副教授介绍了《知识指导的自然语言处理》。作为典型的数据驱动方法,深度学习面临可解释性不强等难题,如何将人类积累的大量语言知识和世界知识引入深度学习模型,是改进NLP深度学习模型性能的重要方向,同时也面临很多挑战。刘知远老师向大家介绍知识指导的自然语言处理的最新进展与趋势,并向我们阐述了为什么AI=数据驱动+知识指导。刘知远老师认为世界知识对于丰富知识文本的深度理解具有重要的意义,知识表示学习是目前最好的解决方案。同时刘老师向我们展示了其课题组在将HowNet的义原知识运用到深度学习中的相关研究工作,包括融合义原知识的词义表示学习和基于语义表示学习的义原推荐等。
刘知远副教授报告
北京理工大学毛先领副教授的主要研究方向为机器学习和网络数据挖掘。报告会上,毛老师带来了题为《Similarity-preserved Hashing for ANN search》的报告。报告围绕了相似度保留哈希算法(Similarity-preserved Hashing)在传统的接近最近邻搜索算法(Approximate Nearest Neighbor,ANN)当中的应用,有效降低存储的空间复杂度和检索的时间复杂度。会中,毛先领老师介绍了三个近期的研究工作,包括对于层次化标签数据的有监督哈希算法,对于社交媒体嵌入的哈希算法和基于目标实体检测的哈希算法。
毛先领副教授报告
最后登场的是中国人民大学信息学院的徐君教授带来题为《Reinforcement Learning to Rank with Pairwise Policy Gradient》的报告。徐君老师从网页的排序算法与评价指标为切入点,讲到了以绝对评分为尺度的pointwise方法对于特定情况存在误判。以此引出其最近研究的基于pairwise的排序方法。同时,徐老师在pairwise的基础上,充分结合了reinforcement learning的特点,将排序算法转变成为一种不断学习,不断优化的过程。最终徐君老师也从实验数据结果给出解释,模型能够加强较难排序的情况,当然也适当牺牲了对于较简单排序情况下的表现。徐老师细致、投入的讲解,引得台下掌声不断。
徐君教授报告
本次报告吸引了来自各个学校和单位的师生及工业界人士参加。各位老师内容详实、精彩生动的报告给大家留下了深刻印象。所有到场听众都表示收获颇多,针对报告的内容,到场同学还与各位老师还进行了进一步的探讨和交流,会场气氛相当热烈。