2015年9月10日,应中国科学院自动化研究所宗成庆研究员和张家俊博士的邀请,清华大学计算机系刘洋副教授在自动化所模式识别国家重点实验室做了题为“基于非平行数据的翻译模型训练方法”的学术报告。自动化所宗成庆研究员、赵军研究员、周玉博士、张家俊博士、汪昆博士、向露以及中国传媒大学程南昌博士等30余名师生参加了此次讲座。
目前,平行语料库是主流统计机器翻译方法的基础与核心。然而,由于平行语料库的主要来源是存在多种官方语言的政府网站,语料库的数量和领域覆盖面都受到严重制约。由于互联网上存在海量的非平行文本数据,如何利用非平行数据训练翻译模型是当前重要的研究方向。刘洋老师在本报告介绍了两种基于非平行数据的翻译模型训练方法:(1) 基于译文检索的平行语料库自动构建和(2)基于非平行数据的IBM模型训练,前者将信息检索与机器翻译相结合,从海量的非平行语料库中快速准确发现平行句对,后者采用无监督学习算法直接从非平行语料库中训练IBM模型。最后,刘洋老师介绍了几点非常有趣的正在进行中的研究工作,并对未来工作进行了展望。
刘洋老师的报告生动形象、深入浅出,甚至不懂机器翻译的同学也表示完全听明白了。报告中,现场气氛非常活跃,刘洋老师对与会老师和同学提出的问题一一进行了细心解答。报告后,与会老师和同学纷纷对刘洋老师研究工作的深度、系统化以报告的条理性表示由衷赞叹,相信同学们会深受这次报告的启发,做出越来越出色的研究工作。
图1:刘洋老师在报告中
图2:与会老师合影