汉语智能写作取得重大突破(在一线)
本报记者 董洪亮
《 人民日报 》( 2016年06月02日 18 版)
输入“时间”“学校”“参加人员”和“领导”等大学生运动会关键词,机器就迅速生成一篇1000多字的开幕式致辞,其中有致谢、天气情况、运动会人数及项目等。更难能可贵的是,致辞还富有情感色彩——这是日前在“2016中国汉语智能写作成果发布会”上的一幕。
5月下旬,北京语言智能协同研究院发布汉语智能写作重大突破——体育赛事新闻、大学生运动会开幕式致辞和高校学术活动总结稿件可以由智能写作平台自动完成写作。该成果是首都师范大学副校长周建设教授担任领衔专家的研究团队经过多年探索,在语言智能研究领域取得的一项重大理论和技术突破。
如何看待能够自动写作的机器
智能写作平台准确、快捷地生成应用稿件,具有开创性意义。北京大学计算语言学研究所所长王厚峰教授说,“演示令我很惊讶”。
据周建设介绍,智能写作是利用计算机完全自动地对收集的文档进行整理、提取、过滤、筛选、组装、写作,自动地生成相关文章。
北京语言智能协同研究院特聘教授吕学强说,研究团队通过对受限语体海量篇章文本数据的挖掘,提出了一种大数据的汉语表达智能模型并研发了汉语受限语体智能写作系统,构建了相关知识库体系。目前,智能写作平台能够完成受限语体的文稿,受限语体是有特定使用场合,结构、格式比较固定的语体。
这项汉语智能写作重大突破,是国家社科基金重大招标项目子项目——
“自然语言信息处理的逻辑语义学研究·言语生成系统”
“语言、思维、文化层次的高阶认知研究·语图生成系统”的阶段性成果;
也是国家自然科学基金项目——
“语义web中不确定知识的本体表示和融合的理论方法研究”
“无监督分词及词性归纳联合方法研究”
“e—earning中基于学业表情的情绪认知分析研究”的阶段性成果。
据介绍,汉语智能写作平台包含32项关键技术,其所写文稿内容流畅性、语义准确性与人工写作的差别在缩小。
智能写作平台的理论技术创新
想要机器像人一样自如写作,就要构建“人一样”的汉语表达智能模型。在语言生成的过程中,汉语智能写作平台对所要表达的信息进行语义和语法方面的聚合,其中,内容规划即内容确定+结构构造,句子规划包括选词、优化聚合、指代表达式生成等,句子实现就是将经句子规划后的文本描述映射至由文字、标点符号和结构注解信息组成的表层文本。
首都师范大学文学院教授史金生说,汉语智能写作平台构建了基于汉语智能表达的知识库,
其一是语言模板库——单词、短语、句子语料库;
其二是语义类型库——给汉语智能表达提供话语论域,以便将话题限定在特定语义领域内布局谋篇、组织语句。有两个子系统支持汉语表达智能模型,即“词项—语句”语义网络,实现从词到句子的自动生成;“语句—语篇”语义网络,实现自然语言语篇的自动生成。
汉语智能写作平台的理论突破主要是多源成像基础理论体系,即面向复杂教育知识体系,构建音频、视频、文字、图像为载体的多源异构数据融合模型和多模态人机交互模型,探索客体成像、认知成像和言语成像规律,解决客体、人脑与语言三个世界的成像同构问题。
汉语智能写作平台的技术突破主要体现在多模态认知意象可视化技术,包括智能教育机器人技术、学习轨迹跟踪与处理技术、“语—图”及“图—语”转换生成技术、语言生成与理解中的多源成像融合技术。
中国科学技术信息研究所研究员张寅生说,从高混乱度的信息材料中抽取知识,按特定场景、话题、文体进行写作,难度很大。他认为,这种汉语集成写作体现了人类智慧,是言语生成研究方向的历史性突破。
汉语智能写作的孕育和应用前景
汉语智能写作从最初设想到最终实现,经过了漫长跋涉。
周建设早在上世纪80年代即开始语言智能理解表达相关问题研究,发表了多篇论文。
其中《面向语言处理的计算与认知取向》一文,提出了“语言智能表达目标”,并初步提出构建语言生成系统的设想;
《基于大数据的汉语表达智能模型及其理论基础》一文,提出了构建基于大数据的汉语表达智能模型。
2015年,在前期理论指导下,研究团队开发了汉语受限预提智能写作平台,初步实现了前期构想的汉语智能表达系统。
北京语言智能协同研究院依托首都师范大学,该校在语言智能研究领域拥有北京市成像技术高精尖中心、自然科学与社会科学两界协同创新基地、市级协同创新中心等6个创新机构,还拥有3个相关博士学位授予权的一级学科、多个国家重点学科和北京高校重点实验室。研究院现有包括哈佛大学在内的协同单位20余家,研究团队专家100余人。近3年来,研究院参与科研项目30余项,获得发明专利15项,软件著作权40项,各类大数据资源库、语料库20余种。研究团队2016年在研项目包括国家社科基金重大委托项目、国家语委重大课题等,未来研究方向为金融和体育新闻、应用文书自动写作,中小学生作文辅助写作,还将瞄准智能教育机器人产品。
来自北京航空航天大学计算机学院的张小明认为,汉语智能写作平台生成的文稿内容流畅,还加入了情感因素,有很大应用价值。
本报记者 董洪亮
《 人民日报 》( 2016年06月02日 18 版)
输入“时间”“学校”“参加人员”和“领导”等大学生运动会关键词,机器就迅速生成一篇1000多字的开幕式致辞,其中有致谢、天气情况、运动会人数及项目等。更难能可贵的是,致辞还富有情感色彩——这是日前在“2016中国汉语智能写作成果发布会”上的一幕。
5月下旬,北京语言智能协同研究院发布汉语智能写作重大突破——体育赛事新闻、大学生运动会开幕式致辞和高校学术活动总结稿件可以由智能写作平台自动完成写作。该成果是首都师范大学副校长周建设教授担任领衔专家的研究团队经过多年探索,在语言智能研究领域取得的一项重大理论和技术突破。
如何看待能够自动写作的机器
智能写作平台准确、快捷地生成应用稿件,具有开创性意义。北京大学计算语言学研究所所长王厚峰教授说,“演示令我很惊讶”。
据周建设介绍,智能写作是利用计算机完全自动地对收集的文档进行整理、提取、过滤、筛选、组装、写作,自动地生成相关文章。
北京语言智能协同研究院特聘教授吕学强说,研究团队通过对受限语体海量篇章文本数据的挖掘,提出了一种大数据的汉语表达智能模型并研发了汉语受限语体智能写作系统,构建了相关知识库体系。目前,智能写作平台能够完成受限语体的文稿,受限语体是有特定使用场合,结构、格式比较固定的语体。
这项汉语智能写作重大突破,是国家社科基金重大招标项目子项目——
“自然语言信息处理的逻辑语义学研究·言语生成系统”
“语言、思维、文化层次的高阶认知研究·语图生成系统”的阶段性成果;
也是国家自然科学基金项目——
“语义web中不确定知识的本体表示和融合的理论方法研究”
“无监督分词及词性归纳联合方法研究”
“e—earning中基于学业表情的情绪认知分析研究”的阶段性成果。
据介绍,汉语智能写作平台包含32项关键技术,其所写文稿内容流畅性、语义准确性与人工写作的差别在缩小。
智能写作平台的理论技术创新
想要机器像人一样自如写作,就要构建“人一样”的汉语表达智能模型。在语言生成的过程中,汉语智能写作平台对所要表达的信息进行语义和语法方面的聚合,其中,内容规划即内容确定+结构构造,句子规划包括选词、优化聚合、指代表达式生成等,句子实现就是将经句子规划后的文本描述映射至由文字、标点符号和结构注解信息组成的表层文本。
首都师范大学文学院教授史金生说,汉语智能写作平台构建了基于汉语智能表达的知识库,
其一是语言模板库——单词、短语、句子语料库;
其二是语义类型库——给汉语智能表达提供话语论域,以便将话题限定在特定语义领域内布局谋篇、组织语句。有两个子系统支持汉语表达智能模型,即“词项—语句”语义网络,实现从词到句子的自动生成;“语句—语篇”语义网络,实现自然语言语篇的自动生成。
汉语智能写作平台的理论突破主要是多源成像基础理论体系,即面向复杂教育知识体系,构建音频、视频、文字、图像为载体的多源异构数据融合模型和多模态人机交互模型,探索客体成像、认知成像和言语成像规律,解决客体、人脑与语言三个世界的成像同构问题。
汉语智能写作平台的技术突破主要体现在多模态认知意象可视化技术,包括智能教育机器人技术、学习轨迹跟踪与处理技术、“语—图”及“图—语”转换生成技术、语言生成与理解中的多源成像融合技术。
中国科学技术信息研究所研究员张寅生说,从高混乱度的信息材料中抽取知识,按特定场景、话题、文体进行写作,难度很大。他认为,这种汉语集成写作体现了人类智慧,是言语生成研究方向的历史性突破。
汉语智能写作的孕育和应用前景
汉语智能写作从最初设想到最终实现,经过了漫长跋涉。
周建设早在上世纪80年代即开始语言智能理解表达相关问题研究,发表了多篇论文。
其中《面向语言处理的计算与认知取向》一文,提出了“语言智能表达目标”,并初步提出构建语言生成系统的设想;
《基于大数据的汉语表达智能模型及其理论基础》一文,提出了构建基于大数据的汉语表达智能模型。
2015年,在前期理论指导下,研究团队开发了汉语受限预提智能写作平台,初步实现了前期构想的汉语智能表达系统。
北京语言智能协同研究院依托首都师范大学,该校在语言智能研究领域拥有北京市成像技术高精尖中心、自然科学与社会科学两界协同创新基地、市级协同创新中心等6个创新机构,还拥有3个相关博士学位授予权的一级学科、多个国家重点学科和北京高校重点实验室。研究院现有包括哈佛大学在内的协同单位20余家,研究团队专家100余人。近3年来,研究院参与科研项目30余项,获得发明专利15项,软件著作权40项,各类大数据资源库、语料库20余种。研究团队2016年在研项目包括国家社科基金重大委托项目、国家语委重大课题等,未来研究方向为金融和体育新闻、应用文书自动写作,中小学生作文辅助写作,还将瞄准智能教育机器人产品。
来自北京航空航天大学计算机学院的张小明认为,汉语智能写作平台生成的文稿内容流畅,还加入了情感因素,有很大应用价值。