机器作诗,灵魂何在?矣晓沅这样回答(2图)

发布时间:2021-01-07 20:05 | 来源:京报网 2020-12-31 10:40 | 查看:1938次

诉别离,它说,“离别恨难分,琵琶不忍闻。断肠空有泪,明月已无魂。”

矣晓沅做客央视知名文化类节目《朗读者》。

忆荷塘,它说,“荷叶满池塘,月色波光聚。万顷琉璃漾碧漪,秋水澄清露。”

咏春日,它说,“三月初春雪未消,东风吹送柳丝飘。绿杨枝上莺声急,红杏梢头蝶梦遥。”

它是谁?它是“熟读”诗歌90万首,通晓平仄、押韵、对仗等“潜规则”,只需输入关键词句,即可在数秒之内出口成诗的人工智能机器人,名曰九歌。

这位古诗界的“最强大脑”,诞生于清华大学自然语言处理与社会人文计算实验室,其主要研发者矣晓沅,是清华园里一位轮椅上的博士,在与“不死的癌症”做斗争的同时,他潜心科研,花了五年时间,与同伴携手打造出这套线上作诗系统。

无形无影的九歌,寄托了他的志向,也带领他抵达诗意的远方。

在清华大学读研期间,矣晓沅开发和操作人工智能“九歌”网页版。 本报记者 和冠欣摄

轮椅上的人生,能走多远?

“沅有芷兮澧有兰,思公子兮未敢言。”《楚辞·九歌·湘夫人》中,沅澧两岸的芳草,常被后人用来比喻品德高洁的人。这也是晓沅名字的由来。

原本,他叫矣典。6岁起,身体被类风湿性关节炎纠缠,这种有着“不死的癌症”之称的疾病,犹如病毒一般,会逐渐侵蚀人体关节,从此,他的身体“切换”为慢节奏,跑不快,跳不高,甚至走不远。

之后,家人将他的名字从矣典改为矣晓沅。父母期盼,长大后的晓沅,如沅芷澧兰那般高洁,那么顽强。

11岁那年,病魔再次突袭。因为长期服用激素药物,小男孩的免疫力下降,一场水痘,从身体蔓延至食道、肺部,差点要了他的命。一个多月,在重症监护室经历生死之劫后,他的命终于被抢救回来,然而迎接他的却是股骨头坏死、双腿萎缩、力量孱弱,从此,受困的身体只能与轮椅为伴,连捡铅笔这样的小事儿也无能为力。

休学、绝望、复学、送读……无法自由行走的晓沅,多了思考的时间,对他而言,一支笔,一本书,就是全部世界。他读书,他思考,他演算理科题,他是中学里名副其实的学霸。

2012年高考,晓沅以玉溪市理科榜眼、云南省理科第16名的成绩考入清华计算机系,那年,该系在云南仅招收两人,晓沅也成为云南首位考上清华的双下肢残疾学生。

那年8月,他入读清华园,考上大学的喜悦很快被残酷的现实冲淡。在高手云集的清华计算机系,编程高手比比皆是,来自偏远地区的晓沅,别说编代码,连C语言、C++都没听说过。

追赶,从最基础的打字开始。开学头几周,别人去军训,他在宿舍对着打字软件狂练,三周内硬是赶上了别人的手速,还学会了盲打。

大一期中考,物理也遭遇“暴击”,挂科了。“我不服输,我一定要赶上来!”之后几个月,晓沅拿出备战高考的劲头,刷题、背公式、归纳知识点,咨询同学,请教老师,期末考试,终以90多分的成绩成功“逆袭”。

最核心的编程,他补得尤其辛苦,“在宿舍里,我经常对着题目一道一道苦练,往往一写就是四五个小时,再一看时间已是深夜了,第二天还得六点半起床去上早课。”

清华园里,轮椅上“飞驰”的晓沅的确是一道特殊的风景。学校很大,课间切换教室,有时距离甚至有一两公里。“我就驾驶我的轮椅在人群中穿梭,有时候雨特别大,又着急赶时间,身体会被淋湿,之后关节就隐隐作痛,偶尔还高烧。”晓沅笑着回忆,“我经常左手挂点滴,右手写作业。”

日复一日的坚持,终有所获。晓沅的编程水平和专业能力大有提升,大三时,还参与“计算机自动集句作诗”科研项目,和同伴合作建成一个收录30多万首古诗的数据库,并将闻一多、朱光潜等的诗词韵律理论与算法结合,构建出古诗用词的联想网络。

他还与同学合作,开发出一款会作诗的APP——“诗意”,输入“折柳”“明月”等意象,软件就能一键成诗。

晓沅的成绩也迎来“逆袭”,从刚入学专业排名90多名,到大三时的第九名,再到大四斩获全校仅10个的清华学生最高荣誉。

2016年7月,毕业典礼上,坐着轮椅的晓沅来到体育馆,迎接人生中的重要时刻,清华校长邱勇也为他点赞,“晓沅如愿度过了4年精彩的大学生活,他始终洋溢的笑容感染了许多人。轮椅上的晓沅,就是清华园中一道亮丽的风景。”

这样的钻骨之痛是确定的希望,还是渺茫的期盼?

想要摆脱轮椅,手术会带来曙光。

“先读书,还是先治病?”早在中学时,面对妈妈的提问,晓沅的回答总是:读书。手术一拖再拖,妈妈成为他的拐杖——中学6年,每天6次,妈妈骑车接送他上下学,背着他上下楼;本科4年,研究生5年,妈妈全程陪伴,每天送他上课,抱着他坐到椅子上,每天晚上则坚持为他按摩。

等到大四下学期,提前把毕业论文写完后,晓沅迎来了两次关键的大手术,膝关节和髋关节置换。

“医生把我原本的骨头锯掉,换成了钛合金和钴铬钼的膝盖和髋关节,身上多了四道伤口,每道有三四十厘米长。”轻描淡写的背后,是常人难以想象的痛苦,晓沅形容,“好像身体里面被硬塞进一个不属于自己的东西”,过去,身体还有感觉,关节会疼痛,手术之后,他亲身体会,什么叫做“腿部麻木”。

2016年8月,出院后,仅休息了几周,晓沅就开始读研究生。

研究生的学业,定方向至关重要。近年来,随着深度学习的兴起,人工智能与文学艺术碰撞出炫目的火花,AI绘画、AI识图、AI编曲、AI下棋……不断刷新人类的认知。那么,在人类语言高度凝练的诗歌领域,AI表现如何?

结合本科时的科研经历,晓沅想进一步钻研文本生成方向。他的导师孙茂松教授,是我国自然语言处理领域知名学者、欧洲科学院外籍院士,也是古诗词爱好者。师徒二人一拍即合,何不做一个自动作诗机器人?

他们郑重地为机器人取名“九歌”。晓沅解释,《九歌》既是自己名字的来源,也是《楚辞》名篇,由战国时期著名诗人屈原创作,这一命名意在致敬屈原,同时寄托了九歌的起点,即源于中国数千年的诗词文化之中;另外,“九”作为虚数意味“多”,“歌”作为“诗歌”的泛称,是大家对系统未来的期许,希望九歌能“创作”出更多优秀的诗作。

研一一整年,矣晓沅和杨成、陈慧敏、梁健楠等同学一起,全心投入到对九歌作诗系统的开发研究之中。

项目最吃紧的时候,也是晓沅身体恢复的关键时段,“刚开始,我在电脑前工作半个小时就疼得直冒汗,只好躺下休息一二十分钟,再爬起来工作。”

为了不耽误进度,他一边吃止痛药,一边坚持科研。学业之外,他还要抓紧时间做康复,每天都要花两三个小时活动肌肉,进行力量训练。

在导师的学术团队中,晓沅每周至少参加两次例会,除了全组的大会,还有每周末为九歌单开的小会。同学刘正皓记得,“组会上,大家围绕九歌的技术细节深入研究,那时,晓沅身体不好,但孙老师和他都抠得特别细,往往一次组会讨论下来,四五个小时过去,就到了半夜12点以后。”

那时,晓沅做过手术的腿,血脉尚未畅通,坐得时间久了下肢变得僵硬,散会后,母亲心疼他,就赶紧帮他按摩。

诗歌的世界,有了AI助力,会迎来惊人一变吗?

四五年前,人工智能作诗,算是比较小众的研究领域。晓沅记得,“可参考的文献比较少,人工智能领域关于现代汉语的主流技术,很多无法直接应用于古诗文。遇到问题,没有现成的解决方案,我们只好白手起家。”

与其他团队常见的从数学视角切入不同的是,九歌研发团队向文学求解。针对诗歌创作的特点和难题,他们借鉴诗歌写作、语言学、心理学等方面的理论,设计出专门的模型结构。

古诗文是篇章结构,讲究上下文一致,前后呼应。这是他们要解决的头号难题。

“一夜扬州月,凄凉万里心。故乡无限意,惆怅暮云阴。”有没有发现,这首机器生成的五言绝句,看似文从字顺,首尾却露出马脚,第一句“月”字点明时间为夜晚,第四句却变成“暮云”,前后矛盾。

如何提升?文学创作理论中暗藏答案。

尝试不少思路之后,有一天,孙茂松抛来《文心雕龙》的《章句》篇中一句——夫裁文匠笔,篇有小大;离章合句,调有缓急;随变适会,莫见定准……故能外文绮交,内义脉注,跗萼相衔,首尾一体。

大家豁然开朗。晓沅说,这段阐述的是“意脉”的概念,这是告诉世人,在写作中,要动态地、灵活地构建出整首诗的骨架主线,以此对上下文的内容和主题进行约束,做到上下紧密相关,意脉连贯。同时又要断续离合、荡开笔墨,允许一定的自由与发挥的空间,不能约束得太死板。

基于此,他们设计出了显著性线索机制模型。在此模型主导下,上文的诗有了改进:“忆昔扬州月,于今又一秋。故人何处是,落叶满汀洲。”

第二关,扣题。通常,人类作诗,往往在脑海中先选定一个主题,再围绕主题展开创作。对于自动作诗系统,主题一般以用户输入的一个或多个关键词来确定,如“春风”“寒月”“相思”等。现有的系统要么漏生成某个关键词,无法很好地表达用户要求的主题;要么将用户给定的关键词直接生搬硬套地嵌入生成的诗歌中。

他们从心理语言学角度切入,提出了基于工作记忆模型的诗歌生成方法。该方法使用不同的记忆模块存储用户输入的不同关键词和生成的上文内容。模型不断动态读取和更新“自我”记忆,以此来提升扣题的紧密度和灵活性。

犹如升级打怪一般,攻下一个又一个难关后,2017年年底,九歌1.0版正式上线,系统内录入了从唐代到清代数千名诗人的30多万首诗,能自动创作出集句诗、绝句和藏头诗。

一年半之后,九歌2.0版上线。矣晓沅说,通过改进算法,九歌2.0版提升了系统作诗的效果,并新增了多个功能,既能做律诗,又能生成萧瑟凄凉、忆旧感喟、孤寂惆怅、思乡忧老、渺远孤逸五种风格的绝句。

“两句三年得,一吟双泪流。”对于作诗的推敲之功,唐代著名诗人贾岛曾如此描述。而在九歌系统中,算法与人脑联手,推敲不再是苦吟。晓沅提到,2.0版的系统中,增加了交互功能,如果用户对生成的诗歌不满意,可以自定义修改,让“人+机器”联合为诗歌润色添彩。经自动检索之后,九歌还可推荐相似意境的经典诗歌,有助于初学者开展对比学习。

早在读本科时,作为师弟,清华学生李文浩就参与了九歌的部分研发,他还经常跑到晓沅宿舍讨论问题。令他印象深刻的是,“晓沅师兄在做九歌时,不止于发几篇文章,做几个项目,他是真正把它当做一个产品来做,不断研发,不断改进。”

经过多年调试后,这套计算机诗词创作系统已相当稳定,打开主页,俊逸的“九歌”二字映入眼帘。滑动指尖,输入关键字词,风格迥异的集句诗、绝句、藏头诗、词等即可创作成功。

纵横古今的九歌,是否会让人生迎来别样精彩?

疾病困住了双脚,却无法束缚思想,九歌的诞生,让晓沅迎来更加广阔的舞台。

早在2017年年底,九歌1.0版诞生之后,坐着轮椅的晓沅就登上了央视舞台。作为核心研发成员,晓沅带着自己的作品镇定迎战青年诗人,他的九歌会用“机智过人”四个字作一首藏头诗,也能以“心有灵犀一点通”打头作集句诗,且速度远超人类,他还喊出那句著名的口号,“古有曹植七步成诗,今有九歌七秒成诗。”

2018年,晓沅登上了央视知名文化类节目《朗读者》,并用九歌系统现场作了一首藏头诗送给主持人董卿和节目组:“朗诵新诗信步穷,读书源自有真功。者般本是平生事,妙里何须造化工。”

本科毕业时,晓沅曾许诺,希望未来有一天,带着妈妈环游世界,感谢妈妈多年陪读的付出。

读研5年,基于九歌,他连续两年获得中国计算语言学大会的“最佳系统展示奖”,于国际顶级学术会议发表多篇论文,累累硕果助他坐着轮椅,带着妈妈,飞越重洋。

2018年7月,晓沅带着论文参加了国际人工智能联合会议,这是AI界顶级会议之一,从北京飞到迪拜转机,再抵达瑞典,18个小时的旅途,无法躺下,他只能坐着或者靠着。第一次在国际学术会议上做报告,他一共演讲了15分钟,并做了海报展示,“我花了两周时间来准备PPT和讲稿,不过时间还是很紧张,在飞机上还一直在修改。”

此后,他又先后在比利时和澳门做报告,今年2月原本要飞到纽约参会,因为疫情行程取消。

自2017年9月正式上线至今,九歌系统的访问量已超过1000万人次。研发团队还在GitHub上进行开源分享,并根据留言改进系统功能。晓沅说,我们当年研发时,没有太多经验可以参考,希望通过分享,让同行们少走弯路。一个颇有成就感的变化是,导师孙茂松过去写邮件时,常作诗赠予友人,如今,赋诗的作者都变成了九歌。

九歌的优秀诗作,也被晓沅悉心保存下来,在他眼中,这不仅是学术研究的成果,更是今后提升系统的参考样本。

有人说,机器作诗,灵魂何在?晓沅说,“我们欣赏文学,读诗,也读人,机器作诗没有灵魂,并不代表没有意义。它的遣词造句会让人眼前一亮,也能辅助人类进行诗歌创作。”

如今,九歌3.0新版本正在紧锣密鼓地开发。晓沅透露,目前系统已录入从魏晋南北朝到近现代所能找到的90万首诗歌,未来,他们还计划让这个“腹有诗书”的机器人学会看图作诗、观视频作诗,也将尝试作现代诗。

(原标题:九歌与远方)

来源:北京日报 记者:任敏

用户名:验证码:点击我更换图片                *如果看不清验证码,请点击验证码更新。