不论是拼凑法还是统计模型,都没能充分保障诗句的“语义合理”。原因可以归结为两方面:一是对汉字的语义理解不足,二是对汉字的前后关系建模有限。
从语义上看,拼凑法完全没有理解语义,只是句子的机械裁剪和拼接;统计模型法只能简单描述字与字的共现规律,并没有深入理解语义。从字的前后关系建模上看,拼凑法和统计模型法只能建模近邻字之间的关系,没有关注长距离的句间依赖。
2014 年之后,神经网络(尤其是循环神经网络RNN 和Transformer 模型)取得突破,为AI 作诗带来“语义建模”能力。其中关键技术包括如下两点:
词向量嵌入:把汉字映射到连续向量空间。语义相近的字向量彼此接近,语义不同的字向量相互远离。这样就形成了一种基于向量距离的“理解”。汉字的向量表示具有重要意义,它让我们从汉字的表面形式深入语义理解,同时也让离散的汉字变得可计算,为更深一级的语义处理打下了基础。
序列建模:神经网络可以关注句子中任意位置的字并捕捉长距离依赖关系,更好地理解字与字、句与句之间的前后搭配关系,提诗句的自然度与语义连贯性。
清华大学的AI 诗人“薇薇”即采用了序列神经网络和注意力机制,将作诗视为“逐字生成”的过程:基于当前已生成的字串,预测下一个最合适的字。
下面是 AI 诗人“薇薇”创作的七言绝句《海棠花》
海棠花
红霞淡艳媚妆水,万朵千峰映碧垂。一夜东风吹雨过,满城春色在天辉。
在诗歌盲评中,诗词专家并不知道哪些诗由人写、哪些诗由“薇薇”写。结果显示:评分最高的前两首诗均出自“薇薇”,且有 31% 的 AI 作品被误判为“人类创作”,意味着 AI 已初步具备“拟人化”写诗的能力。