“两块披萨在炉灶烤箱顶上。”
“一群人在一个露天市场购物。”
“室内最好的座位”
人类可以轻松的从一整个复杂场景中提取重点并简单描述之。而这对计算机来说十分困难。但我们推进了一步:我们发展了一套机器学习系统,当它初次看到图像场景时便可以自动产生标题来精确描述这些图像。这种系统最终可以帮助视障人士理解图像内容、在网速较慢的环境可以用文本替代图像、也更容易使人们在Google上搜寻图片。
目前的研究多集中在物体识别、分类、标注等,并取得较大进展。但精确描述一个复杂场景需要更深入的知道在场景中发生着什么事儿,捕捉各种事物之间的联系并把它转化成自然用语。
创建计算机生成图像自然描述的很多努力是合并最先进的计算机视觉和自然语言处理技术以形成一套完整的图像描述方法。但是如果我们不考虑把最新的计算机视觉技术和语言模型合并为联合训练系统,而是拿一张图片直接生成人类可读的文字序列描述呢?
这个想法源自语言之间机器翻译的最新进展,比如说,用一个递归神经网络转换(RNN),把一个法语句子转换成一个向量表示,第二个递归神经网络利用这个向量表示来生成一个德语句子。
现在,如果我们把上述第一个递归神经网络(RNN)和输入的文字替换为训练过的深度卷积神经网络(CNN),以此来分类图像中的事物会怎样呢?通常,卷积神经网络的最后一层被用在各对象类的最终Softmax函数中,给出每个对象在图像中的概率。但是如果我们移除最后一层,我们可以将卷积神经网络(CNN)丰富的编码代替图像喂给设计好的递归神经网络(RNN)以产生短语。我们可以直接在所有图像及它们的标题上训练整个系统,所以它最大化了这种可能性:对每一张图片系统产生的描述能够最优的匹配训练描述。
我们的系统已经在几个公开的数据集上进行了实验,包括Pascal、Flickr8k、Flickr30k、SBU等,实验表明图像描述的结果具有鲁棒性:产生的句子非常合理。它在机器翻译的评估标准BLEU中也表现良好。
一张图片可能胜过千言,但有时就是这些文字才最有意义。所以我们找到把图像自动准确地转换成文字的方法非常重要。随着适合学习图像描述的数据集的丰富和成熟,所有图像对应描述会更精确。我们期待着系统继续发展,可以读取图像并生成良好的自然语言描述。若想得到更多从图像生成描述的框架的细节信息,以及模型评估,可读论文。