标签归档:神经网络

一张图胜千言万语:创建图像的自然描述

译自:A picture is worth a thousand (coherent) words: building a natural description of images  –FROM:Google Research Blog

“两块披萨在炉灶烤箱顶上。”

“一群人在一个露天市场购物。”

“室内最好的座位”

人类可以轻松的从一整个复杂场景中提取重点并简单描述之。而这对计算机来说十分困难。但我们推进了一步:我们发展了一套机器学习系统,当它初次看到图像场景时便可以自动产生标题来精确描述这些图像。这种系统最终可以帮助视障人士理解图像内容、在网速较慢的环境可以用文本替代图像、也更容易使人们在Google上搜寻图片。

目前的研究多集中在物体识别、分类、标注等,并取得较大进展。但精确描述一个复杂场景需要更深入的知道在场景中发生着什么事儿,捕捉各种事物之间的联系并把它转化成自然用语。

自动产生的标题: “Two pizzas sitting on top of a stove top oven”

创建计算机生成图像自然描述的很多努力是合并最先进的计算机视觉和自然语言处理技术以形成一套完整的图像描述方法。但是如果我们不考虑把最新的计算机视觉技术和语言模型合并为联合训练系统,而是拿一张图片直接生成人类可读的文字序列描述呢?

这个想法源自语言之间机器翻译的最新进展,比如说,用一个递归神经网络转换(RNN),把一个法语句子转换成一个向量表示,第二个递归神经网络利用这个向量表示来生成一个德语句子。

现在,如果我们把上述第一个递归神经网络(RNN)和输入的文字替换为训练过的深度卷积神经网络(CNN),以此来分类图像中的事物会怎样呢?通常,卷积神经网络的最后一层被用在各对象类的最终Softmax函数中,给出每个对象在图像中的概率。但是如果我们移除最后一层,我们可以将卷积神经网络(CNN)丰富的编码代替图像喂给设计好的递归神经网络(RNN)以产生短语。我们可以直接在所有图像及它们的标题上训练整个系统,所以它最大化了这种可能性:对每一张图片系统产生的描述能够最优的匹配训练描述。

模型把视觉CNN和产生语言的RNN相结合,所以输入一张图片便能产生合适的自然语言标题描述之。

我们的系统已经在几个公开的数据集上进行了实验,包括Pascal、Flickr8k、Flickr30k、SBU等,实验表明图像描述的结果具有鲁棒性:产生的句子非常合理。它在机器翻译的评估标准BLEU中也表现良好。

Google图像描述系统生成的图说,经由人工为图说品质评分,分成描述无误、轻微错误、还算与图片有相关、与图片无关四种表现。

一张图片可能胜过千言,但有时就是这些文字才最有意义。所以我们找到把图像自动准确地转换成文字的方法非常重要。随着适合学习图像描述的数据集的丰富和成熟,所有图像对应描述会更精确。我们期待着系统继续发展,可以读取图像并生成良好的自然语言描述。若想得到更多从图像生成描述的框架的细节信息,以及模型评估,可读论文

Researchers Announce Advance in Image-Recognition Software

译自: “Researchers Announce Advance in Image-Recognition Software” from The New York Times

两组科学家,各自独立工作,都研发出了能够识别、描述图像和视频内容的人工智能软件,它的精确度比以往任何时候都高,有时甚至可以模仿人类的理解水平。

直到现在,所谓的计算机视觉在很大程度上仍被局限于识别单个物体对象。谷歌和美国斯坦福大学在周一宣布的新软件,能教自己来识别理解整个场景内容:例如一群在玩飞盘的年轻人,一群在草原上穿行的大象。

软件用英语写出标题描述图片。研究者发现,相比于人类的观察描述,计算机给出的描述惊人的精确。

由人和谷歌实验程序给出的图片标题:

Human: “A group of men playing Frisbee in the park.”
Computer model: 
“A group of young people playing a game of Frisbee.”

Human: “A young hockey player playing in the ice rink.”
Computer model:
 “Twohockey players are fighting over the puck.”

Human: “A green monsterkite soaring in a sunny sky.”
Computer model:
 “A man flying through the air while riding asnowboard.”

 

Human: “A person riding a dirt bike is covered in mud.”
Computer model:
 “Aperson riding a motorcycle on a dirt road.”

Human: “Three different typesof pizza on top of a stove.”
Computer model: 
“A pizza sitting on top of a pan on top of a stove.”

Human: “Elephantsof mixed ages standing in a muddy landscape.”
Model:
 “A herd of elephants walking across a dry grass field.”

这一进步使更好的去归档和搜索互联网上那些很难描述或存档的数以亿计的图片和数小时的视频成为可能。现在,像谷歌一样的搜索引擎很大程度上依赖于书面语言配合一张图片或一段视频来确定它所包含的内容。

“我认为图像和视频中的像素数据是互联网的暗物质,我们现在开始去照亮它。”斯坦福人工智能实验室的领头人李飞飞说,她带领着研究生Andrej Karpathy做此项目。

Dr. Li and Mr. Karpathy以a Stanford University technical report的形式发表了他们的研究。谷歌团队也在由 Cornell University主办的开源网站arXiv.org发表了他们的论文。

长远看来,这项新研究也许能产生帮助盲人和机器人导航自然环境的技术。但它也会引起监控泛滥的恐慌。

过去的15年,视频摄像机在各种公共和私人场所无孔不入。在将来,软件操作相机不仅能够通过人脸识别来识别特定的人,而且可以识别某些类型的行为,甚至能够自动报警。

两年前谷歌研究专家创建了一个图像识别软件并利用来自YouTube视频的千万图像来展示它。在无人指引下,软件训练自己来识别猫,展示了YouTube上猫的视频的数量。

现在汽车行业的人工智能项目已经能够通过放置在挡风玻璃上方的相机识别行人和骑自行的人,而且如果驾驶员没有采取措施避免碰撞,它可以自动把车停下来。

但是,华盛顿大学计算机科学家Ali Farhadi,这位致力于软件生成数字图像语句描述这一课题的学者说:“仅仅识别单个物体对象并不太实用,我们专注于对象,但却忽略了动作。”他补充道,这些项目不清楚图像中进行着什么事情。

谷歌和斯坦福团队以人们熟知的神经网络来打造软件项目解决了这个问题,灵感来自于对人类大脑如何工作的理解。神经网络可以训练它们自己去发现数据中的相似性和模式,甚至连它们的人类创造者都不知道模式是否存在。

在活的有机体中,大脑的神经元在概念和模式识别上远远优于基于计算机的网络。但是采用一些相同的架构,计算机正在追赶,以递增的精度学习识别语言和图像。这些进步对消费者是显而易见的。例,人们使用苹果的Siri私人助理或谷歌的图片搜索。

两组研究人员采用相似的方法,把两种神经网络模式组合在一起:一种专注于识别图像,另一种专注于人类语言。在这两种情况下,研究人员利用那些已被人类标注的相对较小的数字图像序列来训练软件。

在软件程序学习了如何从图像或描述中识别出模式之后,研究人员把它们转向之前没看过的图像。程序能够以以往两倍的精度来识别物体和动作,但仍远不及人类的认知水平。

Oriol Vinyals,谷歌的一个计算机专家,曾与Alexander Toshev, Samy Bengio and Dumitru Erhan等Google Brain项目的成员合写过论文。他说:“我惊讶于即便用非常少的训练数据我们也可以做到如此之好。这个领域才刚刚开始,我们会看到更大的进展。”

计算机视觉的专家表示尽管有所改进,但是这些软件系统只在数字化的模仿人类视觉和更难以捉摸的理解图像这些目标上取得了有限进步。

“我不认为这是我们想要的某种意义上的‘理解’,我认为就连这里生成语言的能力都是非常有限的。”I.B.M.’s T.J. Watson Research Center的高级经理John R. Smith说。

但是谷歌和斯坦福团队表示,随着他们改进自己的软件并用更多的注解图片序列来训练程序,他们希望看到更显著的进展。一个由北卡来罗纳大学教堂山分校的计算机科学家Tamara L. Berg领队的团队正以人力注解的一百万张图像训练神经网络。

她说:“我们努力去讲解图像背后的故事。一个自然场景时非常复杂的,你会希望攫取图像中最重要的对象。”

相关: