会读、听和识别的 AI 还是不够聪明!Google 和 MI

会读、听和识别的 AI 还是不够聪明!Google 和 MI

从单项能力来说,现在的 AI 已经很先进了,比如说 AI 能识别我们说的话,照片里面的对象,下棋能胜过人类冠军等等。但是就像交互设计之父 Alen Cooper 所说那样, 计算机能识别你说的话,但它可能不懂你的意思 。为什幺?上下文语境、背景等讯息对于理解意思和意义是非常重要的。如果我们希望未来的机器人执行我们的命令的话,就必须让它们能彻底理解周围的世界——如果机器人听见了狗叫,它要知道是什幺导致了狗发出叫声,那条狗是长什幺样的,以及它想要什幺。

过去的 AI 研究注重的是单项突破(感知世界和执行任务方面)。可以想像一下,如果你一次只能使用一种感觉,不能管将你听到的东西跟看到的东西进行匹配的话会是什幺感觉?这个就是 AI 的现状。 但是要解决深层次的问题,就需要将这些单项的成功进行统合。 幸运的是,目前 MIT 和 Google 的研究人员已经在开展这方面的探索。这两家机构最近发表了相关论文,解释了其在协调 AI 进行看、听和读方面的初步研究,这些成果有望颠覆我们教机器了解世界的办法。

MIT 的 AI 博士后 Yusuf Aytar 是论文的联合作者之一,他说:「你是看到了汽车还是听见了引擎并没有关係,你马上就能识别出这是同一个概念。你大脑中的讯息已经自然地把它们协调统一起来了。」

会读、听和识别的 AI 还是不够聪明!Google 和 MI

协调正是研究的关键 。研究人员并没有教算法任何新东西,而是 建立了一种方式让算法将一种感觉获得的知识与另一种进行连接或协调 。Aytar 举了一个无人车的例子,比方说无人车的声音传感器可能会先听到救护车的响声,然后激光雷达才看到救护车(视线受阻)。有关救护车的鸣叫声、样子以及职能的知识可以让无人车放慢速度,切换车道,给这辆车腾出地方。

为了训练这套系统,MIT 的研究小组首先给神经网路展示了与音频相关的频率。在神经网路发现了视频中的对象并且识别出特别的音频之后,AI 就会尝试预测哪一个对象跟声音关联。比方说,招手会不会发出声音呢?

接下来,研究人员把带有标题的类似情况下的图像提供给同一个算法,这样它就能够将文字与对象和图中的动作关联起来。想法跟前面一样:首先网路会单独识别出图中所有的对像以及相关问题,然后进行匹配。

乍看之下这种网路似乎没什幺了不起,因为 AI 独立识别声音、图像、文字的能力已经很了不起了。 但当我们对 AI 进行声音/图像、图像/文字的配对训练时,系统就能在未经训练指导哪个单词与不同声音匹配的情况下将声音与文字关联起来。 研究人员宣称,这表明神经网路对于所看到的、听到的或者读到的东西已经形成了一种更加客观的看法,而这种看法的形成并不是完全依赖于它用来了解这一讯息的媒介的。

能够统合对象的观感、听觉以及文字的算法可以自动将自己听到的东西转化成看到的东西。比方说,算法听到斑马在叫的时候,它会假设斑马的样子类似于马(在不知道斑马样子的情况下):

这类假设使得算法会在想法之间建立新的连接,强化了算法对世界的理解。

会读、听和识别的 AI 还是不够聪明!Google 和 MI

Google 也进行了类似的研究,不过 Google 更强一点的是它还能够将文字转化成其他的媒体形式。但是从準确率来说这些技术还比不上单用途的算法。不过 Aytar 的看法很乐观,他觉得这种情况不会持续太久:

相关推荐