【PConline 杂谈】《终结者》系列电影,将人工智能概念带入了大众的视野。影片中,电脑程序“天网”不仅拥有自我意志,更能自主学习。现实生活中,人工智能(AI)让机器可以胜任那些需要人类智能才能完成的复杂工作,并被广泛的应用到机器视觉、生物识别、智能搜索等领域。尽管如此,要问鼎真正的人工智能,我们仍有很长一段路要走,在这之前,你真的了解人工智能吗?

像人一样去思考 你所不知的人工智能技术
实际上,人工智能是一门极具挑战的科学,研究人员必须熟知计算机知识、心理学以及哲学,人工智能并非人的智能,而是让机器可以像人类那样去思考,研究范畴广泛,包括语言处理、推理、知识获取、人工生命、神经网络等等。现阶段的研究,则将人工智能分成了三个层次。

三级脑启发
这三个层次分别为算法模拟神经元(Neuron)、算法模拟大脑(Human Brain)以及算法自学习(Baby Learning)。其中,算法模拟神经元转换成电信号,算法模拟大脑包含一些抽象的理解并转换成电信号,算法自学习则是与周围环境接触过程中,智能水平的提高。

AI与True-AI
接下来,我们将人工智能进一步细分成“Brain-Like”与“Baby-Like”两个方面。其中,Brain-Like擅长学习固定模型,例如语音识别、人脸识别、物体识别以及场景识别等等;而Baby-Like擅长自学,可以放在环境里自适应,做识别和理解,还可以进行多模式的合作学习以及类人机器人等。
深入学习(Deep Learning),真正的人工智能。True-AI的最佳体系包括卓越的性能、适应新的观测值、跨任务知识共享以及跨模式合作学习。它会有多种状态,各模式之间互相指导,例如图像指导语音,语音指导图像。此外,它还可以在不同层面之间相互沟通。

CNN/DNN/LSTM网络

近期热点的深度学习
从近期热点的深度学习我们看到包括了Pixel-to-Pixel Inference(像素到像素)、Neuron Nonlinearity(非线性神经元)、Feedback Strategies(回馈策略)三个方面。
其中,Pixel-to-Pixel Inference在P2P(Pixel to Pixel)上,是一种End-to-Tnd(端至端)的训练,也可以从P2P进入到P2P-aware。
此外,Pixel-to-Pixel Inference还可以做图像分割,过去这被认为是不可能实现的,但现在加上了结构性模型,它就可以做到,即便有些被遮挡住的图片,图像的模拟效果也都不错。
Neuron Nonlinearity(非线性神经元)最好用小型网络来设计不同的尺寸,当做到足够小的时候,Neuron Nonlinearity就能更好的拟合它应该具备的功能。从而得到Network in Network(NIN),会有很不错的性能。
现将Network in Network(NIN)放到GoogleNet上面测试一下,Labeled Faces in the Wild数据库(简称LFW,对应研究非受限情况下人脸识别问题),准确率可以达到99.7%,而最好的百度已经可以做到99.8%的准确率。
Feedback Strategies(回馈策略),在Feedback层面,不同的Layer和Task之间可以做很多操作,假设每层的数据相同,很自然的它就是在上面逐步测试,第一次调试可能不准确,但却可以帮助网络最终实现很高的性能。例如给你一张图像,其中一些层的尺寸是一样的,可以拿进行对比,从而识别出哪个是眼镜、哪个是包、哪个是帽子、包和衣服等等。
我们再来说说擅长自我学习的Baby-like,在与现实世界互动中进行自我改进、学习。Baby-Like包含多种特征,例如视觉、语音和自然语言理解,我们可以从过去的知识中,学习与积累经验。Multi-modality多模态下,像婴儿那样学习。
那么,婴儿是如何学习的呢?他们不需要太多的举例,只需很小的训练样本(先验知识),就能够在和真实世界的交互中,进行自学。有了先验知识,当他看到了新事物(斑马),便会问妈妈说‘这是不是一只马’。
相比之下,Prior Knowledge(先验知识)的模式取得了不错的成绩,它的性能指标从53%提升至56%。上图为Baby Learning在脸部识别领域的应用,通过观看录像进行自我学习。现阶段,Deep Learning(深度学习)已是一种较为成熟的技术,而Baby Learning却是未来趋势,因为它能够在缺少注释或标签的环境下,进行自我学习甚至是终生学习。