智能控制2-神经网络控制

一、神经网络理论基础

1.神经网络的基本概念

(1)神经网络的发展

启蒙期：MP模型、Hebb学习规则、感知机模型、Adaline网络、学习规则
低潮期：异或问题、SOM网络
复兴期：Hopfield网络、BP网络
新连接机制时期：深度学习

(2)神经网络的分类

前向网络：每一层的神经元只接收前一层神经元的输入
- 代表：单神经元网络、BP神经网络、RBF神经网络
反馈网络：存在从输出层到输入层的反馈，即每一个输入节点都可能接收来自外部的输入和来自输出神经元的反馈(只有输出层到输入层的反馈，其余均是前向)
- 代表：Hopfield神经网络
自组织网络：神经网络在接收外界输入时会分成不同的区域，不同区域具有不同的响应特征
- 代表：Kohonen神经网络

(3)神经网络的学习模式

有教师学习(监督学习)：网络输出和期望输出进行比较，根据两者差异调整网络权值，使差异变小
无教师学习(非监督学习)：网络安装预先设定的规则自动调整权重，自组织网络、Hebb学习规则均属于无教师学习

2.神经网络学习算法

(1)Hebb学习规则

两个神经元同时处于激发状态时，它们之间的连接强度将得到加强，即

其中为连接神经元到神经元的时刻权值，和为神经元的激活水平。

(2)Delta()学习规则

神经网络采用梯度下降法来实现权值的调整，使误差准则函数最小，其基本思想是沿着的负梯度方向不断修正值，直到达到最小。

网络输入为，代表输入的第个样本；
输出，期望输出为，有误差准则函数

权值修正量：

其中有
故有

上式称为Delta规则，即权重修正量可以看做误差与输入的乘积。其中称为学习率，代表当下的权重。

简单而言，Delta规则表述为：

3.神经网络的一般模型

其中为输入信号，为连接权系数，为外部输入信号，为阈值，为激活函数。常见的激活函数有阈值型(阶跃函数)、分段线性型和函数型(如非线性激活函数)。

人工神经网络的构造要素
- 激励函数的选择：S型函数
- 拓扑结构的设计
- 学习算法的设计

二、典型神经网络

1.BP神经网络

(1)网络结构与前向过程

一般的BP网络由输入层、隐藏层、输出层组成。

输入层仅输入特征，共个节点，每一维特征对应一个输入层节点。

隐藏层接收输入层的输入：，或前隐藏层的输出作为输入：；经过激活函数得到输出：。

输出层接收前层的输入，经过激活函数以后得到输出。

(2)BP算法

逐一地根据样本计算出实际输出和误差，用输出层误差调整输出层权矩阵，并用此误差估计输出层的直接前导层误差估计更前一层的误差，如此获得所有其他各层的误差估计，并用这些估计实现对权矩阵的修改。形成将输出端表现出的误差沿着与输入信号相反的方向逐级向输入端传递的过程，即对权矩阵各做一次调整，重复这个循环，直到。

一般步骤为：

初始化权重
前向过程：根据输入，计算出输出值；计算损失函数值
反向传播：计算(输出层)，后向传播直到计算(第一个隐藏层)
计算并更新梯度
重复上述步骤，直至误差达到要求

神经网络权重的更新依靠的是梯度下降法，而梯度下降法需要，将神经网络视作一种计算图，可利用反向传播得到所需梯度。

：
对于两层神经网络，输入，隐藏层，输出，输入层到隐藏层权矩阵，隐藏层到输出层权矩阵：
注：
L2 Loss：
根据链式法则计算梯度：
根据链式规则计算梯度：
(以上两式根据两层复合函数的链式法则就可推出，相当于两层嵌套)

(3)BP网络的逼近能力与泛化能力

逼近能力指的是这种神经网络能够拟合任何连续的函数，即使这些函数非常复杂(映射定理：必定存在一个3层BP网络来逼近，且使逼近误差保持在内)。
泛化能力指的是BP神经网络对未曾接触过的数据的预测或分类能力。

2.Hopfield神经网络

hopfield神经网络(HNN)是一种反馈神经网络，其结构为一群神经元，其中每个神经元都反馈回除自身以外的所有的神经元。因此，HNN也可看作一个有向完全图。
个神经元的HNN的权值可以写作一个的权值矩阵，其中表示第个神经元向第个神经元的权值。有当，，且，即HNN的权值矩阵是一个对角元素等于0的对称矩阵。
如果当前神经网络的神经元状态矩阵为，则下一时刻神经元的输出矩阵为
神经元的下一个时刻状态与激活函数和输出有关

其中激活函数一般为阶跃函数或符号函数。

：
Hopfield网络的动态特性和反馈特性体现在何处？
Hopfield网络的动态特性体现在其能够通过动力学更新逐步降低系统的能量，并使用输入的“损坏”样本来修复该样本。
Hopfield网络的反馈特性则表现为每个神经元都对其他神经元的状态产生影响，并且这种影响是双向的，使得网络具有自我修复的能力以及能够通过不断迭代逐步接近最优解的优化能力。
简述Hopfield网络求解TSP问题的基本步骤。
将问题转化为能量函数，表示为路径长度与约束条件的加权和，其中路径长度要尽可能短，约束条件要求每个城市恰好出现一次。
将能量函数表示为对称连接矩阵的形式，并在这个矩阵上进行训练，自动调整神经元状态以最小化能量函数。
使用训练好的模型来解决实际的TSP问题，将模型状态表示为一个城市序列，通过动态更新每个神经元状态得到最终路径。最终路径应该是经过每个城市且长度最短的路径。

三、机器人导航

常见的移动机器人视觉导航方法有：基于环境信息的地图模型匹配、同步定位与地图构造、不依赖地图导航。
基于环境信息的地图模型匹配：图像获取-路标识别及检测-路标匹配-位姿计算
同步定位与地图构造(SLAM)：
- 传感器类型：单/双目相机、RGBD相机、激光雷达等