基于强化学习的洁净室送风调节方法和系统

文章来源：http://www.iwuchen.com/ 2024年11月04日点击数：965

基于强化学习的洁净室送风调节方法和系统
技术领域
本发明涉及送风调节技术领域，尤其涉及一种基于强化学习的洁净室送风调节方法和系统。

背景技术
随着各个行业的不断发展和社会对产品质量和安全性的要求不断提高，洁净室的应用在医药、半导体、食品、航天航空前领域前景越来越广阔，送风气流组件是洁净室气流组件的重要组成部分，其目的是将经过处理的空气以一定的方式送入洁净室内，为了保证洁净室内空气的洁净度和均匀度，需要对洁净室进行送风调节。
现有的洁净室送风调节方法多为基于手动控制的送风调节方法，通过人员手动控制送风量来维持洁净室内的压力和空气质量，实际应用中，基于手动控制的送风调节方法需要人员多次进行调整，增加了人员的工作量，且大多数人员在初次设置后后期基本不再调整由于风量固定，即使洁净室内的负荷变化，系统仍然会以恒定的风量运行，导致不必要的能源消耗，可能导致进行送风调节时的效率较低。

发明内容
本发明提供一种基于强化学习的洁净室送风调节方法和系统，其主要目的在于解决导致进行送风调节时的效率较低的问题。
为实现上述目的，本发明提供的一种基于强化学习的洁净室送风调节方法，包括：
分别从实时获取的洁净室传感数据中提取出人员时序特征以及环境时序特征；
分别对所述人员时序特征和所述环境时序特征进行线性数据分析以及非线性误差校正，得到分析环境数据以及分析人员数据；
根据所述分析环境数据以及所述分析人员数据生成分析传感数据，对所述分析传感数据进行前向传播，得到分析送风策略，其中，所述对所述分析传感数据进行前向传播，得到分析送风策略，包括：将所述分析传感数据向量化成传感状态特征；利用如下的径向传播算法对所述传感状态特征进行前向传播，得到送风策略特征：

其中，是指所述送风策略特征中的第个时间步的特征，是时间步索引，是节点索引，是所述径向传播算法对应的隐藏层的节点总数，是所述径向传播算法对应的第个隐藏层的权重，是所述径向传播算法对应的第个隐藏层的中心向量，是指数函数符号，是所述径向传播算法的径向基核宽度，是所述传感状态特征中的第个时间步的特征；对所述送风策略特征进行特征映射，得到分析送风策略；
根据所述分析传感数据对所述分析送风策略进行策略评估，得到策略奖励；
利用所述策略奖励将所述分析送风策略更新成标准送风策略，根据所述标准送风策略对洁净室进行送风调节。
可选地，所述分别从实时获取的洁净室传感数据中提取出人员时序特征以及环境时序特征，包括：
分别从实时获取的洁净室传感数据中提取出传感环境数据以及传感人员数据；
分别对所述传感环境数据以及所述传感人员数据进行平稳性校验以及差分操作，得到平稳环境数据以及平稳人员数据；
对所述平稳环境数据以及所述平稳人员数据进行自回归运算，得到滞后算子矩阵；
利用所述滞后算子矩阵对所述平稳环境数据以及所述平稳人员数据进行最大似然运算，得到移动平均矩阵；
利用所述滞后算子矩阵和所述移动平均矩阵对所述平稳人员数据进行递归拟合，得到人员时序特征；
利用所述滞后算子矩阵和所述移动平均矩阵对所述平稳环境数据进行递归拟合，得到环境时序特征。
可选地，所述分别对所述传感环境数据以及所述传感人员数据进行平稳性校验以及差分操作，得到平稳环境数据以及平稳人员数据，包括：
分别对所述传感环境数据以及所述传感人员数据进行数据趋势拟合，得到拟合环境数据以及拟合人员数据；
利用如下的残差统计算法根据所述拟合环境数据计算出所述传感环境数据的环境平稳系数：

其中，是指所述环境平稳系数，是所述传感环境数据的数据长度，、是序号索引，是所述传感环境数据中的第个环境数据，是所述拟合环境数据中的第个环境数据，是所述传感环境数据中的第个环境数据，是所述拟合环境数据中的第个环境数据；
根据所述环境平稳系数对所述传感环境数据进行差分操作，得到平稳环境数据；
根据所述拟合人员数据计算出所述传感人员数据的人员平稳系数；
根据所述人员平稳系数对所述传感人员数据进行差分操作，得到平稳人员数据。
可选地，所述分别对所述人员时序特征和所述环境时序特征进行线性数据分析以及非线性误差校正，得到分析环境数据以及分析人员数据，包括：
分别对所述人员时序特征和所述环境时序特征进行线性数据分析以及反差分操作，得到线性环境数据以及线性人员数据；
将所述线性环境数据拆分成线性传感环境数据以及线性分析环境数据，将所述线性人员数据拆分成线性传感人员数据以及线性分析人员数据；
分别计算出所述线性传感人员数据对应的人员残差数据以及所述线性传感环境数据对应的环境残差数据；
分别提取出所述人员残差数据对应的非线性人员时序特征以及所述环境残差数据对应的非线性环境时序特征；
利用所述非线性人员时序特征对所述线性分析人员数据进行非线性误差矫正，得到分析人员数据；
利用所述非线性环境时序特征对所述线性分析环境数据进行非线性误差矫正，得到分析环境数据。
可选地，所述分别提取出所述人员残差数据对应的非线性人员时序特征以及所述环境残差数据对应的非线性环境时序特征，包括：
分别提取出所述人员残差数据对应的长期人员时序特征以及短期人员时序特征；
将所述长期人员时序特征以及所述短期人员时序特征全连接成长短人员时序特征；
对所述长短人员时序特征进行自注意力加权，得到非线性人员时序特征；
分别提取出所述环境残差数据对应的长期环境时序特征以及短期环境时序特征；
将所述长期环境时序特征以及所述短期环境时序特征全连接成长短环境时序特征；
对所述长短环境时序特征进行自注意力加权，得到非线性环境时序特征。
可选地，所述利用所述非线性人员时序特征对所述线性分析人员数据进行非线性误差矫正，得到分析人员数据，包括：
对所述非线性人员时序特征进行全连接映射，得到映射非线性人员特征；
对所述映射非线性人员特征进行线性激活，得到非线性分析人员数据；
对所述线性分析人员数据以及所述非线性分析人员数据进行加权融合，得到分析人员数据。
可选地，所述根据所述分析传感数据对所述分析送风策略进行策略评估，得到策略奖励，包括：
对所述分析送风策略进行能耗分析，得到分析送风能耗；
从所述分析传感数据中提取出分析传感温度、分析传感湿度以及分析传感压力；
利用如下的策略奖励算法根据所述分析送风能耗、所述分析传感温度、所述分析传感湿度以及所述分析传感压力计算出策略奖励：

其中，是所述策略奖励，是所述分析传感数据的时间步长度，且所述分析传感数据的时间步长度等于所述分析送风策略的时间步长度，是时间步索引，是预设的第个时间步的折扣因子，是所述分析传感温度中第个时间步的温度值，是预设的适宜温度，是所述分析传感湿度中第个时间步的湿度值，是预设的适宜湿度，是所述分析传感压力中第个时间步的压力值，是预设的适宜压力，、是预设的奖励权重，是所述分析送风能耗。
可选地，所述利用所述策略奖励将所述分析送风策略更新成标准送风策略，包括：
判断所述策略奖励是否大于预设的奖励阈值；
若是，则根据所述策略奖励对所述径向传播算法的参数进行更新，并返回所述对所述分析传感数据进行前向传播，得到分析送风策略的步骤；
若否，则将所述分析送风策略作为所述标准送风策略。
可选地，所述根据所述标准送风策略对洁净室进行送风调节，包括：
从所述标准送风策略中提取出标准送风量以及标准送风角度；
对所述洁净室的出风口进行全压测量，得到出风口全压；
将所述出风口全压减去预设的出口风静压，得到出风口动压；
根据所述出风口动压计算出初级送风风速；
根据所述标准送风量以及初级送风风速计算出标准风口面积；
根据所述标准风口面积以及所述标准送风角度对所述洁净室进行送风。
为了解决上述问题，本发明还提供一种基于强化学习的洁净室送风调节系统，所述系统包括：
特征提取模块，用于分别从实时获取的洁净室传感数据中提取出人员时序特征以及环境时序特征；
误差校正模块，用于分别对所述人员时序特征和所述环境时序特征进行线性数据分析以及非线性误差校正，得到分析环境数据以及分析人员数据；
策略生成模块，用于根据所述分析环境数据以及所述分析人员数据生成分析传感数据，对所述分析传感数据进行前向传播，得到分析送风策略，其中，所述对所述分析传感数据进行前向传播，得到分析送风策略，包括：将所述分析传感数据向量化成传感状态特征；利用如下的径向传播算法对所述传感状态特征进行前向传播，得到送风策略特征：

其中，是指所述送风策略特征中的第个时间步的特征，是时间步索引，是节点索引，是所述径向传播算法对应的隐藏层的节点总数，是所述径向传播算法对应的第个隐藏层的权重，是所述径向传播算法对应的第个隐藏层的中心向量，是指数函数符号，是所述径向传播算法的径向基核宽度，是所述传感状态特征中的第个时间步的特征；对所述送风策略特征进行特征映射，得到分析送风策略；
策略评估模块，用于根据所述分析传感数据对所述分析送风策略进行策略评估，得到策略奖励；
送风调节模块，用于利用所述策略奖励将所述分析送风策略更新成标准送风策略，根据所述标准送风策略对洁净室进行送风调节。
本发明实施例通过提取出人员时序特征以及环境时序特征，能够结合人员数据对环境数据的交互关系进行时序特征的提取，并利用差分以及移动平均的方法提取出人员数据与环境数据的线性时序关系，从而提高时序特征的细节，通过进行线性数据分析以及非线性误差校正，能够提取出洁净室传感数据中的非线性变化的部分时序特征，从而对分析的结果进行进一步校正，提高传感数据分析的准确性，通过对所述分析传感数据进行前向传播，能够利用径向基函数提高送风策略的非线性特征，并通过强化学习模型实现送风策略的灵活性。
通过进行策略评估，能够结合分析的传感参数和人员的适宜参数之间的差值以及能耗数据进行策略评判，从而提高送风策略的效率，通过进行策略更新，能够实时对强化学习模型进行更新调整，得到能效更高的送风策略，通过根据所述标准送风策略对洁净室进行送风调节，能够通过调整导流风口实现送风调节，从而依靠调整送风风机频率节省机组能耗，提升送风调节的效率。因此本发明提出的基于强化学习的洁净室送风调节方法和系统，可以解决导致进行送风调节时的效率较低的问题。

附图说明
图1为本发明一实施例提供的基于强化学习的洁净室送风调节方法的流程示意图；
图2为本发明一实施例提供的提取人员时序特征以及环境时序特征的流程示意图；
图3为本发明一实施例提供的进行平稳性校验以及差分操作的流程示意图；
图4为本发明一实施例提供的基于强化学习的洁净室送风调节系统的功能模块图；
本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式
应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
本申请实施例提供一种基于强化学习的洁净室送风调节方法。所述基于强化学习的洁净室送风调节方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之，所述基于强化学习的洁净室送风调节方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示，为本发明一实施例提供的基于强化学习的洁净室送风调节方法的流程示意图。在本实施例中，所述基于强化学习的洁净室送风调节方法包括：
S1、分别从实时获取的洁净室传感数据中提取出人员时序特征以及环境时序特征。
详细地，所述洁净室传感数据是针对洁净室进行多种类型的数据监测得到的时序数据，所述洁净室传感数据中包括传感环境数据以及传感人员数据，其中，所述传感环境数据中包括一段时间内洁净室的温度、湿度以及压力等环境数据，所述传感人员数据包括一段时间内洁净室的人员数量、人员位置以及人员活动频率等人员数据。
具体地，所述人员时序特征是指所述传感人员数据随时间变化的线性特征，所述环境时序特征是所述传感环境数据随时间变化的线性特征。
本发明实施例中，参照图2所示，所述分别从实时获取的洁净室传感数据中提取出人员时序特征以及环境时序特征，包括：
S21、分别从实时获取的洁净室传感数据中提取出传感环境数据以及传感人员数据；
S22、分别对所述传感环境数据以及所述传感人员数据进行平稳性校验以及差分操作，得到平稳环境数据以及平稳人员数据；
S23、对所述平稳环境数据以及所述平稳人员数据进行自回归运算，得到滞后算子矩阵；
S24、利用所述滞后算子矩阵对所述平稳环境数据以及所述平稳人员数据进行最大似然运算，得到移动平均矩阵；
S25、利用所述滞后算子矩阵和所述移动平均矩阵对所述平稳人员数据进行递归拟合，得到人员时序特征；
S26、利用所述滞后算子矩阵和所述移动平均矩阵对所述平稳环境数据进行递归拟合，得到环境时序特征。
详细地，所述传感环境数据和所述传感人员数据中的数据按照时序排序，为了更好地提取人员数据以及环境数据的时序特征，需要对人员数据以及环境数据进行平稳化处理，所述平稳环境数据以及所述平稳人员数据分别是平稳后的所述传感环境数据以及所述传感人员数据。
具体地，参照图3所示，所述分别对所述传感环境数据以及所述传感人员数据进行平稳性校验以及差分操作，得到平稳环境数据以及平稳人员数据，包括：
S31、分别对所述传感环境数据以及所述传感人员数据进行数据趋势拟合，得到拟合环境数据以及拟合人员数据；
S32、根据所述拟合环境数据计算出所述传感环境数据的环境平稳系数；
S33、根据所述环境平稳系数对所述传感环境数据进行差分操作，得到平稳环境数据；
S34、根据所述拟合人员数据计算出所述传感人员数据的人员平稳系数；
S35、根据所述人员平稳系数对所述传感人员数据进行差分操作，得到平稳人员数据。
详细地，可以利用最小二乘法或线性回归模型进行数据趋势拟合，所述拟合环境数据是拟合出的具有所述传感环境数据的趋势的环境数据序列，所述拟合人员数据是拟合出的具有所述传感人员数据的趋势的人员数据序列。
具体地，利用如下的残差统计算法计算出环境平稳系数：

其中，是指所述环境平稳系数，是所述传感环境数据的数据长度，、是序号索引，是所述传感环境数据中的第个环境数据，是所述拟合环境数据中的第个环境数据，是所述传感环境数据中的第个环境数据，是所述拟合环境数据中的第个环境数据。
详细地，所述残差统计算法能够利用残差的累计和反应环境数据的偏差累计，并根据残差的累计和的平方与残差的方差之间的比值衡量序列的波动性，从而提高环境平稳系数计算的直观性。
具体地，所述差分操作是一种常用的时间序列数据预处理方法，用于消除时间序列中的趋势和季节性成分，以使数据更加平稳，差分操作通过计算时间序列的当前值与其滞后值之间的差异，从而去除时间序列中的趋势性变化或季节性成分。
详细地，所述根据所述环境平稳系数对所述传感环境数据进行差分操作是指判断所述环境平稳系数是否大于预设的平稳阈值，若是，则进行差分操作，若否，则将所述传感环境数据作为平稳环境数据。
详细地，所述根据所述拟合人员数据计算出所述传感人员数据的人员平稳系数的方法与上述步骤中所述根据所述拟合环境数据计算出所述传感环境数据的环境平稳系数的方法相同，所述根据所述人员平稳系数对所述传感人员数据进行差分操作，得到平稳人员数据，得到平稳环境数据的方法与上述步骤中所述根据所述环境平稳系数对所述传感环境数据进行差分操作的方法相同，这里不再赘述。
具体地，可以利用向量自回归模型（Vector Autoregression，简称VAR）进行自回归运算，所述滞后算子矩阵（Lag Operator Matrix）是一种用于表示时间序列数据中的滞后关系的数学工具，所述滞后算子矩阵能够捕捉所述平稳环境数据与所述平稳人员数据之间的依赖关系，所述移动平均矩阵（Moving Average Matrix）是用来表示多元时间序列模型中，当前值与过去的误差项之间的关系的数学工具。
本发明实施例中，通过提取出人员时序特征以及环境时序特征，能够结合人员数据对环境数据的交互关系进行时序特征的提取，并利用差分以及移动平均的方法提取出人员数据与环境数据的线性时序关系，从而提高时序特征的细节。
S2、分别对所述人员时序特征和所述环境时序特征进行线性数据分析以及非线性误差校正，得到分析环境数据以及分析人员数据。
详细地，所述分析环境数据是指分析出的未来时间段的传感环境数据，所述分析人员数据是指分析出的未来时间段内的传感人员数据。
本发明实施例中，所述分别对所述人员时序特征和所述环境时序特征进行线性数据分析以及非线性误差校正，得到分析环境数据以及分析人员数据，包括：
分别对所述人员时序特征和所述环境时序特征进行线性数据分析以及反差分操作，得到线性环境数据以及线性人员数据；
将所述线性环境数据拆分成线性传感环境数据以及线性分析环境数据，将所述线性人员数据拆分成线性传感人员数据以及线性分析人员数据；
分别计算出所述线性传感人员数据对应的人员残差数据以及所述线性传感环境数据对应的环境残差数据；
分别提取出所述人员残差数据对应的非线性人员时序特征以及所述环境残差数据对应的非线性环境时序特征；
利用所述非线性人员时序特征对所述线性分析人员数据进行非线性误差矫正，得到分析人员数据；
利用所述非线性环境时序特征对所述线性分析环境数据进行非线性误差矫正，得到分析环境数据。
具体地，所述线性数据分析是指利用所述滞后算子矩阵对所述人员时序特征进行迭代的线性运算，以及利用所述滞后算子矩阵对所述环境时序特征进行迭代的线性运算，所述反差分操作是所述差分操作的逆向操作。
详细地，所述线性传感环境数据是所述线性环境数据中与所述传感环境数据的时间步相同的环境数据，所述线性分析环境数据是所述线性环境数据中在所述传感环境数据的时间步之后的环境数据，所述线性传感人员数据是所述线性人员数据中与所述传感人员数据的时间步相同的人员数据，所述线性分析人员数据是所述线性人员数据中在所述传感人员数据的时间步之后的人员数据。
具体地，所述人员残差数据是所述传感人员数据与所述线性分析人员数据的残差数据，所述环境残差数据是所述传感环境数据与所述线性分析环境数据的残差数据。
详细地，所述分别提取出所述人员残差数据对应的非线性人员时序特征以及所述环境残差数据对应的非线性环境时序特征，包括：
分别提取出所述人员残差数据对应的长期人员时序特征以及短期人员时序特征；
将所述长期人员时序特征以及所述短期人员时序特征全连接成长短人员时序特征；
对所述长短人员时序特征进行自注意力加权，得到非线性人员时序特征；
分别提取出所述环境残差数据对应的长期环境时序特征以及短期环境时序特征；
将所述长期环境时序特征以及所述短期环境时序特征全连接成长短环境时序特征；
对所述长短环境时序特征进行自注意力加权，得到非线性环境时序特征。
详细地，可以利用长短时序神经网络模型（‌Long Short-Term Memory，简称LSTM）‌的记忆单元以及门结构提取出长期人员时序特征、短期人员时序特征、长期环境时序特征以及短期环境时序特征，可以利用自注意力机制进行自注意力加权。
具体地，所述利用所述非线性人员时序特征对所述线性分析人员数据进行非线性误差矫正，得到分析人员数据，包括：
对所述非线性人员时序特征进行全连接映射，得到映射非线性人员特征；
对所述映射非线性人员特征进行线性激活，得到非线性分析人员数据；
对所述线性分析人员数据以及所述非线性分析人员数据进行加权融合，得到分析人员数据。
详细地，可以利用LSTM模型的输出层的全连接层进行全连接映射，可以利用softmax函数或sigmoid函数进行线性激活。
具体地，所述利用所述非线性环境时序特征对所述线性分析环境数据进行非线性误差矫正，得到分析环境数据的方法与上述步骤中所述利用所述非线性人员时序特征对所述线性分析人员数据进行非线性误差矫正，得到分析人员数据的方法相同，这里不再赘述。
本发明实施例中，通过进行线性数据分析以及非线性误差校正，能够提取出洁净室传感数据中的非线性变化的部分时序特征，从而对分析的结果进行进一步校正，提高传感数据分析的准确性。
S3、根据所述分析环境数据以及所述分析人员数据生成分析传感数据，对所述分析传感数据进行前向传播，得到分析送风策略。
详细地，所述分析传感数据是所述分析环境数据和所述分析人员数据的组合数据，所述分析送风策略是根据所述分析传感数据生成的用于调节所述分析传感数据的时间段内洁净室送风组件的送风角度以及送风流量的策略。
本发明实施例中，所述对所述分析传感数据进行前向传播，得到分析送风策略，包括：
将所述分析传感数据向量化成传感状态特征；
对所述传感状态特征进行前向传播，得到送风策略特征；
对所述送风策略特征进行特征映射，得到分析送风策略。
具体地，所述径向传播算法是由预先训练的强化学习网络中的深度确定性策略梯度模型（Deep Deterministic Pflicy Gradient，简称DDPG）确定出的算法，其中，所述隐藏层的权重和所述隐藏层的中心向量是训练得到的参数。
详细地，利用如下的径向传播算法计算出送风策略特征：

其中，是指所述送风策略特征中的第个时间步的特征，是时间步索引，是节点索引，是所述径向传播算法对应的隐藏层的节点总数，是所述径向传播算法对应的第个隐藏层的权重，是所述径向传播算法对应的第个隐藏层的中心向量，是指数函数符号，是所述径向传播算法的径向基核宽度，是所述传感状态特征中的第个时间步的特征,是绝对值符号。
具体地，所述径向传播算法能够将输入特征映射到高维特征空间，从而捕捉特征中的非线性特征，提高深度确定性策略梯度模型的泛化能力以及对复杂环境的适应性。
详细地，所述特征映射是指将所述送风策略特征映射到预设的送风策略数据库中，所述送风策略数据库中的各个送风策略对应一个送风策略特征。
本发明实施例中，通过对所述分析传感数据进行前向传播，能够利用径向基函数提高送风策略的非线性特征，并通过强化学习模型实现送风策略的灵活性。
S4、根据所述分析传感数据对所述分析送风策略进行策略评估，得到策略奖励。
详细地，所述策略奖励是用于反映所述分析送风策略的优劣的数值，所述策略奖励能够实现对所述深度确定性策略梯度模型的模型参数进行实施调节。
本发明实施例中，所述根据所述分析传感数据对所述分析送风策略进行策略评估，得到策略奖励，包括：
对所述分析送风策略进行能耗分析，得到分析送风能耗；
从所述分析传感数据中提取出分析传感温度、分析传感湿度以及分析传感压力；
根据所述分析送风能耗、所述分析传感温度、所述分析传感湿度以及所述分析传感压力计算出策略奖励。
详细地，可以根据洁净室送风组件的能耗模型进行能耗分析，所述分析传感温度、所述分析传感湿度以及所述分析传感压力分别是所述分析传感数据中分析出的温度、湿度以及压力。
具体地，利用如下的策略奖励算法计算出策略奖励：

其中，是所述策略奖励，是所述分析传感数据的时间步长度，且所述分析传感数据的时间步长度等于所述分析送风策略的时间步长度，是时间步索引，是预设的第个时间步的折扣因子，是所述分析传感温度中第个时间步的温度值，是预设的适宜温度，是所述分析传感湿度中第个时间步的湿度值，是预设的适宜湿度，是所述分析传感压力中第个时间步的压力值，是预设的适宜压力，、是预设的奖励权重，是所述分析送风能耗。
详细地，所述适宜温度、适宜湿度以及所述适宜压力是预设的人员觉得适宜环境下的温度、湿度以及压力，所述策略奖励算法能够结合分析的传感参数和人员的适宜参数之间的差值以及能耗数据进行策略评判，从而提高送风策略的效率。
本发明实施例中，通过进行策略评估，能够结合分析的传感参数和人员的适宜参数之间的差值以及能耗数据进行策略评判，从而提高送风策略的效率。
S5、利用所述策略奖励将所述分析送风策略更新成标准送风策略，根据所述标准送风策略对洁净室进行送风调节。
本发明实施例中，所述利用所述策略奖励将所述分析送风策略更新成标准送风策略，包括：
判断所述策略奖励是否大于预设的奖励阈值；
若是，则根据所述策略奖励对所述径向传播算法的参数进行更新，并返回所述对所述分析传感数据进行前向传播，得到分析送风策略的步骤；
若否，则将所述分析送风策略作为所述标准送风策略。
详细地，所述奖励阈值是预设的用于衡量所述分析送风策略的策略奖励是否合格的阈值，可以利用梯度下降算法对所述径向传播算法的参数进行更新。
具体地，所述根据所述标准送风策略对洁净室进行送风调节，包括：
从所述标准送风策略中提取出标准送风量以及标准送风角度；
对所述洁净室的出风口进行全压测量，得到出风口全压；
将所述出风口全压减去预设的出口风静压，得到出风口动压；
根据所述出风口动压计算出初级送风风速；
根据所述标准送风量以及初级送风风速计算出标准风口面积；
根据所述标准风口面积以及所述标准送风角度对所述洁净室进行送风。
详细地，所述标准送风量是指所述标准送风策略对应的需要对洁净室进行送风的风量，所述标准送风角度是指所述标准送风策略对应的需要对洁净室进行送风的角度。
具体地，可以利用毕托管原理进行全压测量，所述出风口全压是所述洁净室送风组件的出风口的空气流体的总能量密度的表示，所述出风口静压是空气流体的内部压力，所述出风口动压时所述空气流体运动速度引起的额外压力。
详细地，可以利用动压公式根据所述出风口动压计算出初级送风风速，所述标准风口面积等于所述标准送风量除以所述初级送风风速，可以改变所述出风口的导流叶片角度，使得所述出风口的有效送风面积为所述标准风口面积，所述出风口的有效送风角度为所述标准送风角度，从而实现送风调节。
本发明实施例中，通过进行策略更新，能够实时对强化学习模型进行更新调整，得到能效更高的送风策略，通过根据所述标准送风策略对洁净室进行送风调节，能够通过调整导流风口实现送风调节，从而依靠调整送风风机频率节省机组能耗，提升送风调节的效率。
本发明实施例通过提取出人员时序特征以及环境时序特征，能够结合人员数据对环境数据的交互关系进行时序特征的提取，并利用差分以及移动平均的方法提取出人员数据与环境数据的线性时序关系，从而提高时序特征的细节，通过进行线性数据分析以及非线性误差校正，能够提取出洁净室传感数据中的非线性变化的部分时序特征，从而对分析的结果进行进一步校正，提高传感数据分析的准确性，通过对所述分析传感数据进行前向传播，能够利用径向基函数提高送风策略的非线性特征，并通过强化学习模型实现送风策略的灵活性。
通过进行策略评估，能够结合分析的传感参数和人员的适宜参数之间的差值以及能耗数据进行策略评判，从而提高送风策略的效率，通过进行策略更新，能够实时对强化学习模型进行更新调整，得到能效更高的送风策略，通过根据所述标准送风策略对洁净室进行送风调节，能够通过调整导流风口实现送风调节，从而依靠调整送风风机频率节省机组能耗，提升送风调节的效率。因此本发明提出的基于强化学习的洁净室送风调节方法，可以解决导致进行送风调节时的效率较低的问题。
如图4所示，是本发明一实施例提供的基于强化学习的洁净室送风调节系统的功能模块图。
本发明所述基于强化学习的洁净室送风调节系统100可以安装于电子设备中。根据实现的功能，所述基于强化学习的洁净室送风调节系统100可以包括特征提取模块101、误差校正模块102、策略生成模块103、策略评估模块104及送风调节模块105。本发明所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。
在本实施例中，关于各模块/单元的功能如下：
所述特征提取模块101，用于分别从实时获取的洁净室传感数据中提取出人员时序特征以及环境时序特征；
所述误差校正模块102，用于分别对所述人员时序特征和所述环境时序特征进行线性数据分析以及非线性误差校正，得到分析环境数据以及分析人员数据；
所述策略生成模块103，用于根据所述分析环境数据以及所述分析人员数据生成分析传感数据，对所述分析传感数据进行前向传播，得到分析送风策略，其中，所述对所述分析传感数据进行前向传播，得到分析送风策略，包括：将所述分析传感数据向量化成传感状态特征；利用如下的径向传播算法对所述传感状态特征进行前向传播，得到送风策略特征：

其中，是指所述送风策略特征中的第个时间步的特征，是时间步索引，是节点索引，是所述径向传播算法对应的隐藏层的节点总数，是所述径向传播算法对应的第个隐藏层的权重，是所述径向传播算法对应的第个隐藏层的中心向量，是指数函数符号，是所述径向传播算法的径向基核宽度，是所述传感状态特征中的第个时间步的特征；对所述送风策略特征进行特征映射，得到分析送风策略；
所述策略评估模块104，用于根据所述分析传感数据对所述分析送风策略进行策略评估，得到策略奖励；
所述送风调节模块105，用于利用所述策略奖励将所述分析送风策略更新成标准送风策略，根据所述标准送风策略对洁净室进行送风调节。
详细地，本发明实施例中所述基于强化学习的洁净室送风调节系统100中所述的各模块在使用时采用与上述图1至图3中所述的基于强化学习的洁净室送风调节方法一样的技术手段，并能够产生相同的技术效果，这里不再赘述。
在本发明所提供的几个实施例中，应该理解到，所揭露的设备，系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能（Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统实施例中陈述的多个单元或系统也可以由一个单元或系统通过软件或者硬件来实现。第一、第二等词语用来表示名称，而并不表示任何特定的顺序。
最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Tags：

上一条：一种基于新风系统过滤效率的污染物溯源方法下一条：洁净室的温湿度控制系统及控制方法

基于强化学习的洁净室送风调节方法和系统

最新文章

推荐文章