T/JSIA 0003-2020 基于强化学习的智能化决策系统标准
T/JSIA 0003-2020 Intelligent decision-making system standards based on reinforcement learning
团体标准
中文(简体)
现行
页数:0页
|
格式:PDF
基本信息
标准号
T/JSIA 0003-2020
标准类型
团体标准
标准状态
现行
发布日期
2020-02-28
实施日期
2020-02-28
发布单位/组织
-
归口单位
江苏省软件行业协会
适用范围
主要技术内容:1主要要求1.1 环境要求对不同的应用场景进行梳理,提供具有通用接口设计的仿真环境,允许比较不同的强化学习算法。并通过仿真环境测试实际系统。具体包括:环境的使用方式,环境对外统一的自定义接口规范等。1.2 观察强化学习是典型的“智能体-环境”循环实现,交互时智能体选择一个行动,环境返回一个观察和奖励值。1.3 空间用来描述有效的动作和观察,是环境的属性,智能体与环境交互时可以直接根据环境提供给系统的接口进行交互。1.4 策略策略的输入为状态和动作,并返回在输入状态的情况下采取输入动作的概率。2 运行设计2.1 环境配置环境配置主要是对初始状态的基本环境信息进行配置,有加区分对不同状态进行学习和挖掘,提升强化学习算法实验的结果。2.2 可视化展示实时可视化展示当前场景的相关环境信息,便于开发人员观察效果,并对算法进行相应的调优工作。2.3 交互规范智能体与环境进行交互可分为两类:人机交互和自动交互。a)人机交互, 人根据系统设计相应的交互方式和系统进行交互,而机器则直接依据智能算法生成相应的策略进行输出,并在界面上动态显示。b) 自动交互,交互双方则均是依据机器生成相应的策略进行输出,并在界面上动态显示,无需人的参与。2.4 策略生成策略生成模块则是针对不同的应用场景均内置相应的基准策略用于和设计的算法效果进行对比。2.5 数据库存储数据库操作模块的主要功能是对系统中的参数配置信息和数据文件进行存储,为策略生成模型的模型训练提供可靠数据。3 使用性能要求3.1 安全性3.1.1 系统的安全分析、安全设计、安全使用、安全管理等,应该遵循下列的原则要求:a)有限授权原则系统应能控制用户的使用权限,规定必要的最小授权范围,应能控制操作者的使用权限和使用等级,防止对系统信息的越权使用、修改和调阅;b)全面确认原则系统应能对采集数据的合法性、输人数据的有效性、信息处理的正确性、传输数据的安全性等进行确认;c)安全跟踪原则对系统的信息处理过程应设置完善的跟踪目标,具有安全的跟踪力,随不规范的操作可以自动记录并提示;d)既要充分有效地把系统可能造成的危害减少到能承受的最小程度,又要避免付出与其效果不相称的过高的投资代价或系统资源代价,从而取得综合性的、最佳的安全。3.1.2 系统应能对重要信息资料能够给予相应的操作权限,以防重要数据、文件等被破坏。3.1.3 系统
发布历史
-
2020年02月
-
2021年08月
-
2023年12月
-
2024年01月
文前页预览
当前资源暂不支持预览
研制信息
- 起草单位:
- 江苏万维艾斯网络智能产业创新中心有限公司
- 起草人:
- 高阳、杜宇峰、彭戈、孟凡、杨尚东、刘勇、董绍康、陈佳瑞、陈茹茹、王黎成、陈境、顾娟
- 出版信息:
- 页数:- | 字数:- | 开本: -
内容描述
暂无内容
定制服务
推荐标准
- GB 50813-2012 石油化工粉体料仓防静电燃爆设计规范(附条文说明) 2012-10-11
- YD/T 5157-2007 移动短消息中心设备安装工程验收规范 2007-10-25
- HJB 358.17-2006 舰船通信装备修理技术要求 第17部分:综合内通系统 2006-08-17
- JB/T 8444-2015 粉末冶金法银金属氧化物电触头技术条件 2015-07-14
- JB/T 7570-1994 交流高压自动重合器 1994-12-09
- EJ/T 327-1988 压水堆核电厂安全壳喷淋系统设计准则 1988-06-05
- HB 5339-2011 金属结构胶接质量控制 2011-07-19
- YD/T 1125-2001 国内No.7信令方式技术规范-2Mbit/s高速信令链路 2001-05-25
- GF 009.1-1995 开放200电话卡业务智能平台联网技术规定 1995-01-01
- SJ/Z 9010.9-1987 电子管电性能的测试 第9部分:阴极中间层阻抗的测试 1987-09-14