叶望 陈树铭
2019年9月
1. 大数据基本结构
1.1. 基本结构态A
1、大数据结构态A,是基于大数据的专业属性角度所进行的体系化分类。
2、大数据结构态A的整体框架为:基础大数据+行业大数据+物联网大数据+互联网大数据,其中:
①基础大数据:以地质、地表、气象、海洋(水体)等为核心内容的地球体基础结构所对应的一体化空间数据模型。
②行业大数据:各行业对应的电子政务体系、监管体系、规划设计生产建设体系对应的规范、标准与模型等的综合数据模型。
③物联网大数据:各行业的具体时空应用场景基于专业传感器所采集的时间序列数据模型。
④互联网大数据:基于互联网的社区、流媒体、游戏、购物、公开互动、自媒体、新闻、网站发布信息等的综合数据模型。
3、大数据结构态A的变化特征表现如下图所示:
①从基础大数据→行业大数据→物联网大数据→互联网大数据,专业化程度越来越低,也就意味着数据生成成本越来越低。
②从基础大数据→行业大数据→物联网大数据→互联网大数据,所能应用的范围越来越小、形成的价值量越来越低,也就意味着数据价值挖掘成本越来越高。
1.2. 基本结构态B
1、大数据结构态B,是基于大数据所对应的目标特征角度所进行的体系化分类。
2、大数据结构态B的整体框架为:专业对象模型(知识模型+地质模型+地表模型+气象模型+海洋模型+自然体模型+人体模型+建筑体模型(BIM)+机械体模型)+表征对象模型(图形+图像+声频+文档(网页)+表格)。
3、当前主流信息技术关注的数据类型:表征对象模型(图形+图像+声频+文档(网页)+表格),都是从特定视角所实现的碎片化特征数据的表征。
4、专业对象模型(知识模型+地质模型+地表模型+气象模型+海洋模型+自然体模型+人体模型+建筑体模型(BIM)+机械体模型),目前主流科学技术体系,尚未系统从内在逻辑体系出发,针对统一的对象化模型框架体系,开展深入的思考与研究;目前主流自然语言研究中的知识图谱模型,也不是知识模型所对应的专业对象模型;当前的专业对象模型研究,至多只是通过图形、图像、声频、文档(网页)、表格等碎片化表征模型,来进行碎片化堆积描述。
1.3. 基本结构态C
1、大数据结构态C,是基于大数据的形成角度所进行的体系化分类。
2、大数据结构态C的整体特征为:点云模型+物探模型+遥感模型+重构模型+解译模型+计算模型+设计模型+…。
3、不同大数据的形成模式,深刻体现所针对目标物相应的特定内在逻辑属性的数字化特征。
4、在主流的科学分析研究中,点云模型、物探模型、遥感模型、重构模型、解译模型、计算模型、设计模型,都对应不同的专业计算、分析、仿真等的过程;而且重点关注的是这些专业体系的本构原理、机理规律等的研究,而不是从模型空间来表征专业逻辑。
5、在主流的行业中,更多关注的是形成数据设备硬件的研发,而针对设备所采集数据处理与分析的算法与软件技术的研究,远远落后于相对应设备的发展水平,这也是当今基础大数据、行业大数据与物联网大数据领域深层次建模与大数据挖掘存在巨大瓶颈的关键原因所在。
2. 大数据从4V到4T特征
2.1. 主流大数据的4V特征
(图2)主流大数据概念的4V特征
主流大数据的4V特征,只是针对互联网大数据的一种特征描述,与大数据本质逻辑相距甚远。
2.2. 大数据的本质特征——4T
(图3)天衍智大数据概念的4T特征
1、数字化——digiTal,是大数据的第一本质特征:
①不是数字化的模型不属于大数据范畴,比如存放在档案馆的图纸与图书馆的藏书等。
②将复杂的物理实体类模型和意识情感虚拟类模型,转换为数字化模型,是当今科学界所面临的巨大挑战;事实上自然界与人类意识情感中的绝大多数的模型逻辑都是无法简单数字化的。
③可以说数字化技术无小事、无易事。
2、位置化——posiTion,是大数据的第二本质特征:
①地理是结构化最稳定的特征信息,人类社会与自然的相关活动信息,都会与特定的地理位置关联。
②位置化,基于地理构建统一的标识信息,将人类社会与自然活动统一关联到特定的地理位置上,简单深刻刻画出统一位置化数据之间各种空间背景逻辑关系,比如距离、远近、范围、遮挡、碰撞、相互作用等。
3、时间化——Time,是大数据的第二本质特征:
①任何具有流程与逻辑先后次序关系的事件或活动,总是可以表征为特定的时序特征。
②时间化,简单深刻刻画出统一位置化数据之间各种时序背景逻辑关系,比如先后、诞生、死亡、周期、协作、过程等。
4、目标化——objecT,是大数据的第三本质特征:
①数据集数据的组织框架本身只是一套符号表征体系,其本身没有实质的意义。
②数据的内涵与逻辑是由数据所反映的目标对象(系统)的结构、属性、特征、过程、逻辑等所确定的。
5、概括的说,大数据就是,通过其所映射的目标对象的背景逻辑,基于位置化、时间化特征,面向计算机系统,所构建的数字化关系演绎的生态体系。
3. 大数据分析复杂性评估方法
3.1. 不同类大数据领域的分析复杂性指数
1、不同类大数据领域具有差别很大的分析复杂性;依据大数据分析的复杂性,主要考虑四类复杂特性参数的影响:
甲类:大数据背景逻辑可验证性;
乙类:大数据几何结构形态不规则性;
丙类:大数据大尺度与专业微观精准分析耦合特性;
丁类:大数据非结构化可组织特性。
2、各单一类型大数据,针对甲类、乙类、丙类、丁类可以构建大数据分析复杂性指数值标准区间表:
①大数据分析复杂性指数值的最小值为1;
②大数据分析复杂性指数值的最大值为100;
③大数据分析复杂性指数值在[1,100]区间内变化。
3、不同大数据类型对象的分析复杂性指数变化区间
基于不同大数据类所关联的甲类、乙类、丙类、丁类四类复杂特性参数的影响,通过相关背景复杂性研究,大致形成以下参数表。
不同大数据类型对象的分析复杂性指数变化区间表
实例一:知识模型中的简单知识关联,其分析复杂性指数值为1;涉及到地质体模型的知识模型,深刻与复杂的地质背景逻辑融为一体,其分析复杂性指数值为100。
实例二:图形中的简单直方图特征,其分析复杂性指数值为1;基于深度学习的图像特征识别,其分析复杂性指数值为10;模糊图像特征识别,其分析复杂性指数值为30。
实例三:声频中的声音频谱分析特征,其分析复杂性指数值为1;基于深度学习的语音特征识别,其分析复杂性指数值为10;基于环境的混合语音特征识别,其分析复杂性指数值为30。
3.2. 不同大数据类复杂性组合计算原理
1、设有N类大数据模型所构成的大数据生态体A,分别所对应的分析复杂性指数值为f(i),i=1,2,…,N,f(i)∈[1,100]。
2、大数据生态体A的分析复杂性指数值计算公式为:
3、依据(公式-1)可以计算出任意大数据生态体模型所对应的分析复杂性指数值。
4. 电网大数据的三大典型价值发展方向
4.1. 基于大数据逻辑的电网自身创新方向
1、本方向的基本原理:基于电网自身运行体系的管理与技术环境的背景逻辑及特点等,开展一系列相关行业的创新,带来电网上下游创新,使电网大数据成为推动引导国家基础大数据健康发展与价值实现的战略性一环,实现电网大数据成为国家大数据的最有价值部分。
2、基于大数据逻辑的电网自身创新方向,是指通过电网行业自身及关联上下游行业的创新,来引导电网大数据的更大创新与价值挖掘实现;这类大数据研究方向简称为——pgBDR(Power Grid Big Data Rd)。
4.2. 电网投资建设、送配电、巡检大数据价值实现方向
1、电网投资建设环节的大数据,可以直接推动电网系统自身建设、管理、运维等环节的降成本、升质量、提效率、增效益,尤其具有更大的大数据创新研究空间、产业发展空间与价值挖掘空间;这类大数据研究方向简称为——pgicBDR(Power Grid Investment Construction Big Data Rd)。
2、电网巡检环节的大数据,可以直接推动电网系统自身管理、运维等环节的降成本、升质量、提效率、增效益,尤其具有更大的大数据创新研究空间、产业发展空间与价值挖掘空间;这类大数据研究方向简称为——pgeBDR(Power Grid Examination Big Data Rd)。
3、电力线路走廊遍及全国网络所形成空间大数据模型,具有巨大的社会性地理信息大数据创新研究空间、产业发展空间与价值挖掘空间;这类大数据研究方向简称为——plcBDR(Power Line Corridor Big Data Rd)。
4、电网系统的杆塔等资产,可以实现与通讯、高铁等其他领域的资源共享,形成跨行业之间的更为复杂大数据生态构建创新研究空间、产业发展空间与价值挖掘空间;这类大数据研究方向简称为——pgasBDR(Power Grid Asset Sharing Big Data Rd)。
5、在送配电环节管理、监控与调度等的优化方面,也具有大数据创新研究空间、产业发展空间与价值挖掘空间;这类大数据研究方向简称为——tdoBDR(Transmission and Distribution Operation Big Data Rd)。
6、电网系统运营设备的运维管理(包括风险管控与保险体系等),可以形成复杂大数据生态构建创新研究空间、产业发展空间与价值挖掘空间;这类大数据研究方向简称为——pgaomBDR(Power Grid Asset Operation and Maintenance Big Data Rd)。
4.3. 电力消费指标大数据价值实现方向
1、电力消费数据是四大通用基础消费数据(支付、电力、通讯、自来水)之一,成为紧密深度反馈生活消费与相关社会运行体系的状态、性质的关键指标;这类大数据研究方向简称为——eciBDR(Electricity Consumption Index Big Data Rd)。
2、电力消费指标大数据重点可以构建以下典型的研究子方向:
①面向国家节能生态建设的电力消费指标子类大数据方向,简称为eciBDR-ECE(Energy Conservation and Ecology)。
②面向国家规划设计及优化体系的电力消费指标子类大数据方向,简称为eciBDR-PD(Planning and Design)。
③面向特定政策导向的电力消费指标子类大数据方向,简称为eciBDR-PO(Policy Orientation)。
④面向特定经济活动监控的电力消费指标子类大数据方向,简称为eciBDR-MEA(Monitoring of Economic Activity)
⑤面向社会信用建设的电力消费指标子类大数据方向,简称为eciBDR-SC(Social Credit)。
⑥面向用户用电经济性的电力消费指标子类大数据方向,简称为eciBDR-ED(Electricity Discount)。
⑦面向用电销售的电力消费指标子类大数据方向,简称为eciBDR-SE(Selling Electricity)。
⑧面向电力消费关联商业大数据价值挖掘的电力消费指标子类大数据方向,简称为eciBDR-MC(Market and Commerce)。
4.4. 不同电网大数据研究方向难度及价值挖掘潜能
1、大数据价值的潜能分为Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ五个等级,其分别对应的产业规模为:
①Ⅰ级:中国国内市场年产值规模<1亿。
②Ⅱ级:50亿>中国国内市场年产值规模>=1亿。
③Ⅲ级:500亿>中国国内市场年产值规模>=50亿。
④Ⅳ级:2000亿>中国国内市场年产值规模>=500亿。
⑤Ⅴ级:中国国内市场年产值规模>2000亿或具有国家级战略影响力。
2、不同类型的电网大数据研究方向,对应不同研发难度和价值挖掘潜能,汇整如下表。
不同类型的电网大数据研究方向复杂性及价值挖掘潜能汇整表
5. 当前国家电网系列大数据研究课题的总结
5.1.国家电网大数据研究课题的分类剖析
1、国家电网的大数据课题作了基本分类,定义为:①服务政府科学决策类;②服务企业智慧运营类;③服务居民趣味用能类。
2、这个分类过于粗略,显然没有体现大数据的特色,对大数据课题研究没有从电网全产业链及其对社会经济影响等的内在逻辑进行设计,没有太多指导意义。
5.2.国家电网大数据研究课题对应的天衍智分类统计
1、按照“4. 电网大数据的三大典型价值发展方向”中的电网大数据分类体系,国家电网大数据研究课题(详见“附件——国家电网大数据课题研究剖析表”)共涉及到:pgBDR、pgasBDR、tdoBDR、pgaomBDR、eciBDR-ECE、eciBDR-PD、eciBDR-PO、eciBDR-MEA、eciBDR-SC、eciBDR-ED、eciBDR-MC十一类电网大数据项目。
2、每个分类对应的科研课题数,如下表所示。
国家电网大数据研究课题对应的天衍智分类统计
5.3 国家电网大数据研究课题的价值剖析
国家电网大数据研究课题的潜在价值大部分都较低。
1、大数据课题潜在价值性达到I级为22项,如下表所示。
潜在价值性达到I级的大数据课题
2、大数据课题潜在价值性达到Ⅱ级为8项,如下表所示。
潜在价值性达到Ⅱ级的大数据课题
3、大数据课题潜在价值性达到Ⅲ级为12项,如下表所示。
潜在价值性达到Ⅲ级的大数据课题
4、大数据课题潜在价值性达到Ⅳ级为1项。
潜在价值性达到Ⅳ级的大数据课题
5、大数据课题潜在价值性达到Ⅴ级为1项。
潜在价值性达到Ⅴ级的大数据课题
5.4 国家电网大数据研究课题的背景逻辑结构性缺陷分析
1、国家电网大数据研究课题的背景逻辑特性分为二类:
①大数据背景逻辑存在结构性缺陷;
②大数据背景逻辑不存在结构性缺陷。
2、电网大数据研究课题中有15项,存在背景逻辑结构性缺陷,不具备大数据价值挖掘潜能。
存在背景逻辑结构性缺陷的电网大数据课题
3、电网大数据研究课题中剩余的29项,不存在背景逻辑结构性缺陷,可以构建大数据模型及分析应用系统。
5.5 国家电网大数据研究课题描述与实际复杂性匹配度分析
1、国家电网大数据研究课题的内容描述与实际复杂性匹配中存在二种典型状态:
①课题描述内容与实际复杂性匹配;
②课题描述内容没有体现实际复杂性。
2、电网大数据研究课题设计描述基本能够精准体现实际复杂性的课题有:13项。
电网大数据研究课题设计描述基本能够精准体现实际复杂性的课题
3、电网大数据研究课题设计描述远没有理解和反应实际复杂性的课题有:16项。
电网大数据研究课题设计描述没有体现实际复杂性的课题
6. 泛在电力物联网发展战略中的大数据挑战
1、泛在电力物联网战略的实质性推进,需要立足于大数据技术、人工智能技术等的支撑。
2、通过上述剖析,当前国家电网系列大数据研究课题并未深刻理解并抓住大数据的正确发展方向,与泛在电力物联网战略的要求相距甚远。
3、泛在电力物联网战略中大数据的本质内涵,应回归到天衍智电网大数据的三大典型价值发展方向(参见“4.电网大数据的三大典型价值发展方向”),进行战略思考与构架。
参考文献
[1]《中国智慧城市年鉴(2014)》下卷P663-665,陈树铭
[2]《大数据经典十问》http://www.数字中国.cn/?p=895,鼎天智