tyc1286太阳集团-tyc1286太阳集团

近年来，全国多个省份地区已经开始着手建设属于自己的遥感样本库，这一良好的趋势表明了各方政府正在积极响应并落实关于推广“人工智能”这一新兴技术的科技政策，也肯定了国家对于发展AI技术与各行各业深度融合的决心和愿景。

利用深度学习技术进行遥感图像智能解译已成为当前自然资源部在面临国土问题作出精准快速决策的重要手段。深度学习技术当前主要依赖“监督学习”分类方式，即必须有海量样本数据参与训练，最终的模型也就是从这些样本蕴含的信息中进行的抽象结果。因此，如何构建一套完整、稳定、合理的样本库体系成为模型训练前期最重要的任务和难题。

由于遥感数据的复杂性及遥感业务成果需求的多样性，遥感样本库的建成往往需要综合考虑多方面因素，究其本质也就是致力于平衡“AI算法、遥感影像特性、业务规则、标注成本及效率”几者之间的冲突。因此，这对于建设者提出了较高的要求，需要其对AI基本原理、遥感专业知识、项目管理能力等要有一个基本的掌握。我们一直倡导“授人以渔”的理念，从解决实际问题的角度出发，尽管全国不同的地区对于遥感解译业务关注的重点有所区别，实施方案也都别具一格，但是“万变不离其宗”，绝大多数AI算法对于训练样本的质量追求都是一致的，只要掌握样本库建设的底层逻辑，在面对各种复杂的业务场景时，也能够形成一套适用于自身业务的独特且合理的建设方案。下面根据作者自身的理解和经验列举出样本库建设的几个关键环节：

明确分类体系

明确分类体系是样本库建设工作的基础，其主要目的是标准化 “人”的认知思维。

制定标准规则

制定出既适合AI算法原理又适合业务需求的标注规则，其主要目的是标准化“人”的作业成果质量，让“计算机”清晰地知道我们需要的是什么。

样本选择

在有限的样本数量之内，如果有对特征分析处理的意识有助于提高模型的泛化能力。

样本库管理

制定出一套能容纳所有遥感业务类型的样本库管理系统或方案，其主要目的是有序积存海量遥感数据，便于未来发挥潜在价值。

01.
明确分类体系 CLASSIFICATION SYSTEM

“分类体系”的概念官方定义比较抽象，如果思维深度不够，很难对它有一个全面的认知。简单来说，“分类体系”可以理解为是针对于体系下的所有个体，按照某种特定的规律（如根据视觉、触觉、听觉等感官能力...）发现其可区分、可信的特征差异，从而进行分类。不同的分类体系对于同一个体可能会有不同的定义。为什么说AI和遥感图像具有天然的耦合性？因为不管是AI视觉算法还是传统遥感图像解译，都是通过视觉能力的特性寻找要素的特征差异来实现分类。分类体系内的类别越多、区分度越低，对应样本数量就需要越多、模型训练难度就会越大，所以如何编制出一套简洁自洽、贴合业务的分类体系，是样本库建设中最重要的工作之一。而建设者需要“拉齐认知”，也就是需要将自身知识经验的无序状态变为经过分类的有序状态，以完成标准统一的认知过程。

遥感业务场景多样，不同的业务场景对于最终的成果需求也会有所不同，建设者需对业务规则充分了解，使之与AI算法有机结合，从而明确出适合业务的分类体系。遥感行业常见的分类体系有地理国情普查分类体系和三次国土调查分类体系，作为两项重大的国情国力调查，目的都是为了查清我国自然资源家底，并且年度地理国情监测调查和年度国土变更调查分别是这两项重大调查工作的年度信息更新手段，确保我国的自然资源数据的实时性。这两项调查工作都对土地利用情况进行了分类，但是两者在侧重点上各有不同：

地理国情普查侧重于反映土地的植被覆盖及使用情况，从土地本身的自然特征着手，其分类偏向于自然属性；

第三次国土调查（土地利用现状）侧重于从管理的属性出发，目的是真实的反映土地的利用状况及潜力，其分类偏向于社会经济属性。

两种分类体系的异同分析可参考【地理国情普查与三调数据的共享探析】

当然，有的业务规则可能会将两种分类体系结合使用，或者在此基础上延伸出其它变种分类体系。究其根本，不管使用何种分类体系，都须要满足这样几点原则：

Ⅰ.所有类别能通过目视区分，不掺杂人为主观判断力和经验；

Ⅱ.分类体系应自洽、客观，避免“同物异类”情形；

Ⅲ.分类体系应涵盖所有业务关注的地类，凡能精简、归并的地类尽量归并；

Ⅳ.分类体系一旦确定，尽可能不改、小改。

02.
制定标注规则 STANDARD RULES

没有明确分类体系的业务规则都是“耍流氓”，分类体系是业务规则的根基。明确分类体系后，我们再来谈谈业务规则。不同的遥感业务对于其规则的制定也有所不同，比如土地卫片执法、国土变更调查、重要生态空间人类活动变化监测、城市违建监测等。大多数情况下，最终制定出的标注规则=AI原则+业务规则（+特殊场景说明），即站在AI算法的角度先约束几条原则，再按照业务规则的作业要求去标注，有些复杂的业务场景下还需要补充一些特殊说明，防止逻辑混乱。要遵循的AI原则主要有如下几点：

Ⅰ.所见即所得

标注员仅通过目视影像标注，不参考影像之外的其他数据（如三调数据库），不掺杂人为主观的经验和知识标注。

Ⅱ.统一可区分

标注员之间应形成对规则统一的理解和认知，避免相互冲突；标注员自身时刻也要统一一套作业准则，避免自相矛盾。

Ⅲ.标签完整性

用作训练的影像，尽量避免 “漏标注”和“错标注”，以免降低模型效果。

Ⅳ.变化可逆性

所有变化图斑可逆，不区分前后影像类别先后顺序，如“建筑变耕地”和“耕地变建筑”可理解为是同一类变化。

03.
样本选择 SAMPLE SELECTION

样本的选择一定程度上关乎着样本标注的成本和最终模型的效果，按照一个正确的思路去进行样本的选择，是整个样本库建设工作的基础保障。关于样本的选择，如不考虑影像获取的难度和矢量采集成本，在适合标注规则的前提下本着“越多越好”的原则；如果考虑成本，关于样本的选择可遵循以下原则：

Ⅰ.充分分析业务场景范围内的影像各维度特征，优先选择强代表性的样本；

（影像维度包括：传感器、时空分辨率、地区、地形地貌等等，强代表性指的是最贴合实际业务场景各维度的影像）

Ⅱ.综合考虑分类体系下的类内多样性、类间差异性问题，更多选择分类难度大的样本。

①类内多样性：类内多样性越多，训练难度越高；反之越低。比如耕地，受不同季节、分辨率、地区、成像条件等因素影响，会出现多种特征形态；而像一些形态单一的特定类别比如篮球场、风车等，故训练难度低。

②类间差异性：类间差异性越大，训练难度越低；反之越高。比如耕园林草之间差异性较小，建筑和道路差异性较大，矿石开采与尾矿堆放地差异性较小等等；对于差异性较小的地类间，首先确定人类能够目视可区分，其次可以额外增加此类样本。

Ⅲ.适当选择制作在实际业务场景中对模型检出干扰性较强的负样本，如阴影、季节性差异、自然气象、人类临时性活动.......

当然了，当你的样本量足够多足够大，以上这些类似于“特征工程”的工作其重要性占比就越小，这也是深度学习的优势之一。所以更多时候，样本数量的优先级往往要高于样本质量，当样本数量多出一个量级时，是能够远远弥补在样本质量上落后的那几个点。

04.
样本库管理 SAMPLE LIBRARY

以上三个环节是针对某一个具体的遥感业务或项目所阐述的样本标注思路，样本标注的最终目的也就是训练出一个适合业务生产的高精度AI模型。而随着业务的逐渐增多，样本库的管理也成了一项绕不开的难题。样本库管理是一个长期的工作，需要有顾全局的意识，其主要目的是让所有多样化的样本能够有条不紊的分类入库，并且形成规范，以容纳未来更多的样本，便于在后续调用的时候，能够满足快速、方便、灵活等特点。样本库管理方式可以依托于智能化的平台、系统，也可以采用最朴素的文件夹存储管理方式，不管哪种方式，其管理的底层逻辑一般都按以下三个层级去划分：

层级1——按样本类型

层级2——按分类体系/业务

层级3——按影像属性

除此之外，样本库建设工作还包括数据预处理、标注团队组建、质量控制、样本规格统一等等，这些内容也都不可或缺，但对于经历过测绘遥感相关项目的人员来说这些都不算难题。将以上所有内容串联起来，再结合建设者自身对行业的理解，就可以构建出一套完整的样本库方案了。

注：此篇文章内容均为作者主观阐述总结，请各位读者批判性吸收，欢迎一起交流学习！

tyc1286太阳集团-首页

公司新闻

中科北纬公司成功当选中国林业工程建设协会第五届理事会理事单位

中科北纬 | 应急产品解决方案

中科北纬诚邀您参加中国森林发展（博鳌）大会

中科北纬诚邀您参加第一届世界林木业大会

诚挚邀请 | 中科北纬邀您莅临2023第一届中国测绘地理信息技术暨北斗应用博览会

公司智能安防AI模型库与智能救援装备集中亮相淮南

中科北纬诚邀您参加首届京津冀晋生态旅游观鸟季启动仪式 暨“野鸭湖

喜报！我公司再获科学技术奖和青年测绘科技创新人才奖

奋进生态发展新征程 赋能生物多样大杨山

敬请关注 | 第四届植被病虫害遥感大会（2023）如约而至

喜报！我公司荣获2022年度自然资源科学技术奖

以虫治虫防治技术——花绒寄甲

林业系统工程自然保护区的研究

热解读｜指挥防沙治沙，习近平提的这四个字意味深长！

一图胜千言：空间分辨率如何决定遥感图像的细节？

我在，我一直都在！

野生动物监测体系能力提升解决方案

签订战略合作协议 | 握手中国四维测绘

信息技术助力野生动物保护事业发展

天枢-罂粟智能识别软件【惊喜】发布

红外相机AI识别工具发布【免费】

Web开发与GIS技术结合的产物 - WebGIS

陆生野生动物监测技术指南【试行】

红灯即将变绿，请起步！

Arcgis空间分析中的插值方法选择

松材线虫病 | 事关我国9亿亩松树的安危 说说松材线虫病的那些事儿

实地考察增了解 交流探讨促合作 | 北京京能地质工程有限公司莅临指导交流

浅谈设计模式的运维优势（一）

鸟类信息数据库 | 野生鸟类保护和疫病监测的基础

湿地履约 中国交出满意答卷

地球玩自拍：一段64亿公里的旅程

ChatGPT为什么这么强

张凤荣：解析中国耕地现状，落实耕地保护目标

卫星“瞰”湿地，颜值与实力并存

松材线虫病灾害经济损失评估软件研发

国家公园将引领我国自然保护地体系建设

AI+遥感，助力林业资源动态监测

高清遥感卫片监测森林资源对基层林业工作将会产生哪些深远影响

中国城市夜景卫星图，你的城市多发达？世界各国灯光地图，你的国家多繁华！

在我的世界中，B站UP主搭建世界首个纯红石神经网络，图灵奖得主Yann LeCun转赞

中关村人才协会林草资源信息人才联络处揭牌成立

从定性到定量，遥感技术“进阶式”

卫星遥瞰，国家公园的非凡十年

卫星影像下的洞庭湖、鄱阳湖已“瘦成闪电”！

遥感技术在洪涝灾害方面的应用

CCTV-17农业农村 | [中国三农报道]中国科学院植被病虫害遥感监测与预测系统升级版发布

第三届植被病虫害遥感大会||重点关注

提升自然资源调查效率，助力数字经济转型发展 |遥感智能解译技术（装备）创新峰会召开

遥感样本库建设还没头绪？不妨来这看看...

中国地理信息产业协会时空信息智能云服务工作委员会成立!

如何实时跟踪定位航班位置？

关于召开遥感智能解译技术（装备） 创新峰会的通知

视觉盛宴-2021年度自然资源科普微视频大赛获奖作品赏析

真香，当天枢遇上云平台！！

5天推进200公里，河南小麦收获已达8成

浅谈AI遥感解译在农业方面的应用

林业植物调运检疫可视化分析及技术实现

政策解读｜《北京市园林绿化局关于提升建设项目使用林地审核审批便利化服务的通知》

AI+遥感 | 城市井盖普查新思路

Sentinel-2卫星镜头下的高速目标---疾驰的京沪高铁

换个角度，来看天枢能为农业监测做什么

天枢（Learth）第四讲：AI助力大范围候鸟监测调查

北京市园林绿化局关于印发《建设项目使用林地行政许可事项服务程序》的通知

守正出新 砥砺奋进 | 中科北纬公司党支部圆满完成预备党员转正工作

天枢平台-以遥感解译助力松材线虫监测

一文看懂元宇宙

解读生命的密码——DNA

新版发布 | 天枢-遥感智能视觉平台v2.2 震撼亮相

北京市园林绿化局行政规范性文件清理结果

基于载人航天平台的林业遥感应用

一文看懂深度学习（白话解释+8个优缺点+4个典型算法）

一文看懂图灵测试（附图灵本人的精彩事迹）

专家解读 | 构建完善生物多样性保护空间网络

权威发布｜高分卫星运行与数据分发报告-2021年11月

注意安全！野外工作安全指南

新基建驱动产业转型升级 | AI赋能共创遥感新时代

信息技术在野生动物救护中的应用

天枢-遥感智能视觉平台“亮相遥感智能时空大数据峰会

中科北纬诚邀您参加首届京津冀晋生态旅游观鸟季启动仪式暨“野鸭湖

奋进生态发展新征程赋能生物多样大杨山

松材线虫病 | 事关我国9亿亩松树的安危说说松材线虫病的那些事儿

实地考察增了解交流探讨促合作 | 北京京能地质工程有限公司莅临指导交流

湿地履约中国交出满意答卷

关于召开遥感智能解译技术（装备）创新峰会的通知

守正出新砥砺奋进 | 中科北纬公司党支部圆满完成预备党员转正工作

你的改变我能够分辨 | 天枢平台之变化检测

01.
明确分类体系 CLASSIFICATION SYSTEM

02.
制定标注规则 STANDARD RULES

03.
样本选择 SAMPLE SELECTION

04.
样本库管理 SAMPLE LIBRARY