● 吴金铭 杨建波
在工程项目中,项目负责人担任关键角色。传统审计方法受限于数据量大、信息孤岛、单一数据库质量不佳等问题,难以全面、高效地识别一个项目经理在多个项目任职的(以下简称“一人多项”)违规行为。随着大数据技术的发展,多数据库关联分析为审计工作提供了新的技术路径。本文以×省公共资源交易中心平台建设运行管理情况专项审计项目为例,介绍如何运用多数据库关联技术在该领域审计项目中的应用。
一、多数据库关联技术介绍
多数据库关联技术是指通过数据抽取、清洗、整合与分析,将来自不同来源、不同结构的数据进行关联比对,从而发现数据之间隐藏的逻辑关系和异常情况。在审计领域中,该技术常用于跨系统、跨平台的数据融合分析,尤其适用于识别重复申报、虚假投标、违规兼职等行为。
多数据库关联技术的核心在于构建统一的数据整合建模。其基本流程为:
1.多数据源的采集和预处理。从所需要的多个数据源提取相关数据,进行清洗、去重以及标准化处理,以确保数据质量和标准一致性。
2.数据建模与关联。建立数据关联模型,通过主键关联、模糊匹配、时间序列等方式,整合关键字段,形成关联大数据模型。
3.设置规则,识别异常。通过审计规则,筛选异常数据,生成预警记录清单。与传统审计相比,多数据库关联技术更具全面性和准确性,能够一定程度上避开单一数据库数据质量不佳的情况,更深层次挖掘人工、单数据库无法识别的问题,通过更加多维度的数据,最大程度上避免了抽样偏差,提高了问题识别能力。
二、审计实例
×省审计厅切实围绕贯彻国务院、省人民政府部署,规范提升公共资源交易服务管理水平,持续开展公共资源交易突出问题的审计,营造公平透明市场环境,于今年上半年成立专项审计组,对×省公共资源交易中心平台建设运行管理情况进行审计。审计目标之一是通过大数据分析,识别是否存在同一注册建造师在重叠时间段内担任多个项目的施工单位负责人,违反《注册建造师管理规定》相关规定。
(一)数据来源和预处理
在实际审计中,审计人员发现×省公共资源交易中心平台存在项目负责人信息不全(比如只存在姓名,没有身份证号等唯一标识)、项目信息难以与项目负责人直接匹配等情况。这些情况导致单一数据库已无法支撑审计人员获取目标结果。经进一步技术分析,可通过引入其他来源数据库进行关联,重构业务数据,重新构建“项目—公司—人员”的新模型进行深入挖掘。
审计组根据实际情况,收集并使用以下主要数据:公共资源交易中心平台的中标公司数据、省住建厅的注册建造师信息库数据、工程交易系统和电子招投标系统项目数据、企业工商注册信息库数据。通过数据接口,以SQLserever为工具开展数据关联、分析和挖掘。由于来自各个单位的多源数据存在异构问题,需对数据进行清洗和预处理。本次审计是通过明确目标和分类技术,快速对多源数据进行匹配和对齐,以达到消除异构的问题。
(二)构建数据模型和疑点挖掘
通过注册建造师身份证号为主键,关联注册建造师个人信息和注册建造师社保缴纳信息,并以社保缴纳公司和时间为序列轴,形成注册建造师个人所在公司的时间线。同时,抽取注册建造师所在公司的项目编号、项目负责人身份证号、中标时间、项目开始时间和结束时间,构建新的公司项目—项目负责人关系表。
将上述两个表进行关联,设定审计逻辑判定规则:如果同一建造师在两个及以上项目的任职时间存在重叠,则判定存在疑点。其判定伪代码如下:IF(ProjectA_start≤ProjectB_end AND ProjectA_end≥ProjectB_start) THEN Flag=1。
通过上述方式的SQL查询和筛选,审计组发现部分公司以同一注册建造师为项目负责人,中标多个项目,其中部分项目的开始时间和结束时间存在重叠。
(三)审计结果
本次审计对2022年到2024年的省级平台工程招投标数据共计约7万条进行了审计。经上述方法进行系统批量处理,最终识别出存在上述两种现象的情况有多名注册建造师。经进一步现场核实取证,审计机关将问题移送主管部门并得到相应处理。
三、审计成效
由本次审计结果来看,多数据库关联技术在工程项目审计中展现出显著成效。一是提高了审计效率。人工核查几乎无法完成对数万条数据的有效清理,而本次审计通过多数据库关联技术,从采集数据到清洗数据,最后建立模型挖掘数据,均通过数据审计进行,审计效率显著提升。二是拓宽了审计思路。多数据库关联,突破了传统审计的抽样模式,在抽样审计转变为全量审计之路上迈出了一大步,实现了“让数据说话”的审计理念,将单一论据向多维印证进行转变,精准定位,多维核实,天然形成证据闭环,大大减少了从发现疑点到确定疑点的试错成本。三是形成可推广的审计思路。大物联的审计思路可由工程审计推广至其他审计项目,具有较高的借鉴价值。
(作者单位:四川省审计厅)
