业务挑战
从行业角度出发,在保险行业中,合规性和风险管理的重要性不言而喻。为了应对监管要求并降低潜在风险,必须能够全面追踪和分析数据血缘。这包括明确数据的来源、了解其处理与传输的具体过程,以及掌握数据的使用情况。
从自身角度出发,随着数字化转型的不断深化,泰康养老已深刻认识到数据在决策中的核心作用。数据驱动的决策需要可信、一致、完整的数据资产作为决策的基础。因此,当前最迫切的任务在于提升数据质量,确保数据资产的可信度、一致性和完整性。
然而,在实现这些目标的过程中,会面临以下挑战:
- 内部协作与沟通
作为泰康养老的数据基建部门,管辖了整个养老集团的全部数据。企业内部数据需要大量的共享与协作,导致数据无法高效利用。业务部门有大量数据需求以支持决策,但数据部门资源紧张,既要处理内部应用开发,又要满足业务部门的数据需求。协调内部配合成为一大挑战。
- 系统老旧过时
旧有的工具类产品如数据加工、调度和BI工具增加了数据采集和血缘采集的难度,使得全链路字段级血缘的可行性在项目初期变得不确定。
- 数据格式不统一
目前集团内使用的数据库种类繁多,包含:DB2 数仓、Hadoop 集群、MySQL、Oracle 等。企业内外部的数据格式可能存在格式不统一的问题,导致数据无法直接使用。
- 数据孤立
集团内部的数据存在于不同的系统和平台中,导致数据无法打通,存在数据孤立的问题。
- 数据安全
在使用数据的过程中,仍需格外关注数据安全、数据权限以及数据合规问题,最大化降低数据暴露风险。
解决方案
本项目中长期规划的功能架构,其中资产浏览、资产管理、审批中心和数据底座中的元数据服务、数据血缘等部分已在本期项目中成功投产上线。如下图所示:
在整体的功能规划中,自底向上依次为:数据源层、数据底座、资产服务、应用层。
- 数据源层:即数据载体,支持多模式、高性能、简洁友好的数据采集能力,能够从不同来源获取和整合数据:目前已经接入泰康养老的数仓中已存储的约 150TB 历史数据,每日新增的数据量则约为 100GB。这些数据涵盖了获客、销售、财务、理赔、售后等多个关键业务领域。
- 数据存储:本模块使用 Fabarta 自研图数据库 ArcGraph 作为主存储,存储了技术元数据、业务元数据、表级数据血缘、字段级数据血缘等核心数据。
- 数据底座:为了支撑数据资产平台的正常运营,数据底座中包含有元数据服务、数据血缘服务、数据质量服务、数据安全服务、指标开发中心、API 开发中心等基础服务,负责提供资产管理所需的一切元数据与数据,同时将数据与质量、安全等核心资产信息关联起来,便于后续资产管理与上线使用。
- 资产服务:提供完整的资产管理、资产发布、资产门户、资产运营能力,基于技术元数据与数据血缘,提供更为详尽的链路信息,加速数据流转,提升数据资产质量。
- 应用层:即数据消费方,基于资产门户提供的加密数据访问方式,可支撑包含可视化报表、数据挖掘、机器学习、应用开发和日常取数等资产消费场景。
客户收益
1.数据治理
- 元数据采集:每日定时从数仓采集约 2 万张表和上百万数据字段,确保数据资产的全面覆盖
- 数据血缘解析:基于血缘解析引擎,每日全量收集数据加工脚本超 5 万份,识别出 3 万余条表级和 100 万余条字段级数据血缘,深化数据关系理解。
- 历史版本管理:技术元数据留存历史版本,支持后续版本查看与比较,保障数据治理的连续性。
- 服务类数据资产管理:管理约 2 万条服务类数据资产(每日稳定增长),包括数据指标、API、报表等,提供稳定服务支持。
2.数据运营
- 元数据搜索全面:覆盖标准指标、报表、维度和技术元数据库表,年度内部用户数百人,报表信息访问量占养老决策报表的 80%。
- 数据地图活跃:近百用户日均搜索几十次,字段级血缘解析已完成,助力深入数据探索。
- 资产管理高效:库表与 API 管理使用率高,报表和 API 资产发布完成 100% 数据梳理与登记。
- DDL变更透明:变更通知已上线,增强数据运营的透明度和可控性。