Shark Start企业数据采集平台
产品介绍|PRODUCT INTRODUCTION
企业统一数据采集管理平台(Shark Start)是一款用于支持企业数据采集管理的软件,是Sharkata产品族之一。它通过参数化、插件化、可视化的机制实现数据采集过程的自动化和统一管理,从而达到企业数据"一次采集,多次使用,易于扩展"的业务目标。


产品价值|PRODUCT VALUE
Shark Start可为企业的新增数据源接入、数据采集流程管理、开发效率、采集数据质量保障、应对源系统频繁的数据变更以及流程可视化监控提供有效的帮助。

  • 规范了企业数据采集流程,提升整体数据管控能力。
  • 提高数据采集的开发效率,节省开发成本。
  • 保障数据采集的质量,提升后续数据应用的效果。
  • 自动化应对源系统数据的变更,提升系统的可用性。
  • 实现数据采集过程的可视化监控,降低运维难度。

功能特点|PRODUCT FEATURES
1、多样化数据源的支持
Shark Start对数据源提供了足够强大的标识、管理和扩展能力,以适应企业数据源不断增加和变更的需要。
①、支持对不同技术平台上数据的采集;
②、支持多种数据来源,包括数据库表、文件、消息列队等;
③、支持对结构化、半结构化和非结构化数据的采集;
④、支持对增量和全量数据的采集;
⑤、支持主动和被动的数据采集方式;
⑥、采用插件式组件设计,支持对新增类型数据源进行数据采集的扩展。

2、一次采集多次使用
SharkStart对采集到的数据规划保存至数据缓冲区,进行集中统一管理,之后再提供给多个目标使用。这样的方式使得平台与源系统和目标保持松耦合的关系。
①、源数据一次采集
对一个源数据进行单次采集,避免重复的对源系统抽取数据,减轻源系统压力。
②、采集数据多次使用
一份数据在不同数据应用中多次使用,保证不同数据应用获得的源数据是一致的。

3、可扩展的架构
①数据采集和数据加载插件化设计
SharkStart在源数据采集和目标加载过程所调用的组件,都按插件化的方式进行设计,可方便地进行扩展,实现对新的技术平台的支持。
②数据预处理自定义接口
SharkStart在数据预处理环节中提供自定义接口,方便用户根据自身处理需要,在原有预处理流程中扩展新的数据处理功能。

4、源数据变更全程自适应能力
在传统的数据采集开发模式下,一旦出现源系统数据规格的调整变更,开发人员需要根据新的数据规格调整原有的采集程序,并遵循开发测试的流程后才能部署。这样对于周期较为紧急的变更和临时未通知的变更,往往需要投入大量人力和时间。
通过分析数据采集过程可以发现,各个数据的处理是相对独立的,除了在实体上不同,其最主要的区别是在数据结构上。在SharkStart中,各流程环节使用的功能组件都将数据结构作为输入参数。
在数据采集流程的源数据采集阶段,会首先采集数据的结构信息装载至参数库中。在后续处理的各功能组件,在运行时将实时的读取在参数库中对应的结构信息。通过这样的方式,实现数据采集过程对变更的自适应。

5、全程数据质量监控
①、数据采集的完整性保障
SharkStart在数据采集过程的各处理环节都进行了严密的数据量完整性检验。在各个环节的处理过程中都对输入输出数据量进行了比较,确保处理的数据量一致。
②、数据采集的一致性保障
在数据预处理中使用的各个功能组件都有严格的数据质量控制环节,确保数据预处理过程中不造成数据的丢失。
③、数据质量报告机制
对于采集、预处理和装载过程中发现的数据问题,用户可以在运行监控中方便的进行查看,同时也将体现在定期生成相应的数据采集报告中。

6、便捷的开发部署方式
①、可视化在线配置
SharkStart中通过参数化的方式,实现对新增数据源的支持,通常情况下用户无需开发代码,而是通过在线配置的方式即可方便的接入新增数据源。
②、手工批量配置
为了适应工程的需要,产品还提供了批量配置方式,用户根据EXCEL模板,填写数据采集项的各种参数信息,通过配置批量导入方式生成数据采集的参数配置信息。
③、自动化作业生成
当数据采集配置完成后,系统将对它们进行验证,验证无误后用户可以进行生效操作。生效过程中将根据配置信息自动的生成作业及调度信息。
这样的开发部署方式,极大的提高了数据采集的开发效率,满足了用户对数据的及时性要求。