一站式数据可观测性平台 Datavines 正式开源啦

news/2024/7/10 22:08:04 标签: 开源, 数据库, java

Datavines是一站式开源数据可观测性平台,提供元数据管理、数据概览报告、数据质量管理,数据分布查询、数据趋势洞察等核心能力,致力于帮助用户全面地了解和掌管数据,让您做到心中有数,目前作为 Datavane 开源组织的重点推荐项目,正式开源,欢迎大家使用。

核心特性

数据目录

  • 定时获取数据源元数据,构造数据目录

  • 定时监听元数据变更情况

  • 支持元数据的标签管理

数据目录

数据质量监控

  • 内置 27 个数据质量检查规则,开箱即用

  • 支持 4 种数据质量检查规则类型

    • 单表单列检查类型

    • 单表自定义SQL检查类型

    • 跨表准确性检查类型

    • 两表值比对检查类型

  • 支持配置定时任务进行定时检查

  • 支持配置 SLA 用于检查结果告警

数据质量检查

数据概览

  • 支持定时执行数据探测,输出数据概览报告

  • 支持自动识别列的类型自动匹配合适的数据概况指标

  • 支持表行数趋势监控

  • 支持列的数据分布情况查看

数据概览

插件化设计

平台以插件化设计为核心,以下模块都支持用户自定义插件进行扩展

  • 数据源:已支持 MySQLImpalaStarocksDorisPrestoTrinoClickHousePostgreSQL
  • 检查规则:内置空值检查、非空检查、枚举检查等27个检查规则
  • 作业执行引擎:已支持SparkLocal两种执行引擎。Spark 引擎目前仅支持Spark2.4版本,Local 引擎则是基于JDBC开发的本地执行引擎,无需依赖其他执行引擎。
  • 告警通道:已支持邮件
  • 错误数据存储:已支持 MySQL本地文件(仅支持Local执行引擎)
  • 注册中心:已支持 MySQLPostgreSQLZooKeeper

多种运行模式

  • 提供Web页面配置检查作业、运行作业、查看作业执行日志、查看错误数据和检查结果

  • 支持在线生成作业运行脚本,通过 datavines-submit.sh 来提交作业,可与调度系统配合使用

作业脚本

容易部署&高可用

  • 平台依赖少,容易部署

  • 最小仅依赖 MySQL 既可启动项目,完成数据质量作业的检查

  • 支持水平扩容,自动容错

  • 无中心化设计Server 节点支持水平扩展提高性能

  • 作业自动容错,保证作业不丢失和不重复执行

项目架构

Datavines架构图

CatalogManager

CatalogManager 是负责管理元数据的组件,主要负责元数据的存储、查询以及元数据获取任务的调度和容错处理等。

DataQualityCenter

DataQualityCenter 是负责数据质量管理的组件,主要负责数据质量规则的管理、数据质量作业的调度、执行和自动容错处理等。

快速上手

数据概览

进行数据概览只需下面3步:

  • 创建数据源(或者选择创建好的数据源)
  • 点击相应的表
  • 点击右上角 运行概览 并选择想要探查的列

Datavines数据概览演示

数据质量检查

进行数据质量检查只需下面4步:

  • 点击想要进行检查的列,点击 添加作业
  • 选择 检查规则 并填入参数
  • 选择 检查公式 ,比如 实际值/期望值 x100% ,填入比较符和阈值
  • 点击保存并运行即可

Datavines数据质量检查演示

加入我们

Datavines 的目标是成为更好的数据可观测性领域的开源项目,为更多的用户去解决元数据管理和数据质量管理中遇到的问题。在此我们真诚欢迎更多的贡献者参与到社区建设中来,和我们一起成长,携手共建更好的社区。

  • 项目地址: https://github.com/datavane/datavines
  • 问题和建议: https://github.com/datavane/datavines/issues
  • 贡献代码: https://github.com/datavane/datavines/pulls

关于Datavane

Datavane 是一个专注于大数据领域的开源组织(社区),由一群大数据领域优秀的开源项目作者共同创建,旨在帮助开源项目作者更好的建设项目、为大众提供高质量的开源软件,宗旨是:只为做一个好软件。目前已经聚集了一批优质的开源项目,涉及到数据集成、大数据组件管理、数据质量等。

Datavane 社区中,所有的项目都是开源开放的,代码质量和架构设计优质的潜力项目。社区保持开放中立、协作创造、坚持精品,鼓励所有的开发者、用户和贡献者积极参与我们的社区、共同合作,创新创造,建设一个更加强大的开源社区。

官 网: http://www.datavane.org/
Github : https://github.com/datavane


http://www.niftyadmin.cn/n/458485.html

相关文章

极致呈现系列之:Echarts散点图的数据魔力

目录 什么是散点图散点图的特点及应用场景散点图的特点散点图的应用场景 Echarts中散点图的常用属性Vue3中创建散点图美化散点图样式 在数据分析和可视化过程中,散点图是一种常见且重要的工具。散点图可以帮助我们直观地观察两个变量之间的关系,并发现其…

常见面试题之框架篇

1.Spring框架中的单例bean是线程安全的吗? 不是线程安全的,是这样的。 当多用户同时请求一个服务时,容器会给每一个请求分配一个线程,这是多个线程会并发执行该请求对应的业务逻辑(成员方法),…

深入理解深度学习——GPT(Generative Pre-Trained Transformer):GPT-3与Few-shot Learning

分类目录:《深入理解深度学习》总目录 相关文章: GPT(Generative Pre-Trained Transformer):基础知识 GPT(Generative Pre-Trained Transformer):在不同任务中使用GPT GPT&#x…

端午作业1

只要文件存在,就会有唯一对应的inode号,且相应的会存在一个struct inode结构体。在应用层通过open()打开一个设备文件,会对应产生一个inode号,通过inode号可以找到文件的inode结构体 根据inode结构体中文件…

文心一言 VS 讯飞星火 VS chatgpt (44)-- 算法导论6.1 1题

一、在高度为h的堆中,元素个数最多和最少分别是多少? 文心一言: 在高度为 h 的二叉搜索树(BST)中,元素个数最多和最少的情况分别如下: 1.最多情况:当每个节点都包含两个子节点时&#xff0c…

mac本地创建ssh key连接github

起因 今天克隆自己github上面的笔记到新电脑上,用http连接进行克隆,然后要我输入账号密码,输入完报了个提示“remote: Support for password authentication was removed on August 13, 2021. Please use a personal access token instead.”…

English Learning - L3 作业打卡 Lesson7 Day48 2023.6.21 周三

English Learning - L3 作业打卡 Lesson7 Day48 2023.6.21 周三 引言🍉句1: I thought the worst was over until weeks later when I saw my new legs for the first time.成分划分弱读连读爆破语调 🍉句2: I didn’t know what to expect but I wasn‘…