开源元数据治理平台Datahub部署指南(小白版)

news/2024/7/10 18:42:22 标签: 开源, 元数据, 数据治理, 大数据

1.引言

datahub是做什么的,这里就不展开描述了, 如果想了解更多请自行阅读DataHub官网文档, 这里主要教大家如何一步一步安装然后100%部署完成。一般开源产品的文档都是被大家吐槽的最多的,部署步骤写的非常简单,重要关键的配置有时候基本都是不提的,很多人想入门, 但是安装部署就会把大多数人拒之门外,很多没耐心的同学一旦掉到坑里爬不出来, 立马就放弃了, 本篇文章的主要目的就在于帮助大家把这一步跨过去,文章对你有帮助,请点赞关注, 不喜勿喷~

2.软件版本要求

  • CentOS == 7.6.18-x86-64
  • datahub == 0.12.0
  • python == 3.8.18
  • docker == 24.0.7
  • docker-compose == 2.20.3

3. 安装过程详解

3.1 Docker安装

请参考我之前的文章进行安装,传送门戳这里 docker的3种常用的安装部署方式介绍演示

考虑docker离线安装的问题, 后续写一篇docker离线部署的文章给大家。

3.2 docker-compose安装

下载并安装, 如果下载不下来, 可以先下载到本地再上传到服务器

curl -SL https://github.com/docker/compose/releases/download/v2.20.3/docker-compose-linux-x86_64 -o /usr/local/bin/docker-compose

修改脚本操作权限

chmod 755 /usr/local/bin/docker-compose

检查docker-compose是否安装成功

在这里插入图片描述

3.3 python3安装

因为datahub0.12.0安装依赖python3, 但是CentOS默认的python版本是python2.7.5,这里需要安装python3,我这里安装的python版本是3.8.18, 下面演示编译安装的整个过程:

1)安装系统依赖

yum install -y zlib-devel bzip2-devel openssl-devel ncurses-devel epel-release gcc gcc-c++ xz-devel readline-devel gdbm-devel sqlite-devel tk-devel db4-devel libpcap-devel libffi-devel

2)首先创建python3的安装目录:

mkdir -p /usr/local/python3

3)下载Python3.8.18的安装包

mkdir -p /opt/packages

cd /opt/packages

wget https://registry.npmmirror.com/-/binary/python/3.8.18/Python-3.8.18.tgz

4)解压安装包

tar -zxf /opt/packages/Python-3.8.18.tgz

5)编译安装

cd /opt/packages/Python-3.8.18

./configure --prefix=/usr/local/python3

make && make install

执行完毕, /usr/local/python3目录如下图:

在这里插入图片描述
6)配置系统环境变量

ln -s /usr/local/python3/bin/python3.8 /usr/local/bin/python3

ln -s /usr/local/python3/bin/pip3 /usr/local/bin/pip3

如下图:
在这里插入图片描述
在这里插入图片描述

检查系统环境变量是否生效, 如下图则成功。

在这里插入图片描述

python3 -m pip install --upgrade pip

在这里插入图片描述

3.4 datahub安装

执行安装命令, 如下

python3 -m pip install acryl-datahub==0.12.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

检查datahub是否安装成功

python3 -m pip datahub version

出现如下报错:

在这里插入图片描述

解决方法:urllib3库版本太高了, 降版本, 重新安装urllib3的1.25.11版本

python3 -m pip install urllib3==1.25.11 -i https://pypi.tuna.tsinghua.edu.cn/simple
在这里插入图片描述

再次检查datahub是否安装成功,

python3 -m pip datahub version

如下图, 说明安装成功

在这里插入图片描述

在这里插入图片描述

3.4 datahub镜像下载安装

首先我们从github的datahub仓库下载DataHubv0.12.0版本源代码,解压找到一下docker-compose的编排脚本文件
在这里插入图片描述
docker-compose-without-neo4j.quickstart.yml脚本上传到服务器的/usr/local/python3/datahub-docker-scripts目录下,如果没有这个路径请自行创建, 创建命令mkdir -p /usr/local/python3/datahub-docker-scripts

进入到/usr/local/python3/datahub-docker-scripts目录下, 执行以下命令:

python3 -m datahub docker quickstart --quickstart-compose-file ./docker-compose-without-neo4j.quickstart.yml

在这里插入图片描述
经过漫长的镜像下载拉取之后,容器运行成功之后, 整个安装流程完毕如下图:
在这里插入图片描述

访问http://10.10.3.14:9002,出现如下页面, 说明DataHub安装成功,默认的账号密码如下:

用户名:datahub  

密码:  datahub

在这里插入图片描述

4.服务管理及使用的常见指令

1)一键启动Datahub

docker-compose -p datahub -f ./docker-compose.consumers-without-neo4j.quickstart.yml up -

2)一键停止Datahub

docker-compose -p datahub -f ./docker-compose.consumers-without-neo4j.quickstart.yml stop

3)查看Datahub插件列表

python3 -m datahub check plugins --verbose

4)安装Datahub插件

pip3 install 'acryl-datahub[数据源]'

举例, 现在需要管理MySQL数据源的元数据, 需要先集成mysql的数据源插件

pip3 install acryl-datahub[mysql]

5.使用演示

配置元数据源集成
在这里插入图片描述
创建新的元数据
在这里插入图片描述
选择数据源类型,配置数据源连接参数,设置采集任务调度, 然后保存即可。
在这里插入图片描述
点击"RUN"运行采集任务
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
好了,本篇文章到此结束,如果安装过程中遇到问题,欢迎留言讨论哈,最后点赞关注,送你一朵小红花,谢谢~~~。


http://www.niftyadmin.cn/n/5279271.html

相关文章

(1)(1.10) SiK Radio v1

文章目录 前言 1 概述 2 连接无线电台 3 参数说明 前言 本文介绍了如何将 3DR Radio v1 连接到飞行控制器。你还应阅读 SiK Radio v2,其中包含更详细的用户指南和功能列表。 1 概述 3DR 无线电设备是在自动驾驶仪和地面站之间建立遥测连接的最简单方法。 3DR…

python三大开发框架django、 flask 和 fastapi 对比

本文讲述了什么启发了 FastAPI 的诞生,它与其他替代框架的对比,以及从中汲取的经验。 如果不是基于前人的成果,FastAPI 将不会存在。在 FastAPI 之前,前人已经创建了许多工具 。 几年来,我一直在避免创建新框架。首先&…

Google 提示:切忌滥用 DORA 指标

谷歌的 DevOps 研究与评估团队从事指标交易,即 DevOps 指标。但其最新的相关报告也警告不要过度使用这些指标。 DevOps 研究与评估小组(DORA)建议 IT 专业人员根据四个关键指标来评估团队绩效:部署频率,变更准备时间&a…

【虹科干货】Linux越来越容易受到攻击,怎么防御?

文章速览: Linux难逃高级网络攻击原因分析 Linux自身原因软件供应链的入口其他防御机制 3. 基于移动目标防御技术的Morphisec Knigt for Linux 在数字化时代,网络安全已成为企业不可忽视的重要议题。尤其是对于依赖Linux服务器的组织,面对日…

AtomHub 开源容器镜像中心开放公测,国内服务稳定下载

由开放原子开源基金会主导,华为、浪潮、DaoCloud、谐云、青云、飓风引擎以及 OpenSDV 开源联盟、openEuler 社区、OpenCloudOS 社区等成员单位共同发起建设的 AtomHub 可信镜像中心正式开放公测。AtomHub 秉承共建、共治、共享的理念,旨在为开源组织和开…

vue 使用 html2canvas 截取图片保存

vue 使用 html2canvas 截取图片保存 好久没有写博文了,写够了,没啥想写的了,这个号算是废了,哎,气人啊!越来越胖,越来越懒了。 html2canvas 简介 html2canvas是一个JavaScript库,它…

FFmpeg实现rtp推流

以下是一个简单的示例代码&#xff0c;演示了如何使用 UDP 或 TCP 进行音视频传输&#xff1a; 代码未经验证&#xff0c;供参考 #include <stdio.h> #include <stdlib.h> #include <string.h> #include <unistd.h> #include <sys/types.h> #in…

GLTF vs FBX:应该使用哪种格式?

在线工具推荐&#xff1a; 3D数字孪生场景编辑器 - GLTF/GLB材质纹理编辑器 - 3D模型在线转换 - Three.js AI自动纹理开发包 - YOLO 虚幻合成数据生成器 - 三维模型预览图生成器 - 3D模型语义搜索引擎 概括地说&#xff0c;如果要将数据传输到 Unity 或虚幻引擎等游戏引擎…