Streamsets简介:
Streamsets是由Informatica前首席产品官Girish Pancha和Cloudera前开发团队负责人Arvind Prabhakar于2014年创立的公司,总部设在旧金山。streamsets产品是一个做大数据ETL的工具,支持包括结构化和半/非结构化数据源,拖拽式的可视化数据流程设计界面。而Streamsets旗下有如下三个产品: streamsets data collector(核心产品,开源):大数据ETL工具;streamsets data collector Edge(开源):将这个组件安装在物联网等设备上,占用少的内存和CPU;streamsets control hub(收费项目):可以将collector编辑好的pipeline放入control hub进行管理,可实现定时调度、管理和pipeline拓扑;
本文介绍streamsets data collector 集成在cloudera manager CDH6.3.2

首先准备四个文件
manifest.json
STREAMSETS-3.14.0.jar
STREAMSETS_DATACOLLECTOR-3.14.0-el7.parcel
STREAMSETS_DATACOLLECTOR-3.14.0-el7.parcel.sha

将以下文件放置在 /opt/cloudera/parcel-repo/ 下
manifest.json(可以不放置)
STREAMSETS_DATACOLLECTOR-3.14.0-el7.parcel
STREAMSETS_DATACOLLECTOR-3.14.0-el7.parcel.sha

将以下文件放置在 /opt/cloudera/csd 下
STREAMSETS-3.14.0.jar

在CM中集成:
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

添加服务
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

启动服务 默认账号密码 admin admin
在这里插入图片描述

在这里插入图片描述
安装完毕

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐