使用过哪些数据抽取转换工具_常见的大数据采集工具有哪些

① 常用的etl工具有哪些

1、DataPipeline

DataPipeline 隶属于北京数见科技有限公司，是一家企业级批流一体数据融合服务商和解决方案提供商，国内实时数据管道技术的倡导者。

通过平台和技术为企业客户解决数据准备过程中的各种痛点，帮助客户更敏捷、更高效、更简单地实现复杂异构数据源到目的地的实时数据融合和数据管理等综合服务。

从而打破传统 ETL 给客户灵活数据应用带来的束缚，让数据准备过程不再成为数据消费的瓶颈。

2、Kettle

Kettle是一款国外开源的ETL工具，纯java编写，可以在Windows、Linux、Unix上运行，数据抽取高效稳定。

Kettle 中文名称叫水壶，该项目的主程序员MATT 希望把各种数据放到一个壶里，然后以一种指定的格式流出。

3、Talend

Talend 是数据集成解决方案领域的领袖企业，为公共云和私有云以及本地环境提供一体化的数据集成平台。Talend的使命是致力于帮助客户优化数据，提高数据可靠性，把企业数据更快地转化为商业价值。

以此为使命，Talend的解决方案将数据从传统基础架构中解放出来，提高客户在业务中的洞察力，让客户更早实现业务价值。

4、Informatica

Informatica是全球领先的数据管理软件提供商。

在如下Gartner魔力象限位于领导者地位：数据集成工具魔力象限、数据质量工具魔力象限、元数据管理解决方案魔力象限、主数据管理解决方案魔力象限、企业级集成平台即服务（EiPaaS）魔力象限。

5、DataStage

IBM® InfoSphere™ Information Server 是一种数据集成软件平台，能够帮助企业从散布在各个系统中的复杂异构信息获得更多价值。InfoSphere Information Server提供了一个统一的平台，使公司能够了解、清理、变换和交付值得信赖且上下文丰富的信息。

IBM® InfoSphere™ DataStage® and QualityStage™ 提供了图形框架，您可使用该框架来设计和运行用于变换和清理、加载数据的作业。

② 大数据分析一般用什么工具呢

虽然数据分析的工具千万种，综合起来万变不离其宗。无非是数据获取、数据存储、数据管理、数据计算、数据分析、数据展示等几个方面。而SAS、R、SPSS、python、excel是被提到频率最高的数据分析工具。

Python

Python，是一种面向对象、解释型计算机程序设计语言。Python语法简洁而清晰，具有丰富和强大的类库。它常被昵称为胶水语言，能够把用其他语言制作的各种模块（尤其是C/C++）很轻松地联结在一起。

常见的一种应用情形是，使用Python快速生成程序的原型（有时甚至是程序的最终界面），然后对其中有特别要求的部分，用更合适的语言改写，比如3D游戏中的图形渲染模块，性能要求特别高，就可以用C/C++重写，而后封装为Python可以调用的扩展类库。需要注意的是在您使用扩展类库时可能需要考虑平台问题，某些可能不提供跨平台的实现。

R软件

R是一套完整的数据处理、计算和制图软件系统。它可以提供一些集成的统计工具，但更大量的是它提供各种数学计算、统计计算的函数，从而使使用者能灵活机动的进行数据分析，甚至创造出符合需要的新的统计计算方法。

SPSS

SPSS是世界上最早的统计分析软件，具有完整的数据输入、编辑、统计分析、报表、图形制作等功能，能够读取及输出多种格式的文件。

Excel

可以进行各种数据的处理、统计分析和辅助决策操作，广泛地应用于管理、统计财经、金融等众多领域。

SAS软件

SAS把数据存取、管理、分析和展现有机地融为一体。提供了从基本统计数的计算到各种试验设计的方差分析，相关回归分析以及多变数分析的多种统计分析过程，几乎囊括了所有最新分析方法，其分析技术先进，可靠。分析方法的实现通过过程调用完成。许多过程同时提供了多种算法和选项。

③ 网络信息抽取的工具

网络数据抽取工具简介
传统的网络数据抽取是针对抽取对象手工编写一段专门的抽取程序，这个程序称为包装器(wrapper)。近年来，越来越多的网络数据抽取工具被开发出来，替代了传统的手工编写包装器的方法。目前的网络数据抽取工具可分为以下几大类(实际上，一个工具可能会归属于其中若干类)：
开发包装器的专用语言(Languages for Wrapper Development)：用户可用这些专用语言方便地编写包装器。例如Minerva，TSIMMIS，Web-OQL，FLORID，Jedi等。
以HTML为中间件的工具(HTML-aware Tools)：这些工具在抽取时主要依赖HTML文档的内在结构特征。在抽取过程之前，这些工具先把文档转换成标签树；再根据标签树自动或半自动地抽取数据。代表工具有Knowlesys，MDR。
基于NLP(Natural language processing)的工具(NLP-based Tools)：这些工具通常利用filtering、part-of-speech tagging、lexical semantic tagging等NLP技术建立短语和句子元素之间的关系，推导出抽取规则。这些工具比较适合于抽取那些包含符合文法的页面。代表工具有 RAPIER，SRV，WHISK。
包装器的归纳工具(Wrapper Inction Tools)：包装器的归纳工具从一组训练样例中归纳出基于分隔符的抽取规则。这些工具和基于NLP的工具之间最大的差别在于：这些工具不依赖于语言约束，而是依赖于数据的格式化特征。这个特点决定了这些工具比基于NLP的工具更适合于抽取HTML文档。代表工具有：WIEN，SoftMealy，STALKER。
基于模型的工具(Modeling-based Tools)：这些工具让用户通过图形界面，建立文档中其感兴趣的对象的结构模型，“教”工具学会如何识别文档中的对象，从而抽取出对象。代表工具有：NoDoSE，DEByE。
基于本体的工具(Ontology-based Tools)：这些工具首先需要专家参与，人工建立某领域的知识库，然后工具基于知识库去做抽取操作。如果知识库具有足够的表达能力，那么抽取操作可以做到完全自动。而且由这些工具生成的包装器具有比较好的灵活性和适应性。代表工具有：BYU，X-tract。

④ 数据处理软件有哪些

大数据分析平台是一个集成性的平台，可以将企业用户所用的数据接入，然后在该平台上进行处理，最后对得到的数据，通过各种方式进行分析展示。
大数据平台应该是集数据整合、数据处理、数据存储、数据分析、可视化、数据采集填报等功能为一体，真正帮助企业挖掘数据背后的业务逻辑，洞悉数据的蛛丝马迹，发现数据的潜在价值。亿信华辰的一站式数据分析平台ABI，就是大数据分析平台的一个典型代表。该平台融合了数据源适配、ETL数据处理、数据建模、数据分析、数据填报、工作流、门户、移动应用等核心功能。采用轻量级SOA架构设计、B/S模式，各模块间无缝集成。支持广泛的数据源接入。数据整合模块支持可视化的定义ETL过程，完成对数据的清洗、装换、处理。数据集模块支持数据库、文件、接口等多方式的数据建模。数据分析模块支持报表分析、敏捷看板、即席报告、幻灯片、酷屏、数据填报、数据挖掘等多种分析手段对数据进行分析、展现、应用。

⑤ python 数据挖掘需要用哪些库和工具

python 数据挖掘常用的库太多了！主要分为以下几大类：
第一数据获取：request,BeautifulSoup
第二基本数学库：numpy
第三数据库出路 pymongo
第四图形可视化 matplotlib
第五树分析基本的库 pandas

数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘本质上像是机器学习和人工智能的基础，它的主要目的是从各种各样的数据来源中，提取出超集的信息，然后将这些信息合并让你发现你从来没有想到过的模式和内在关系。这就意味着，数据挖掘不是一种用来证明假说的方法，而是用来构建各种各样的假说的方法。

想要了解更多有关python 数据挖掘的信息，可以了解一下CDA数据分析师的课程。CDA数据分析师证书的含金量是很高的，简单从两个方面分析一下：首先是企业对于CDA的认可，经管之家CDA LEVEL Ⅲ数据科学家认证证书，属于行业顶尖的人才认证，已获得IBM大数据大学，中国电信，苏宁，德勤，猎聘，CDMS等企业的认可。CDA证书逐渐获得各企业用人单位认可与引进，如中国电信、中国移动、德勤，苏宁，中国银行，重庆统计局等。点击预约免费试听课。

⑥ 常见的大数据采集工具有哪些

1、离线搜集工具：ETL

在数据仓库的语境下，ETL基本上便是数据搜集的代表，包括数据的提取(Extract)、转换(Transform)和加载(Load)。在转换的过程中，需求针对具体的事务场景对数据进行治理，例如进行不合法数据监测与过滤、格式转换与数据规范化、数据替换、确保数据完整性等。

2、实时搜集工具：Flume/Kafka

实时搜集首要用在考虑流处理的事务场景，比方，用于记录数据源的履行的各种操作活动，比方网络监控的流量办理、金融运用的股票记账和 web 服务器记录的用户访问行为。在流处理场景，数据搜集会成为Kafka的顾客，就像一个水坝一般将上游源源不断的数据拦截住，然后依据事务场景做对应的处理(例如去重、去噪、中心核算等)，之后再写入到对应的数据存储中。

3、互联网搜集工具：Crawler, DPI等

Scribe是Facebook开发的数据(日志)搜集体系。又被称为网页蜘蛛，网络机器人，是一种按照一定的规矩，自动地抓取万维网信息的程序或者脚本，它支持图片、音频、视频等文件或附件的搜集。

除了网络中包含的内容之外，关于网络流量的搜集能够运用DPI或DFI等带宽办理技术进行处理。

⑦ 大数据etl工具有哪些

ETL是数据仓库中的非常重要的一环，是承前启后的必要的一步。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。

下面给大家介绍一下什么是ETL以及ETL常用的三种工具——Datastage，Informatica，Kettle。

一、什么是ETL？
ETL，Extract-Transform-Load 的缩写，用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程。

数据仓库结构
通俗的说法就是从数据源抽取数据出来，进行清洗加工转换，然后加载到定义好的数据仓库模型中去。目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。

ETL是BI项目重要的一个环节，其设计的好坏影响生成数据的质量，直接关系到BI项目的成败。

二、为什么要用ETL工具？
在数据处理的时候，我们有时会遇到这些问题：

▶ 当数据来自不同的物理主机，这时候如使用SQL语句去处理的话，就显得比较吃力且开销也更大。

▶ 数据来源可以是各种不同的数据库或者文件，这时候需要先把他们整理成统一的格式后才可以进行数据的处理，这一过程用代码实现显然有些麻烦。

▶ 在数据库中我们当然可以使用存储过程去处理数据，但是处理海量数据的时候存储过程显然比较吃力，而且会占用较多数据库的资源，这可能会导致数据资源不足，进而影响数据库的性能。

而上述遇到的问题，我们用ETL工具就可以解决。ETL工具具有以下几点优势：

1、支持多种异构数据源的连接。（部分）

2、图形化的界面操作十分方便。

3、处理海量数据速度快、流程更清晰等。

三、ETL工具介绍
1、Datastage

IBM公司的商业软件，最专业的ETL工具，但同时价格不菲，适合大规模的ETL应用。

使用难度：★★★★

2、Informatica

商业软件，相当专业的ETL工具。价格上比Datastage便宜一点，也适合大规模的ETL应用。

使用难度：★★

3、Kettle

免费，最着名的开源产品，是用纯java编写的ETL工具，只需要JVM环境即可部署，可跨平台，扩展性好。

使用难度：★★

四、三种ETL工具的对比
Datastage、Informatica、Kettle三个ETL工具的特点和差异介绍：

1、操作

这三种ETL工具都是属于比较简单易用的，主要看开发人员对于工具的熟练程度。

Informatica有四个开发管理组件，开发的时候我们需要打开其中三个进行开发，Informatica没有ctrl+z的功能，如果对job作了改变之后，想要撤销，返回到改变前是不可能的。相比Kettle跟Datastage在测试调试的时候不太方便。Datastage全部的操作在同一个界面中，不用切换界面，能够看到数据的来源，整个job的情况，在找bug的时候会比Informatica方便。

Kettle介于两者之间。

2、部署

Kettle只需要JVM环境，Informatica需要服务器和客户端安装，而Datastage的部署比较耗费时间，有一点难度。

3、数据处理的速度

大数据量下Informatica与Datastage的处理速度是比较快的，比较稳定。Kettle的处理速度相比之下稍慢。

4、服务

Informatica与Datastage有很好的商业化的技术支持，而Kettle则没有。商业软件的售后服务上会比免费的开源软件好很多。

5、风险

风险与成本成反比，也与技术能力成正比。

6、扩展

Kettle的扩展性无疑是最好，因为是开源代码，可以自己开发拓展它的功能，而Informatica和Datastage由于是商业软件，基本上没有。

7、Job的监控

三者都有监控和日志工具。

在数据的监控上，个人觉得Datastage的实时监控做的更加好，可以直观看到数据抽取的情况，运行到哪一个控件上。这对于调优来说，我们可以更快的定位到处理速度太慢的控件并进行处理，而informatica也有相应的功能，但是并不直观，需要通过两个界面的对比才可以定位到处理速度缓慢的控件。有时候还需要通过一些方法去查找。

8、网上的技术文档

Datastage < Informatica < kettle,相对来说，Datastage跟Informatica在遇到问题去网上找到解决方法的概率比较低，kettle则比较多。

五、项目经验分享
在项目中，很多时候我们都需要同步生产库的表到数据仓库中。一百多张表同步、重复的操作，对开发人员来说是细心和耐心的考验。在这种情况下，开发人员最喜欢的工具无疑是kettle，多个表的同步都可以用同一个程序运行，不必每一张表的同步都建一个程序，而informatica虽然有提供工具去批量设计，但还是需要生成多个程序进行一一配置，而datastage在这方面就显得比较笨拙。

在做增量表的时候，每次运行后都需要把将最新的一条数据操作时间存到数据库中，下次运行我们就取大于这个时间的数据。Kettle有控件可以直接读取数据库中的这个时间置为变量；对于没有类似功能控件的informatica，我们的做法是先读取的数据库中的这个时间存到文件，然后主程序运行的时候指定这个文件为参数文件，也可以得到同样的效果

使用过哪些数据抽取转换工具

与使用过哪些数据抽取转换工具相关的内容