etl開源工具有哪些_ETL 開發工具哪個好

㈠ ETL 開發工具哪個好

開源的Pentaho 還不錯，我用的就是這個

㈡請問大家，現在國內有沒有比較好的ETL工具(開源的除外) 最好文檔齊全、上手較易的!

可以看下taskctl調度產品

1) ETL領域專業的調度產品，通用的調度工具
2) 首次提出調度開發概念，並且推出集成的開發環境
3) 首創無資料庫的調度管理平台
4) 多機部署，單機部署等多種部署方案
5) 少量任務，大量任務，海量任務便捷管理
6) 軟體整體簡單易用，設計精密，人性化，體驗佳

http://wenku..com/view/0c3767e8f8c75fbfc77db234.html

㈢有沒有好的ETL工具，大家推薦一下吧

我感覺Informatica用著挺好的，很大公司都用這個IBM的，我們公司就是用這個

㈣開源ETL工具與商業ETL工具對比

幾種ETL工具的比較(DataPipeline，Kettle，Talend，Informatica等)

四種工具的比較主要從以下幾方面進行比對：

1、成本：

軟體成本包括多方面,主要包括軟體產品,售前培訓,售後咨詢,技術支持等。

開源產品本身是免費的，成本主要是培訓和咨詢，所以成本會一直維持在一個較低水平。

商業產品本身價格很高，但是一般會提供幾次免費的咨詢或支持，所以採用商用軟體最初成本很高，但是逐漸下降。

手工編碼最初成本不高，主要是人力成本，但後期維護的工作量會越來越大。

2、易用性：

DataPipeline：有非常容易使用的GUI，具有豐富的可視化監控；

Kettle：GUI+Coding；

Informatica：GUI+Coding，有GUI，但是要專門的訓練；

Talend：GUI+Coding，有GUI圖形界面但是以Eclipse的插件方式提供；

3、技能要求：

DataPipeline：操作簡單，無技術要求；

Kettle：ETL設計,SQL,數據建模；

Informatica：ETL設計,SQL,數據建模；

Talend：需要寫Java；

4、底層架構：

DataPipeline：分布式，可水平擴展；

Kettle：主從結構非高可用；

Informatica：分布式；

Talend：分布式；

5、數據實時性：

DataPipeline：支持異構數據源的實時同步，速度非常快；

Kettle：不支持實時數據同步；

Informatica：支持實時，效率較低；

Talend：支持實時處理，需要購買高級版本，價格貴；

6、技術支持：

DataPipeline：本地化原廠技術支持；

Kettle：無；

Informatica：主要在美國；

Talend：主要在美國；

7、自動斷點續傳：

DataPipeline：支持；

Kettle：不支持；

Informatica：不支持；

Talend：不支持；

㈤ ETL工具有哪些

開源的代表是kettle，性能比較強大，關鍵是免費
國外的主流產品有informatica、talend
國內有haohedi（這個工具部署在雲端，在他們的公司官網可以實操體驗）

㈥開源etl工具比較，kettle和talend，都有什麼優勢和劣勢

目前kettle功能太弱小,還是等3.0出來再用吧, talend不錯,支持的數據種類很多. 商用的都有很好的data mapping/transform界面,job分布式伺服器和監控工具等等具體的性能差別我不太清楚.很少做對速度要求很高的項目.

㈦ ETL哪個開源軟體好

1 隨資料庫環境的不同可能會使用不同的工具，不過這一點並沒有限制，大多工具都支持不同的數據環境。有時可以是幾種工具並用，主輔結合；
oracle下可選odi，GoldenGate；sqldeveloper亦可作為載入數據的工具；
oracle warehouse則使用owb；
ibm下可選vw(visual warehouse)；

mysql下可選kettle，GoldenGate；
mssql下則使用獨門的dts；

2 學習的話，可先熟悉kettle，GoldenGate。

㈧大數據etl工具有哪些

ETL是數據倉庫中的非常重要的一環，是承前啟後的必要的一步。ETL負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成，最後載入到數據倉庫或數據集市中，成為聯機分析處理、數據挖掘的基礎。

下面給大家介紹一下什麼是ETL以及ETL常用的三種工具——Datastage，Informatica，Kettle。

一、什麼是ETL？
ETL，Extract-Transform-Load 的縮寫，用來描述將數據從來源端經過抽取（extract）、轉換（transform）、載入（load）至目的端的過程。

數據倉庫結構
通俗的說法就是從數據源抽取數據出來，進行清洗加工轉換，然後載入到定義好的數據倉庫模型中去。目的是將企業中的分散、零亂、標准不統一的數據整合到一起，為企業的決策提供分析依據。

ETL是BI項目重要的一個環節，其設計的好壞影響生成數據的質量，直接關繫到BI項目的成敗。

二、為什麼要用ETL工具？
在數據處理的時候，我們有時會遇到這些問題：

▶ 當數據來自不同的物理主機，這時候如使用SQL語句去處理的話，就顯得比較吃力且開銷也更大。

▶ 數據來源可以是各種不同的資料庫或者文件，這時候需要先把他們整理成統一的格式後才可以進行數據的處理，這一過程用代碼實現顯然有些麻煩。

▶ 在資料庫中我們當然可以使用存儲過程去處理數據，但是處理海量數據的時候存儲過程顯然比較吃力，而且會佔用較多資料庫的資源，這可能會導致數據資源不足，進而影響資料庫的性能。

而上述遇到的問題，我們用ETL工具就可以解決。ETL工具具有以下幾點優勢：

1、支持多種異構數據源的連接。（部分）

2、圖形化的界面操作十分方便。

3、處理海量數據速度快、流程更清晰等。

三、ETL工具介紹
1、Datastage

IBM公司的商業軟體，最專業的ETL工具，但同時價格不菲，適合大規模的ETL應用。

使用難度：★★★★

2、Informatica

商業軟體，相當專業的ETL工具。價格上比Datastage便宜一點，也適合大規模的ETL應用。

使用難度：★★

3、Kettle

免費，最著名的開源產品，是用純java編寫的ETL工具，只需要JVM環境即可部署，可跨平台，擴展性好。

使用難度：★★

四、三種ETL工具的對比
Datastage、Informatica、Kettle三個ETL工具的特點和差異介紹：

1、操作

這三種ETL工具都是屬於比較簡單易用的，主要看開發人員對於工具的熟練程度。

Informatica有四個開發管理組件，開發的時候我們需要打開其中三個進行開發，Informatica沒有ctrl+z的功能，如果對job作了改變之後，想要撤銷，返回到改變前是不可能的。相比Kettle跟Datastage在測試調試的時候不太方便。Datastage全部的操作在同一個界面中，不用切換界面，能夠看到數據的來源，整個job的情況，在找bug的時候會比Informatica方便。

Kettle介於兩者之間。

2、部署

Kettle只需要JVM環境，Informatica需要伺服器和客戶端安裝，而Datastage的部署比較耗費時間，有一點難度。

3、數據處理的速度

大數據量下Informatica與Datastage的處理速度是比較快的，比較穩定。Kettle的處理速度相比之下稍慢。

4、服務

Informatica與Datastage有很好的商業化的技術支持，而Kettle則沒有。商業軟體的售後服務上會比免費的開源軟體好很多。

5、風險

風險與成本成反比，也與技術能力成正比。

6、擴展

Kettle的擴展性無疑是最好，因為是開源代碼，可以自己開發拓展它的功能，而Informatica和Datastage由於是商業軟體，基本上沒有。

7、Job的監控

三者都有監控和日誌工具。

在數據的監控上，個人覺得Datastage的實時監控做的更加好，可以直觀看到數據抽取的情況，運行到哪一個控制項上。這對於調優來說，我們可以更快的定位到處理速度太慢的控制項並進行處理，而informatica也有相應的功能，但是並不直觀，需要通過兩個界面的對比才可以定位到處理速度緩慢的控制項。有時候還需要通過一些方法去查找。

8、網上的技術文檔

Datastage < Informatica < kettle,相對來說，Datastage跟Informatica在遇到問題去網上找到解決方法的概率比較低，kettle則比較多。

五、項目經驗分享
在項目中，很多時候我們都需要同步生產庫的表到數據倉庫中。一百多張表同步、重復的操作，對開發人員來說是細心和耐心的考驗。在這種情況下，開發人員最喜歡的工具無疑是kettle，多個表的同步都可以用同一個程序運行，不必每一張表的同步都建一個程序，而informatica雖然有提供工具去批量設計，但還是需要生成多個程序進行一一配置，而datastage在這方面就顯得比較笨拙。

在做增量表的時候，每次運行後都需要把將最新的一條數據操作時間存到資料庫中，下次運行我們就取大於這個時間的數據。Kettle有控制項可以直接讀取資料庫中的這個時間置為變數；對於沒有類似功能控制項的informatica，我們的做法是先讀取的資料庫中的這個時間存到文件，然後主程序運行的時候指定這個文件為參數文件，也可以得到同樣的效果

㈨開源ETL工具比較，Kettle和Talend，都有什麼優勢和劣勢

目前kettle功能太弱小,還是等3.0出來再用吧, talend不錯,支持的數據種類很多.。商用的都有很好的data mapping/transform界面，job分布式伺服器和監控工具等等，具體的性能差別我不太清楚，很少做對速度要求很高的項目。

拓展：

1、ETL，是英文 Extract-Transform-Load 的縮寫，用來描述將數據從來源端經過抽取(extract)、轉換(transform)、載入(load)至目的端的過程。ETL一詞較常用在數據倉庫，但其對象並不限於數據倉庫。ETL是構建數據倉庫的重要一環，用戶從數據源抽取出所需的數據，經過數據清洗,最終按照預先定義好的數據倉庫模型，將數據載入到數據倉庫中去。

2、信息是現代企業的重要資源，是企業運用科學管理、決策分析的基礎。目前，大多數企業花費大量的資金和時間來構建聯機事務處理OLTP的業務系統和辦公自動化系統，用來記錄事務處理的各種相關數據。據統計，數據量每2~3年時間就會成倍增長，這些數據蘊含著巨大的商業價值，而企業所關注的通常只佔在總數據量的2%~4%左右。

etl開源工具有哪些