當前位置:首頁 » 工具五金 » 專業抓八爪魚工具哪裡有
擴展閱讀
資源如何產生 2024-11-03 00:26:09
車輛出險後怎麼算成本 2024-11-03 00:25:59
方便麵成本怎麼算 2024-11-03 00:20:40

專業抓八爪魚工具哪裡有

發布時間: 2022-02-05 21:00:45

1. 八爪魚採集器可以下載網站整站的源碼和資料庫嗎

下載你沒有許可權登錄的網站源碼和資料庫,除非滲透入侵進去才能做到。互聯網上流傳的合法工具。沒有任何一個工具可以做到,包括八爪魚。

不過可以使用整站下載工具,可以把HTML代碼和樣式圖片下載下來。作為離線瀏覽和樣式學習還是有工具的。如:iis7整站下載

2. 廈門哪裡可以抓八爪魚

你要自己去抓?那隻能出海啊,要買新鮮的可以去翔安劉五店村,那裡是離海最近的一個村

3. 廣東在哪裡可以抓到八爪魚

廣東在海邊一般都能夠抓到八爪魚,一定要在落潮的時間去抓

4. 八爪魚採集器該怎麼用

八爪魚採集器使用方法:

1、打開八爪魚採集器的客戶端,登陸軟體之後新建一個任務,打開你要採集的網站地址。這里我自己示範的原創設計手稿的採集。

2、進入到設計工作流程環節,在界面瀏覽器那輸入你要採集的網址,點擊打開,你就能看到你要採集的網站界面,由於這個網址存在多頁內容需要採集,我們再設置採集規則的時候,可以先建立翻頁循環,先把滑鼠選擇頁面上的【下一頁】按鈕,在彈出的任務對話框,選擇高級選項中的【循環點擊下一頁】,軟體會自動建立一個翻頁循環。

3、建好翻頁循環好,就是採集當前頁上的內容,我要採集圖片的URL,就選中一個圖片,然後單擊,軟體會自動彈出對話框,先建立一個元素循環列表。當前頁面的所有元素都被抓取後,循環列表則建立完成。

4、設置要抓取的內容,選擇元素循環列表中的任意一個元素,在瀏覽器內找到該元素對應的圖片,點擊後彈出對話框,選擇【抓取這個元素的圖片地址】為欄位1,同時我為了方便識別,還抓取了欄位2為圖片標題名稱,設置原理同圖片地址。

5、檢查一下,翻頁循環框應該將產品循環框嵌套在內,表示,先抓取完當前一整頁的圖片URL後再翻頁。

6、設置執行計劃後,就可以開始採集了,單擊採集的話,直接點擊【完成】步驟下的【檢查任務】,開始運行任務。採集完畢後可以直接下載成EXCEL的文件。

7、將URL轉換為圖片,這里用八爪魚圖片轉換工具,將EXCEL導入之後,就可以自動等待系統將圖片下載下來了!

5. 用什麼網具能捕獲大量的章魚

我想捉一下大量的大章魚它是個軟體動物生活在海洋海底,一般製作大籠子很大的製作麻煩呢,想抓讓你們瞧瞧看看吧!准備用大籠子裡面有小魚小蝦的大章魚上當了,而且上鉤了。

6. 目前方便好用的抓取數據的工具有哪些

工具推薦你用免費的八爪魚採集器,這種表格你需要實時抓取的話也可以,需要設置採集周期為實時採集,八爪魚採集器最快支持1分鍾採集一次的。採集表格也不難,點擊你需要採集的列,設置循環採集所有行就可以。

7. 八爪魚怎麼抓

章魚的身體卻非常柔軟,柔軟到幾乎可以將自己塞到任何想去的地方。它最喜歡做的事情就是藏在海螺或牡蠣等動物的貝殼里,一旦進去就不輕易離開。漁民們利用章魚喜歡鑽空貝殼的這種習性,把一個個海螺殼鑽上孔,用繩子串在一起沉入海底,章魚見到了海螺殼,都爭先恐後地往裡鑽,結果就輕而易舉地被捕了,龐大的章魚就這樣成為人們餐桌上鮮嫩可口的美味。 漁民們就根據章魚喜歡鑽入貝殼的習慣 常常在貝殼上鑽個洞,用繩串在一起沉到海底,待章魚鑽進去安 了家,再往上拉起來,這樣便可以不費多大力氣捕到一些章魚了。

8. 八爪魚採集器對於你而言有哪些特別實用性的應用

八爪魚主要是用於採集網頁上的信息化工具,之前做自媒體的時候,用過一段時間,不過後期可能由於同行對他的打擊比較大,也可能用的太多了,導致很多舊聞重復,所以現在不太用它了,現在是結合很多自媒體工具,一起使用!

9. 八爪魚數據採集器的內置功能有哪些

八爪魚數據採集器的內置功能比較多,一時半會難以說完,只能根據你 的實際使用需求來,能滿足你的需求就夠了,其他的功能對於你來說就都是多餘的,但是你慢慢研究你會發現他有多強大,簡直無所不能!處處給你驚喜。
下面我簡單說一下:

1入門詞彙介紹
1.1.1 積分

分是用來支付八爪魚增值服務的一種方式,主要的用途包括:通過八爪魚採集器採集並導出數據,在規則市場下載規則,在數據市場下載數據包,不同的賬號類型在
使用上述增值服務時會有不同的收費策略,具體的收費策略和區別在下面版本說明裡面有詳細的解釋。積分可以通過八爪魚官方購買專業版或者旗艦版每月贈送,也
可以單獨購買積分,還可以通過關注,簽到,分享規則,關注微信,綁定社交賬號等多種方式獲得。
1.1.2規則
規則是八爪魚用來配置程序按照人工操作流程記錄的一條程序規則,當軟體配置好的則的時候,則可以按照您所配置的規則進行數據的採集,代替人工步驟。
1.1.3雲加速
八爪魚系統是通過分布式集群部署的方式,每個集群由數量龐大的雲節點組成,單個節點的採集能力相當於一台PC機的採集能力,通過八爪魚後台的版本資源分配策略,分配到多少個雲節點資源就享有幾倍的加速,版本高的賬戶有更高的加加速倍數。
1.1.4雲優先
如果是多用戶共享一個雲集群的資源,一個集群的規模大小是有上限的,如果同一時間提交雲集群任務過多,造成資源擁堵,那麼根據用戶賬號版本的不同,八爪魚系統會進行默認排序,版本高的,優先順序高,將有優先獲得資源分配的權益。暫時未分配到資源的任務將進行排隊輪候。
1.1.5URL
URL指正常網站的網址。
1.1.6單機採集
單機採集是指不佔用雲集群的資源,只能通過八爪魚客戶端所在的PC進行工作,在工作期間,需要電腦和軟體都處於運行狀態,電源中斷或者網路中斷都會導致數據採集任務的中斷
1.1.7雲採集

採集是指通過使用八爪魚提供的伺服器集群進行工作,該集群是7*24小時的工作狀態,在客戶端將任務設置完成並提交到雲服務執行進行雲採集之後,可以關閉
軟體,關閉電腦進行離線採集,真正的實現無人值守。除此之外雲採集通過雲伺服器集群的分布式部署方式,多節點同時進行作業,可以提高採集效率,並且可以高
效的避開各種網站的IP封鎖策略。
1.1.8定時採集
定時採集指的是用戶在設定好八爪魚的採集規則時,定時的啟動 採集程序。
1.1.9URL循環
URL循環是指設定八爪魚在制定的URL網址裡面循環採集。
1.1.10自動導出
自動導出是指用戶在設定好導出.
1.1.11Cookie
1)
Cookie誕生

當某個用戶打開瀏覽器發出頁面請求時,web伺服器只是進行簡單相應,然後就關閉與該用戶的連接。所以當用戶每發起一個打開網頁請求到web伺服器的時
候,無論是否是第一次打開同一個網頁,web伺服器都會把這個請求當作第一次來對待,那這樣的缺陷可想而知,比如每次打開登錄頁面的時候都需要輸入用戶
名、密碼。為了彌補這個缺陷,Cookie應運而生。

2) Cookie概述

Cookie就是伺服器暫時存放在你計算機上的一筆資料,好讓伺服器來辨認你的計算機。當你在瀏覽網站的時候,web伺服器會先送出小小資料放在你的計算
機上,cookie會幫你在網站上所打的文字(如用戶名、密碼)和其他一些操作都記錄下來。當下次你再打開同一個網站。web伺服器會先看看有沒有它上次
留下的cookie資料,有的話就會依據cookie的內容來判斷使用者,送出特定的網頁內容給你。

3) Cookie工作原理
1.1.12XPATH
XPATH:是一種路徑查詢語言,簡單的說就是利用一個路徑表達式找到我們需要的數據位置。
XPATH專用於XML中沿著路徑查找數據用的,但是八爪魚採集器內部有一套針對HTML的XPATH引擎,使得直接用XPATH就能精準的查找定位網頁裡面的數據。
1.1.13HTML
1)
HTML概念

HTML:超文本標記語言,是用來描述網頁的一種語言。主要用於控制數據的顯示和外觀。HTML文檔也被稱為網頁。

2) HTML結構

完整的HTML文件至少包括<HTML>標簽、<HEAD>標簽、<TITLE>標簽和<BODY>標
簽,並且這些標簽都是成對出現的,開頭標簽為<>,結束標簽為</>,在這兩個標簽之間添加內容。通過這些標簽中的相關屬性可以
設置頁面的背景色、背景圖像等。
2八爪魚基本流程教程
2.1 打開網頁
該步驟根據設定的網址打開網頁,一般為網頁採集流程的第一個步驟,用來打開指定的網站或者網頁。如果有多個類似的網址需要分別打開執行同樣的採集流程,則應該放置在循環的內部,並作為第一個子步驟。
1) 網頁地址
網址,一般可以從網頁瀏覽器如IE等的地址欄中復製得到,如:http://www.skieer.com
2) 使用當前循環項
配合循環驟來使用,用以重復打開多個類似的網頁,然後執行同樣的一套流程,循環打開網頁時,應為作為循環步驟的第一個子步驟。 如果勾選此項,則無需手動設置網頁地址,網頁地址會自動顯示循環設定的網址列表的當前循環項。
3) 阻止彈出窗口
用以屏蔽網頁彈窗廣告,如果打開的網頁偶爾會變成另外一個廣告頁面,則可以使用本選項阻止廣告頁面彈出。
4) 超時
在網頁載入完成前等待的最大時間,如果網頁打開緩慢,或者長時間無法打開,則流程最多等待超時指定的時間,之後無論網頁是否載入完成,都直接執行下一步驟,應盡量避免設置過長的超時時間,因為這會影響採集速度。
5) 滾動到底部
個別網頁在打開網頁後並沒有顯示所有數據,需要滾動滑鼠滾輪或者拖動頁面滾動條到底部,才會載入沒有顯示的數據,使用此選項在頁面載入完成後滾動到底部
6) 激活重試
如果網頁沒有按照成功打開預期頁面,例如顯示伺服器錯誤(500),訪問頻率太快等,或者跳轉到其他正常執行不應該出現的頁面,可以使用本選項進行重試,但必須配合以下幾個重試參數執行,請注意以下幾種判斷的情況任意一種出現都會導致重試。
7) 結果頁面網址包含
如果出現的頁面網址中總是出現某個特殊的字元串,例如網頁找不到時一般會出現500.htm等,則使用此選項可以判斷沒有打開預期頁面,需要重試
8) 結果頁面文本包含
如果出現的頁面文字中中總是出現某個特殊的字元串,例如"訪問頻率太快",則使用此選項可以判斷沒有打開預期頁面,需要重試
9) 結果頁面文本不包含
如果正常打開網頁一定會出現某個特殊的字元串,但沒有正常打開的時候一定不會出現該字元串,則可以據此判斷判斷沒有打開預期頁面,需要重試
10) 最大重試次數
為了避免無限制重復嘗試,請示用本選項限制最大重復嘗試的次數,如果重試到達最大允許的次數,任然沒有成功,則流程將停止重試,繼續執行下一步驟
11) 重試間隔
在兩次重試之間等待的時間,一般情況下,當打開網頁出錯時,立即重試很有可能是同樣的錯誤,適當等待則可能成功打開預期網頁,但應該盡量避免設置過長的等待時間,因為這會影響採集速度
2.2點擊元素
該步驟對網頁上指定的元素執行滑鼠左鍵單擊動作,比如點擊按鈕,點擊超鏈接等。
1) 使用當前循環項

合循環步驟來使用,用以重復點擊循環中設置的多個元素,適用於循環單個固定元素,循環固定元素列表,循環可變元素列表。
如果勾選此項,則無需設置點擊的元素,要點擊的元素會自動顯示循環設定的當前循環項,使用該選項時,應當作為循環步驟的子步驟,但不必是第一個子元素。
2) 新標簽頁中打開

果點擊元素時希望在新的標簽頁中打開,而不是在當前頁打開,請勾選此選項。
一般情況下,在需要循環打開一個頁面上的多個超鏈接時,需要勾選此選項以便保留列表頁面,以便點擊列表頁上的下一個超鏈接;但是如果是循環點擊下一頁時,
則不要勾選此選項,以在當前頁面打開下一頁。
3) 滾動到底部
個別網頁在載入完成後並沒有顯示所有數據,需要滾動滑鼠滾輪或者拖動頁面滾動條到底部,才會載入沒有顯示的數據,使用此選項在頁面載入完成後滾動到底部
4) 非同步載入數據
非同步載入也叫Ajax,是一種無需重新載入網頁就能刷新局部數據的技術,因此流程不能檢測到網頁載入完成,就不能決定何時該執行下一個步驟, 使用此選項,流程會在等待設定的超時時間後默認數據已經載入完成,從而繼續執行後續流程步驟。本選項需要配合非同步載入超時使用.
5) 非同步載入超時
等待非同步載入完成的時間,在點擊元素之後,流程會開始計時,超時時間到達後,執行下一個流程步驟。本選項需要配合非同步載入使用,通常使用本選項時,不能勾選「新標簽頁中打開」
6) 激活重試
如果網頁沒有按照成功打開預期頁面,例如顯示伺服器錯誤(500),訪問頻率太快等,或者跳轉到其他正常執行不應該出現的頁面,可以使用本選項進行重試,但必須配合以下幾個重試參數執行,請注意以下幾種判斷的情況任意一種出現都會導致重試。
7) 結果頁面網址包含
如果出現的頁面網址中總是出現某個特殊的字元串,例如網頁找不到時一般會出現500.htm等,則使用此選項可以判斷沒有打開預期頁面,需要重試
8) 結果頁面文本包含
如果出現的頁面文字中中總是出現某個特殊的字元串,例如"訪問頻率太快",則使用此選項可以判斷沒有打開預期頁面,需要重試
9) 結果頁面文本不包含
如果正常打開網頁一定會出現某個特殊的字元串,但沒有正常打開的時候一定不會出現該字元串,則可以據此判斷判斷沒有打開預期頁面,需要重試
10) 最大重試次數
為了避免無限制重復嘗試,請示用本選項限制最大重復嘗試的次數,如果重試到達最大允許的次數,任然沒有成功,則流程將停止重試,繼續執行下一步驟
11) 重試間隔
在兩次重試之間等待的時間,一般情況下,當打開網頁出錯時,立即重試很有可能是同樣的錯誤,適當等待則可能成功打開預期網頁,但應該盡量避免設置過長的等待時間,因為這會影響採集速度
2.3輸入文本
本步驟在輸入框中輸入指定的文本,例如輸入搜索關鍵詞,輸入賬號等。
將設定的文本輸入到網頁的某個輸入框中,如使用搜索引擎時輸入關鍵字。
2.4提取數據
本步驟根據提取數據模板的配置,從網頁中提取數據,同時還可配置為提取網址,網頁標題,或者生成一些數據如當前時間等。
1) 抓取模板
本步驟根據提取數據模板的配置,從網頁中提取數據,同時還可配置為提取網址,網頁標題,或者生成一些數據如當前時間等。
2) 名字
給抓取的數據欄位取個別名,如新聞標題,新聞正文
3) 提取到的數據
從網頁上提取到的數據,將會在本列顯示所抓取到的示例
4) 描述
對本數據欄位的一些描述信息
5) 使用當前循環項

合循環步驟來使用,用以重復的從循環中設置的多個元素中提取數據,適用於循環單個固定元素,循環固定元素列表,循環可變元素列表。
如果勾選此項,會從循環所設置的元素中根據抓取規則提取出示例數據,使用該選項時,提取數據步驟應當作為循環步驟的子步驟,但不必是第一個子元素。
2.5循環
1) 本步驟用來重復執行一系列步驟,根據配置不同,支持多種模式。
循環固定單個元素,例如循環點擊每一頁中的下一頁按鈕;
2) 循環固定列表,例如循環處理一個頁面中指定的多個元素;
3) 循環可變列表,當需要循環處理多個頁面,但是每個頁面上要處理的元素數量不固定時使用;
4) 循環網址列表,主要用來循環打開一批指定網址的網頁,然後執行同樣的處理步驟。
1) 循環注意事項
1) 元素在IFRAME里
如果循環中設置的元素在IFRAME里,請勾選此項,並在後面的IFAMEXPah中填寫IFRAME的XPATH
2) IFAMEXPah
元素所在IFRAME的路徑,只有當勾選'元素在IFRAME里'時這個設置才會生效。
3) 固定的一個元素
循環的對一個元素進行特定操作,如循環點擊下頁,下翻下拉列等,當翻到最後一頁或下拉列表已到最後一項時,會自動結束當前循環。
4) 固定的元素列表
逐個的對列表中的元素進行特定操作,如循環點擊、從中提取數據、將滑鼠懸停在元素上,當所有元素循環完畢時,會自動結束當前循環。
5) 動態元素列表
當元素列表不是固定的,可指定一個動態路徑(多個元素都符合此路徑,即可以根據此路徑定位到多個元素),系統會根據指定路徑先找到一個元素列表,然後執行跟『固定的元素列表』一樣的操作。
6) URL列表
配合打開網頁操作作用,指定一個URL列表,確保循環裡面的打開網頁操作的使用當前循環項標識已勾選,以逐個的打開URL列表中的連接。
7) 循環執行次數等於
在執行到指定次數時退出循環
2.6翻下拉列表

步驟用於切換下拉列表
1) 從option順序/到option順序
默認為空,代表從下拉列表第一個順序切換,直到最後一個,但有時需要跳過第一個選項,從第二個或者中間某個位置開始切換下拉列表,
使用這兩個選項可以控制切換的起始和結束順序,例如,假設下拉選項有5個,需要從第2個順序切換到第4個,則「從option順序」設置為2,「到
option順序」設置為4。
2) 跳過值/到值
默認為空,表示按照設定,順序切換下拉列表,但如果切換中需要跳過某個下拉項,則使用此設置,可以控制跳過的范圍,
例如,假設下拉列表有5個選項,值分別是10、11、12、13、14,如果需要跳過12,則設置「跳過值」為12,如果需要跳過12、13,則設置「跳
過值」為12,「到值」設置為「13」。
3) 使用當前循環項
配合循環步驟來使用,用以重復的循環中的指定的下拉列表切換到下一個選項。
4) 非同步載入數據
非同步載入也叫Ajax,是一種無需重新載入網頁就能刷新局部數據的技術,因此流程不能檢測到網頁載入完成,就不能決定何時該執行下一個步驟,
使用此選項,流程會在等待設定的超時時間後默認數據已經載入完成,從而繼續執行後續流程步驟。本選項需要配合非同步載入超時使用
5) 非同步載入超時
等待非同步載入完成的時間,在點擊元素之後,流程會開始計時,超時時間到達後,執行下一個流程步驟。本選項需要配合非同步載入使用。
6) 激活重試
如果網頁沒有按照成功打開預期頁面,例如顯示伺服器錯誤(500),訪問頻率太快等,或者跳轉到其他正常執行不應該出現的頁面,可以使用本選項進行重試,
但必須配合以下幾個重試參數執行,請注意以下幾種判斷的情況任意一種出現都會導致重試。
7) 結果頁面網址包含
如果出現的頁面網址中總是出現某個特殊的字元串,例如網頁找不到時一般會出現500.htm等,則使用此選項可以判斷沒有打開預期頁面,需要重試
8) 結果頁面文本包含
如果出現的頁面文字中中總是出現某個特殊的字元串,例如"訪問頻率太快",則使用此選項可以判斷沒有打開預期頁面,需要重試
9) 結果頁面文本不包含
如果正常打開網頁一定會出現某個特殊的字元串,但沒有正常打開的時候一定不會出現該字元串,則可以據此判斷判斷沒有打開預期頁面,需要重試
10) 最大重試次數
為了避免無限制重復嘗試,請示用本選項限制最大重復嘗試的次數,如果重試到達最大允許的次數,任然沒有成功,則流程將停止重試,繼續執行下一步驟
11) 重試間隔
在兩次重試之間等待的時間,一般情況下,當打開網頁出錯時,立即重試很有可能是同樣的錯誤,適當等待則可能成功打開預期網頁,但應該盡量避免設置過長的等
待時間,因為這會影響採集速度
2.7條件分支
本步驟會從左到右選擇第一個符合條件的分支,並執行該分支
1) 總是
不設置任何判定條件,該分支總是符合執行條件
2) 當頁面中包含文本
當頁面中包含指定文本是,該分支符合執行條件
3) 當頁面中包含元素
當頁面中包含指定元素時,該分支符合執行條件,配合元素XPATH使用
4) 元素XPATH
判定條件元素的XPATH路徑
5) 在IFRAME里
如果判定條件元素在IFRAME里,請勾選此項,並在後面的IFAMEXPah中填寫IFRAME的XPATH
6) IFAMEXPah
元素所在IFRAME的路徑,只有當勾選'元素在IFRAME里'時這個設置才會生效。
2.8滑鼠懸停
本步驟用於將滑鼠懸停在指定元素上。
1) 使用當前循環項
配合循環步驟來使用,用以重復的將將滑鼠懸停循環中指定的元素上,然後執行下面的流程。
2) Ajax載入數據
Ajax
也叫非同步載入,是一種無需重新載入網頁就能刷新局部數據的技術,因此流程不能檢測到網頁載入完成,就不能決定何時該執行下一個步驟。
很多網頁會在滑鼠懸停在某些元素上時非同步加一些數據,並在頁面上顯示。使用此選項,流程會在等待設定的超時時間後默認數據已經載入完成,從而繼續執行後續
流程步驟。本選 項需要配合非同步載入超時使用
3) 非同步載入超時
等待非同步載入完成的時間,在點擊元素之後,流程會開始計時,超時時間到達後,執行下一個流程步驟。本選項需要配合非同步載入使用。
2.9如何下載採集規則

了避免配置採集規則的重復工作,八爪魚採集器內置了規則市場,由用戶分享配置好的採集規則,互幫互助。
使用規則市場下載規則的好處顯而易見,可以不用花費時間研究和配置採集流程。很多網站的採集規則都可以在規則市場中搜索到,下載運行即可採集。
下載規則需要使用八爪魚採集器,具體操作步驟:打開八爪魚採集器->採集規則->規則市場。
3.0 如何使用規則
1)
使用從規則市場下載的規則
一般從規則市場下載的規則是.otd為後綴的規則文件,4.*以後的版本中會自動導入下載的規則文件。以前的版本中需要手動導入下載的規則文件。
手動導入方式:八爪魚規則文件(.OTD)直接雙擊即可打開導入向導,或者打開八爪魚採集器, 快速開始 ->
導入規則,然後按照向導提示導入規則。 但有時候會下載到.zip為後綴的壓縮文件,壓縮文件解壓後包含多個.otd規則文件,需要先解壓,然後導入。
2) 使用接收到的規則
使用郵件或者其他即時通訊軟體接受到的規則,可以參考上一節說明,手動導入。