芭奇軟件站群技術交流反饋

 找回密碼
 注冊賬號
搜索
查看: 4671|回復: 0
打印 上一主題 下一主題

如何快速采集Admin5站長網的原創文章

[復制鏈接]
跳轉到指定樓層
1#

  很多站長朋友都喜歡采集一些比較好的文章,比如Admin5站長網就是其中一個,A5作為國內大型站長網之一,里面每天都在大量的質量較好的原創文章發布,因此文章資源可以說是源源不斷。但是對于采集工具,互聯網上各式各樣,編寫規則采集的占多數,這個對于大部份站長來說,可能這是一道很大的門檻,很難跨過去,因為大部份站長不會編寫采集規則,這樣就導致許多的好的資源眼睜睜著放棄,或者有部份站長手工去復制粘貼或付費讓人編寫采集規則,效率和資金投入可謂是傷力又傷財呀。現在我這里就教大家如果利用芭奇站群軟件來指定目標網站采集,這個是一個不用寫規則,還支持自動采集,自動跟蹤等功能,不管是新站長還是老站長,都是很容易入門,方便省力。現在圖片教程如下:

  一、打開芭奇軟件,在網站節點右健菜單,打開【指定域名采集文章】功能。(網站節點和欄目自己增加一下,首次需要先打開一次【數據管理】窗口,生成一下欄目數據庫,以用于保存采集的文章。)

  二、進入后,點擊左上角一個欄目,作為保存點,然后在右邊填寫采集的目標網址。

在這里,我先教一下大家一些"如何填寫字符"的基本知識。看下圖

1、是你想采哪個站的列表網址,就是叫目標采集地址,這個一般是列表,因為列表才是這個欄目所有內容鏈接的地方。

2、翻頁鏈接地址,就是第1頁,第2頁等等的鏈接,注意上方紅色和藍色的字符,在芭奇站群軟件上,就是需要填寫這些紅色字符。對比兩個網址,相同不會變化的,就是紅色的字符。藍色字符的1和2,這個是欄目的頁數ID,在這個分類地址,就會變化,就不填,一般以|為替換,|字符,在這里主分隔符,就是代表分開兩個字符,前面是list_后面是.shtml。遵循一句話:取相同且唯一的字符。在這個1的列表頁源碼里面,browse/117/list_就是代表翻頁,沒有其他鏈接跟這個格式一樣了。所以,軟件就會識別了這個是翻頁地址。

3、內容鏈接地址,就是采集的文章地址,也是和上面原理一樣,注意紅色和藍色的字符,紅色字符就是需要填上軟件的,藍色字符會變化的,就以|代替就好。

  三、上面的知識了解明白了,那就把A5的網址和字符填在軟件上,結果如下:

  1、紅色的框框,就是需要采集填寫的字符。按下面這樣填寫好了,就可以采集了。

  http://www.admin5.com/browse/177/
  browse/|/list_|.shtml
  article/|.shtml

  2、這里也順便說說上圖藍色框框的作用,這個是為了以后自動采集,自動同步追蹤采集最新網站數據要用到的網址,一般只填第1頁到第4頁就行了,因為目標網站更新的文章,都是在這前幾頁。軟件掛機就可以實現自動追蹤采集了。

  四、現在可以采集測試一下是否正常。在上圖左下角,點【采集測試】按扭,結果如下圖

上圖,這個是采集測試翻頁地址,沒出現其他非翻頁的地址鏈接,說明采集正常。如果其他網址,就可以再設置排除。

上圖,這個是測試采集當前第一頁的所有內容網址,沒其他非內容網址鏈接,說明采集正常。如果其他網址,就可以再設置排除。

上圖,這個是隨意測試一篇文章地址,如能出現標題和內容,說明采集正常。如果出現其他文字,可以設置排除或指定范圍采集。

上圖,這個是設置排除和過濾的地方

  五、上面看著文字圖片很多,其實采集A5的列表文章,就只需要設置這三行字符就行了,根本不需要太多復制的采集規則。

  http://www.admin5.com/browse/177/
  browse/|/list_|.shtml
  article/|.shtml

其他的【訪談】、【運營】、【教程】等等,其他也就是177的欄目ID換一個,下面兩行的字符,也是一樣的。這樣就可以將A5的整站欄目文章都可以采集回來了。如果想采集固定的條數,可以在【補充設置】【單頁文章】設置最多采多少篇。如上圖。

現在我點采集看看效果。看中間的爬行記錄,軟件是像蜘蛛一樣一頁一頁采集的。

最后,可以在網站節點,右健進入【數據管理】,查看你采集回來的文章。然后發布到你的網站上去或導入TXT文本做其他用途。

好了,采集的教程就是這樣,有不懂的可以咨詢我們客服QQ:509229860。也可以加入QQ群交流:45858269

芭奇軟件

GMT+8, 2019-5-23 02:30

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回復 返回頂部 返回列表
棋牌送3元现金下载_50可提现支付宝的棋牌_真人赢钱提现金的游戏