芭奇軟件站群技術交流反饋

 找回密碼
 注冊賬號
搜索
查看: 6628|回復: 0
打印 上一主題 下一主題

[站群軟件] 芭奇站群指定域名采集文字教程,舉例說明

[復制鏈接]
跳轉到指定樓層
1#
芭奇站群指定域名采集文字教程

右健網站節點,進入“指定域名采集”窗口,點中左上角一個欄目,然后,右邊填寫網址,如下教程:
首先,在你要采的頁面,找出下面的網址,記在記事本上。

-----------------------------------------

要采的主列表地址:http://lvyou.elong.com/bbs/guilin/all/

列表翻頁地址:(隨便兩個)
http://lvyou.elong.com/bbs/guilin/all/list-00-2.html
http://lvyou.elong.com/bbs/guilin/all/list-00-3.html

要采的文章內容地址:(隨便兩個)
http://lvyou.elong.com/bbs/guilin/tour/a1hfi138.html
http://lvyou.elong.com/bbs/guilin/tour/a1h0hkcf.html


------------------------------------------

然后,對應軟件上的三個表單:

第一個"起始采集的文章列表的網址"肯定是填寫主列表啦,也就是http://lvyou.elong.com/bbs/guilin/all/

第二個“其它列表地址都含有的字符”,也就是翻頁的相同字符有什么,看上面剛才你記下的,除了網址相同不要填,其他相同的字符就有:list-00-和.html,那么就是合在一起,以|分開,就是list-00-|.html

第三個“每個文章地址都含有的字符”,也就是內容網址的相同字符是什么,看上面,除了網址相同不要填,其他相同的字符只有:a1h和.html,也就是說,這里填上a1h|.html

最后如圖所示




這樣基本就可以采集了,但這個網址,在實際采集中,會出現有部份文章是重復的,因為是他的網址不同
例如:http://lvyou.elong.com/bbs/guilin/tour/a1hfiiva.html
http://lvyou.elong.com/bbs/guilin/tour/a1hfiiva.html?only=4447695
這兩個文章,內容是一樣的,但是網址不同,軟件不能判斷為相同文章,于是,可以在軟件參數上,加上
排除,就是在“單頁文章”--“文章地址”--“每個文章地址都不含有字符”上,填“?only”,這樣就
不會再有重復的網址。
如圖:




其他的參數,就按你自己的要求來填了。。。

本帖子中包含更多資源

您需要 登錄 才可以下載或查看,沒有帳號?注冊賬號

x

芭奇軟件

GMT+8, 2019-5-23 02:20

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回復 返回頂部 返回列表
棋牌送3元现金下载_50可提现支付宝的棋牌_真人赢钱提现金的游戏