軟件特色
(1)本軟件采用北大天網(wǎng)MD5指紋排重算法,對于相似相同的網(wǎng)頁信息,不再重復保存。
(2)采集信息含義:[[HT]]表示網(wǎng)頁標題,[[HA]]表示文章標題,[[HC]]表示10個權重關鍵字,[[UR]]表示網(wǎng)頁中的圖片鏈接,[[TXT]]之后為正文。
(3)蜘蛛性能:本軟件開啟300個線程來保證采集效率。通過采集100萬精華文章來執(zhí)行壓力測試,以普通網(wǎng)民的聯(lián)網(wǎng)計算機為參考標準,單臺計算機可以在一天內(nèi)遍歷200萬網(wǎng)頁、采集20萬精華文章,100萬精華文章僅需5天就可采集完畢。
(4) 正式版與免費版的區(qū)別在于:正式版允許將采集的精華文章數(shù)據(jù)自動保存為ACCESS數(shù)據(jù)庫。購買正式版請聯(lián)系QQ(970093569)。
操作方法
(1)使用前,必須確保你的計算機可以連通網(wǎng)絡,且防火墻不要攔截本軟件。
(2)運行SETUP.EXE和setup2.exe,以安裝操作系統(tǒng)system32支持庫。
(3)運行spider.exe,輸入網(wǎng)址入口,先點"人工添加"按鈕,再點"啟動"按鈕,將開始執(zhí)行采集。
注意事項
(1)抓取深度:填寫0表示不限制抓取深度;填寫3表示抓到第3層。
(2)通用蜘蛛模式與分類蜘蛛模式的區(qū)別:假定網(wǎng)址入口為“http://youxi.baidu.com/”,若選擇通用蜘蛛模式,將遍歷“baidu.com”里面的每一個網(wǎng)頁;若選擇分類蜘蛛模式,則只遍歷“youxi.baidu.com”里面的每一個網(wǎng)頁。
(3) 按鈕“從MDB導入”:網(wǎng)址入口從TASK.MDB中批量導入。
(4)本軟件采集的原則是不越站,例如給的入口是“http://youxi.baidu.com/”,就只在百度站點內(nèi)部抓取。
(5)本軟件采集過程中,偶爾會彈出一個或數(shù)個“錯誤對話框”,請不予理會,倘若關閉“錯誤對話框”,采集軟件就會掛掉。
(6)使用者如何選擇采集題材:例如你若想采集 “股票類”文章,只需把那些“股票類”站點作為網(wǎng)址入口即可。
您的評論需要經(jīng)過審核才能顯示
有用
有用
有用