網(wǎng)友評分:
5分
搜貓軟件是款功能強大的網(wǎng)絡(luò)蜘蛛工具。用戶可以通過這款軟件快速抓取網(wǎng)站上的所有網(wǎng)頁地址,將網(wǎng)頁下載并寫到本地文件夾,或者寫進數(shù)據(jù)庫中。同時,它還可以幫助用戶分析網(wǎng)頁數(shù)據(jù),非常好用。
基于目標(biāo)網(wǎng)頁特征的爬蟲所抓取、存儲并索引的對象一般為網(wǎng)站或網(wǎng)頁。根據(jù)種子樣本獲取方式可分為:
(1)預(yù)先給定的初始抓取種子樣本;
(2)預(yù)先給定的網(wǎng)頁分類目錄和與分類目錄對應(yīng)的種子樣本,如Yahoo!分類結(jié)構(gòu)等;
(3)通過用戶行為確定的抓取目標(biāo)樣例,分為:(a)用戶瀏覽過程中顯示標(biāo)注的抓取樣本;(b)通過用戶日志挖掘得到訪問模式及相關(guān)樣本。
其中,網(wǎng)頁特征可以是網(wǎng)頁的內(nèi)容特征,也可以是網(wǎng)頁的鏈接結(jié)構(gòu)特征,等等。
基于目標(biāo)數(shù)據(jù)模式:基于目標(biāo)數(shù)據(jù)模式的爬蟲針對的是網(wǎng)頁上的數(shù)據(jù),所抓取的數(shù)據(jù)一般要符合一定的模式,或者可以轉(zhuǎn)化或映射為目標(biāo)數(shù)據(jù)模式。
基于領(lǐng)域概念:另一種描述方式是建立目標(biāo)領(lǐng)域的本體或詞典,用于從語義角度分析不同特征在某一主題中的重要程度。
抓取目標(biāo)的描述和定義是決定網(wǎng)頁分析算法與URL搜索策略如何制訂的基礎(chǔ)。而網(wǎng)頁分析算法和候選URL排序算法是決定搜索引擎所提供的服務(wù)形式和爬蟲網(wǎng)頁抓取行為的關(guān)鍵所在。這兩個部分的算法又是緊密相關(guān)的。
標(biāo)簽: 搜貓 網(wǎng)頁搜索
關(guān)于本站|下載幫助|下載聲明|軟件發(fā)布|聯(lián)系我們
Copyright ? 2005-2025 m.virtualinsta360.com.All rights reserved.
浙ICP備2024132706號-1 浙公網(wǎng)安備33038102330474號