for(var i = 435112;i<435212;i++){
var tempurl = starturl + i;
var content = new Crawler(tempurl).getResponse("utf-8");
if(content != null){
var file = new RAMFile(tempurl,content);
StreamWriter.Save("result/" + i + ".html",file,"utf-8",true);
}
}
其中Crawler是抓取類,StreamWriter是用來保存文件的,RAMFile是內(nèi)存中文件的組織結(jié)構(gòu)。這些都是自己定義的java類。
我包裝了一個JCrawler.jar,讀取當前目錄下的js文件以確定需要執(zhí)行的腳本。這些腳本可能被存放在不同的目錄。讀取到這個目錄列表,然后執(zhí)行目錄列表中每個javascript的邏輯。
演示抓取程序:
執(zhí)行其中的bat文件就可以執(zhí)行抓取,默認把抓取到的文件保存在result目錄下。
寫javascript的時候要注意腳本文件的注釋最好不要使用單行只是“//”,而是要“/* */”。運行環(huán)境需要jre6.0。