asp采集解压gzip压缩网站数据
asp如何采集使用gzip压缩过的网页数据。
由于winrar的命令行工具不支持zip格式的文件,所以我选择了7z的命令行工具7za.exe,在百度搜索下就可以找到。
在使用下面的代码前把cmd.exe(windows文件夹下有)和7za.exe拷贝到asp程序目录,时间关系,并没有写更多的容错以及返回值问题
function unZip(file){ //在线解压zip函数 //by fisker (http://ifisker.com lionkay@gmail.com) var objFso=Server.CreateObject("scripting.FileSystemObject"); var objWshShell=Server.CreateObject("Wscript.Shell"); var zipFile=Server.MapPath(file); if(!objFso.FileExists(zipFile)) return false; var runcmd=Server.MapPath("cmd.exe")+" /c "+Server.MapPath("7za.exe")+" x "+zipFile+" -y -o"+Server.MapPath("./"); var RetCode = objWshShell.Run(runcmd,1,true); if(RetCode!=0)return false; delete objWshShell; delete objFso; } //关于gzip压缩页面的问题 //思路:用ServerXMLHTTP组件下载页面,保存爲*.zip文件,解压文件,读取文件 //代码(JScript格式) function getGzipPage(url){ //Gzip格式页面采集程序 //by fisker (http://ifisker.com lionkay@gmail.com) var fileStream; var xmlHttp = Server.CreateObject("MSXML2.ServerXMLHTTP"); xmlHttp.open("GET",url,false); xmlHttp.send(null); fileStream=xmlHttp.responseBody; delete xmlHttp; var objStream = Server.CreateObject("ADOD"+"B.Stream"); objStream.Type = 1; objStream.Open(); objStream.write(fileStream); objStream.SaveToFile(Server.MapPath("tmp.html.zip"),2); objStream.Flush(); objStream.Close(); delete objStream; unZip("tmp.html.zip"); var str=ReadFile("tmp.html");//ReadFile,deleteFile就是简单的文本读取和文件删除函数,未附代码 deleteFile("tmp.html.zip"); deleteFile("tmp.html"); return str; }
作者:fisker(王朝网路 wangchao.net.cn)
来源:http://tc.wangchao.net.cn/it/detail_53265.html
加支付宝好友偷能量挖...