Ajax WebSpider网络爬虫

  传统意义上的网络爬虫是不解析JavaScript生成的内容的,所以JavaScript+ajax生成的内容对于传统的搜索引擎很不友好,不利于SEO。

  本例子使用WebBrowser控件来加载页面,并解析页面内容导入的JavaScript文件生成的页面内容,获取body的innerHTML,这样就不用害怕网络爬虫抓取不到ajax或者JavaScript动态生成的内容。

  最近看到的一片文章说Google爬虫即将同时解析JavaScript或者ajax生成的内容,不知道是否真实。详细参考下面的文章。
Google蜘蛛运行网页中JS和CSS样式
分类:Asp.net 下载地址
阅读(508)喜欢(1)7.58KBC# 点击下载