最近我们实验室和一个公司合作,他家的产品一个功能模块就是反爬虫,测试网址入口为这里:http://119.254.209.77/ 。 该网页左侧的URL采用JS动态生成,我们团队花了好一段时间才把加密的JS给解密了。我采用Python+Selenium+Firefox进行抓取返回的页面为空,它左侧的URL都被保护了,并且能识别使用selenium驱动的爬虫。我想问问这个技术该怎么应对?因为昨晚我看到携程一个研发经理也分享了一些反爬虫的经验,其中有一条就是针对Phantomjs等自动化工具的,但他说暂时不公开技术细节。有没有大神可以给我一点启发啊,透露一下原理?感激不尽。
闭关修行中......