博主信息
博文 4
粉丝 0
评论 0
访问量 2900
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
2018-1-16
随笔肆
原创
681人浏览过

        今天玩了一下火车头采集,对xpath进行了浅层的了解。第一次知道google浏览器可以直接copy xpath ......

        关于同一个ip不能对一个网站采集很多次,以为有什么方法知道自己的网站被采集了,但好像就是在访问页面时获取ip。目前做的网站没有对来访者的ip进行获取,以后可以加上。

        目前试过前后截取、正则提取、xpath提取,但有的内容无法采集还不知道原因。正文提取和json提取目前没有试过。

        另外,在今天的尝试中如果采集的页面做的分页是常规分页,能够采集到所有分页。但采集页面做的分页是滚动分页目前只能采集到第一页的数据。


以下为获取来访者浏览器信息,来自

http://www.jb51.net/article/50464.htm

http://blog.csdn.net/qq_16559905/article/details/51746330

对获取信息数量进行了删减,其中获取pc信息的函数报错,不知道怎么解决,所以都删了。

关于ip获取,以前都是用网上找的php函数,并不知道用哪种更好,什么情况下用什么最合适。

<!DOCTYPE html>
<html>
    <head>
        <meta charset="UTF-8" />
        <title>浏览器信息</title>
    </head>
    <body>
        <div id="elInfo">
        </div>
    </body>
<script type="text/javascript" src="http://pv.sohu.com/cityjson?ie=utf-8"></script>
<script>
    window.onload = allinfo;
    function allinfo() {
        var ip=returnCitySN.cip;
        var appName = navigator.appName; //浏览器的正式名称
        var appVersion = navigator.appVersion; //浏览器的版本号
        var cpuClass = navigator.cpuClass; //返回用户计算机的cpu的型号,通常intel芯片返回"x86"(火狐没有)
        var mimeType = navigator.mimeTypes; // 浏览器支持的所有MIME类型的数组
        var platform = navigator.platform; // 浏览器正在运行的操作系统平台,包括Win16(windows3.x)  
        var userLanguage = navigator.userLanguage; // 用户在自己的操作系统上设置的语言(火狐没有)
        var userAgent = navigator.userAgent; //包含以下属性中所有或一部分的字符串:appCodeName,appName,appVersion,language,platform
        var systemLanguage = navigator.systemLanguage; // 用户操作系统支持的默认语言(火狐没有)
        var info = "<table border=1>";
        var type = "";
        type=myBrowser();
        info += "<tr><td>ip:</td><td>" + ip + "</td></tr>";
        info += "<tr><td>浏览器类型:</td><td>" + type + "</td></tr>";
        info += "<tr><td>浏览器属性信息:</td><td>" + userAgent + "</td></tr>";
        info += "<tr><td>浏览器的正式名称:</td><td>" + appName + "</td></tr>";
        info += "<tr><td>浏览器的版本号:</td><td>" + appVersion + "</td></tr>";
        info += "<tr><td>cpu等级:</td><td>" + cpuClass + "</td></tr>";
        info += "<tr><td>浏览器的MIME类型:</td><td>" + mimeType.length + "</td></tr>";
        info += "<tr><td>系统平台:</td><td>" + platform + "</td></tr>";
        info += "<tr><td>插件的名称:</td><td>" + getPluginName() + "</td></tr>";
        info += "<tr><td>屏幕分辨率高度:</td><td>" + window.screen.height + "</td></tr>";
        info += "<tr><td>屏幕分辨率宽度:</td><td>" + window.screen.width + "</td></tr>";
        info += "<tr><td>颜色质量:</td><td>" + window.screen.colorDepth + "位</td></tr>";
        info += "<tr><td>像素:</td><td>" + window.screen.deviceXDPI + "像素/英寸</td></tr>";
        info += "</table>";
        document.getElementById("elInfo").innerHTML = info;
        return info;
    }
    //获取插件所有的名称
    function getPluginName() {
        var info = "";
        var plugins = navigator.plugins;
        if (plugins.length > 0) {
            for (i = 0; i < navigator.plugins.length; i++) {
                info += navigator.plugins[i].name + ";";
            }
        }
        return info;
    }
    //浏览器类型
    function myBrowser(){
        var userAgent = navigator.userAgent; //取得浏览器的userAgent字符串
        var isOpera = userAgent.indexOf("Opera") > -1; //判断是否Opera浏览器
        var isIE = userAgent.indexOf("compatible") > -1 && userAgent.indexOf("MSIE") > -1 && !isOpera; //判断是否IE浏览器
        var isFF = userAgent.indexOf("Firefox") > -1; //判断是否Firefox浏览器
        var isSafari = userAgent.indexOf("Safari") > -1; //判断是否Safari浏览器
        var isChrome = userAgent.indexOf("Chrome") > -1; //判断是否Chrome浏览器
        if (isIE) {
            var IE5 = IE55 = IE6 = IE7 = IE8 = false;
            var reIE = new RegExp("MSIE (\\d+\\.\\d+);");
            reIE.test(userAgent);
            var fIEVersion = parseFloat(RegExp["$1"]);
            IE55 = fIEVersion == 5.5;
            IE6 = fIEVersion == 6.0;
            IE7 = fIEVersion == 7.0;
            IE8 = fIEVersion == 8.0;
            if (IE55) { return "IE55"; }
            if (IE6) { return "IE6"; }
            if (IE7) { return "IE7";}
            if (IE8) { return "IE8";}
        }
        if (isFF) {return "FF";}
        if (isOpera) {return "Opera";}
        if (isChrome) {return "Chrome";}
        if (isSafari) { return "Safari"; }
    }
</script>
</html>



本博文版权归博主所有,转载请注明地址!如有侵权、违法,请联系admin@php.cn举报处理!
全部评论 文明上网理性发言,请遵守新闻评论服务协议
0条评论
作者最新博文
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

  • 登录PHP中文网,和优秀的人一起学习!
    全站2000+教程免费学