中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

利用HtmlUnit 模擬瀏覽器抓取網(wǎng)頁數(shù)據(jù)

2018-07-20    來源:open-open

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用
最近寫爬蟲的時(shí)候,利用httpclient抓取一些網(wǎng)頁出現(xiàn)一些問題,就是抓取回來的內(nèi)容都含有大量的加密文本(通過javascript腳本),無法 獲得真實(shí)的內(nèi)容(也就是用瀏覽器打開網(wǎng)頁呈現(xiàn)的內(nèi)容)。所以,一般需要配合js引擎來解決這個(gè)問題,搜索了下,發(fā)現(xiàn)htmlunit這個(gè)工具就可以幫忙。 了解和使用過程中,發(fā)現(xiàn)這是一個(gè)非常牛逼的開源工具,雖然名氣比httpclient小,但是實(shí)力絕對(duì)不容小覷。 閑話少說。 可以從這里下載:http://sourceforge.net/projects /htmlunit/files/htmlunit/2.15/
String  url="http://outofmemory.cn/";//想采集的網(wǎng)址
            String refer="http://open-open.com/";
            URL link=new URL(url); 
            WebClient wc=new WebClient();
            WebRequest request=new WebRequest(link); 
            request.setCharset("UTF-8");
            request.setProxyHost("120.120.120.x");
            request.setProxyPort(8080);
            request.setAdditionalHeader("Referer", refer);//設(shè)置請求報(bào)文頭里的refer字段
            ////設(shè)置請求報(bào)文頭里的User-Agent字段
            request.setAdditionalHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");
            //wc.addRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");
            //wc.addRequestHeader和request.setAdditionalHeader功能應(yīng)該是一樣的。選擇一個(gè)即可。
            //其他報(bào)文頭字段可以根據(jù)需要添加
            wc.getCookieManager().setCookiesEnabled(true);//開啟cookie管理
            wc.getOptions().setJavaScriptEnabled(true);//開啟js解析。對(duì)于變態(tài)網(wǎng)頁,這個(gè)是必須的
            wc.getOptions().setCssEnabled(true);//開啟css解析。對(duì)于變態(tài)網(wǎng)頁,這個(gè)是必須的。
            wc.getOptions().setThrowExceptionOnFailingStatusCode(false);
            wc.getOptions().setThrowExceptionOnScriptError(false);
            wc.getOptions().setTimeout(10000);
            //設(shè)置cookie。如果你有cookie,可以在這里設(shè)置
            Set<Cookie> cookies=null;
            Iterator<Cookie> i = cookies.iterator();
            while (i.hasNext()) 
            {
                wc.getCookieManager().addCookie(i.next());
            }
            //準(zhǔn)備工作已經(jīng)做好了
            HtmlPage page=null;
            page = wc.getPage(request);
            if(page==null)
            {
                System.out.println("采集 "+url+" 失敗!!!");
                return ;
            }
            String content=page.asText();//網(wǎng)頁內(nèi)容保存在content里
            if(content==null)
            {
                System.out.println("采集 "+url+" 失敗!!!");
                return ;
            }
            //搞定了
            CookieManager CM = wc.getCookieManager(); //WC = Your WebClient's name
            Set<Cookie> cookies_ret = CM.getCookies();//返回的Cookie在這里,下次請求的時(shí)候可能可以用上啦。

標(biāo)簽: 腳本 搜索

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:Android的Volley網(wǎng)絡(luò)Get/Post請求包實(shí)例代碼

下一篇:PHP文件上傳示例