`
robertliudeqiang
  • 浏览: 121864 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

HTTPClient模拟登陆人人网

    博客分类:
  • web
阅读更多
目的:
使用HTTPClient4.0.1登录到人人网,并从特定的网页抓取数据。


总结&注意事项:

  • HttpClient(DefaultHttpClient)代表了一个会话,在同一个会话中,HttpClient对cookie自动进行管理(当然,也可以在程序中进行控制)。
  • 在同一个会话中,当使用post或是get发起一个新的请求时,一般需要对调用前一个会话的abort()方法,否则会抛出异常。
  • 有些网站登录成功后会重定向(302, 303),比如这里的人人网。如果发出的是post请求,需要从响应头中取出location,并再次向网站发送请求,以获取最终数据。
  • 抓取程序不要运行地过于频繁,大部分站点都有抵制刷网站机制。人人网访问过于频繁会锁账号。
  • 使用录制工具录制出登录时向网站发出的请求参数。在这里,我使用了badboy,导出成jmeter文件,在jmeter中就可以看到登录时向网站发送的参数列表和相应的值。
  • 人人网属于登陆流程比较简单的网站,后一篇会介绍一家比较难搞的网站。

代码:
public class RenRen {
    // The configuration items
    private static String userName = "YourMailinRenren";
    private static String password = "YourPassword";
    private static String redirectURL = "http://blog.renren.com/blog/304317577/449470467";

    // Don't change the following URL
    private static String renRenLoginURL = "http://www.renren.com/PLogin.do";

    // The HttpClient is used in one session
    private HttpResponse response;
    private DefaultHttpClient httpclient = new DefaultHttpClient();

    private boolean login() {
        HttpPost httpost = new HttpPost(renRenLoginURL);
        // All the parameters post to the web site
        List<NameValuePair> nvps = new ArrayList<NameValuePair>();
        nvps.add(new BasicNameValuePair("origURL", redirectURL));
        nvps.add(new BasicNameValuePair("domain", "renren.com"));
        nvps.add(new BasicNameValuePair("isplogin", "true"));
        nvps.add(new BasicNameValuePair("formName", ""));
        nvps.add(new BasicNameValuePair("method", ""));
        nvps.add(new BasicNameValuePair("submit", "登录"));
        nvps.add(new BasicNameValuePair("email", userName));
        nvps.add(new BasicNameValuePair("password", password));
        try {
            httpost.setEntity(new UrlEncodedFormEntity(nvps, HTTP.UTF_8));
            response = httpclient.execute(httpost);
        } catch (Exception e) {
            e.printStackTrace();
            return false;
        } finally {
            httpost.abort();
        }
        return true;
    }

    private String getRedirectLocation() {
        Header locationHeader = response.getFirstHeader("Location");
        if (locationHeader == null) {
            return null;
        }
        return locationHeader.getValue();
    }

    private String getText(String redirectLocation) {
        HttpGet httpget = new HttpGet(redirectLocation);
        // Create a response handler
        ResponseHandler<String> responseHandler = new BasicResponseHandler();
        String responseBody = "";
        try {
            responseBody = httpclient.execute(httpget, responseHandler);
        } catch (Exception e) {
            e.printStackTrace();
            responseBody = null;
        } finally {
            httpget.abort();
            httpclient.getConnectionManager().shutdown();
        }
        return responseBody;
    }

    public void printText() {
        if (login()) {
            String redirectLocation = getRedirectLocation();
            if (redirectLocation != null) {
                System.out.println(getText(redirectLocation));
            }
        }
    }

    public static void main(String[] args) {
        RenRen renRen = new RenRen();
        renRen.printText();
    }
}
分享到:
评论
65 楼 cfczdws 2015-05-06  
不得不再回次。。
64 楼 cfczdws 2015-05-06  
非常感谢,终于成功了,也算小有入门了。。
63 楼 2272006 2014-10-14  
请问楼主,  是用什么组件能实现“在jmeter中就可以看到登录时向网站发送的参数列表和相应的值。”?
62 楼 lt26w 2014-07-21  
为啥我复制粘贴楼主的代码用了4.0.1还是报一堆的错误?求解


晕死,原来还要导入5个包
61 楼 lt26w 2014-07-21  
为啥我复制粘贴楼主的代码用了4.0.1还是报一堆的错误?求解
60 楼 fancyzc 2012-08-22  
楼主你好,非常感谢你的发帖。不过我在引用的时候eclipse提示HttpResponse不存在需要重新创建,我入门较浅,楼主能帮忙解决一下么。
谢谢
59 楼 greatwqs 2011-09-29  
•HttpClient(DefaultHttpClient)代表了一个会话,在同一个会话中,HttpClient对cookie自动进行管理(当然,也可以在程序中进行控制)。

前面的HttpClient为一个登陆的,后面HttpClient保存了登陆的信息.
如果我要在代码52行当中重新定义一个,例如
DefaultHttpClient httpclient2 = new DefaultHttpClient();
用httpclient2 去执行httpget 得到登陆之后的HTML等信息.
这个时候httpclient2 应该设置些什么东西呢? 管理cookie什么的解决?
由于原来是两次new不同的httpclient. 不是一个httpclient.
谢谢!

    
58 楼 2110901055 2011-02-23  
56楼的,抓到现在QQ邮箱的联系人会不?
57 楼 iminto 2011-02-12  
php的curl比这个好用100倍
56 楼 iminto 2011-02-12  
抓取QQ邮箱联系人 这个是最难的。
55 楼 Alvizel 2011-02-12  
登陆进入谁不会啊 -。-

关键是发些分享啊什么的
54 楼 to_zoe_yang 2011-01-24  
感谢楼主啊~
呵呵~
自己尝试得到全部好友和通讯录
没有问题~
谢谢啦~
关注楼主
53 楼 yang02301 2010-12-05  
jordan_micle 写道
能用httpclient登录QQ或QQ空间吗。。。



已经搞定“httpclient登录QQ”自动登陆。
52 楼 yang02301 2010-12-05  
robertliudeqiang 写道
ithero 写道
比较感兴趣的是把人人网的大中学校抓取下来。


HTTPClient是自动管理cookie的,你登陆后,再到含有学校的页面get这些页面,分析一下就可以得到学校列表了。不过不要抓的太频繁,人人会锁账号 


这里有已经抓到的中国大学数据,

还有大学所带的院系。

51 楼 KimShen 2010-10-13  
HttpClient4我有专门整理过,配合HttpParse或者HttpUnit效果比较好,
一般的登陆URLConnection更方便.
资料地址:
http://kimshen.iteye.com/admin/blogs/783480
50 楼 dominic6988 2010-10-13  
<p>看着楼主的全家福感觉你们好幸福,祝福你们</p>
49 楼 philexm 2010-10-13  
怎么解决抓取回来的页面信息中文乱码问题。
48 楼 鸟哥哥 2010-07-08  
想当年拿httpclient恶意注册人民网邮箱,注爆了,也注册bigfoot,gmail等等。用httpclient问题是一旦html代码或者关键参数有变,这程序就得改。
可以拿它去点点广告,暴力尝试密码啊等,有些行,有些不行。
有些web不行,wap行。
47 楼 jordan_micle 2010-07-08  
能用httpclient登录QQ或QQ空间吗。。。
46 楼 link_biao 2010-07-08  
大哥,你这文章帮我大忙 了。

相关推荐

Global site tag (gtag.js) - Google Analytics