在开始写爬虫之前,我们先来总结一下用HttpURLConnection写爬虫的操作步骤:
1.实例化一个URL,调用URL类的openConnection()方法获得URLConnection对象,并强转为HttpURLConnection对象
1 | URL url = new URL("http://host/path"); |
2.设置连接的请求属性,诸如,setRequestProperty、setConnectionTimeout、setReadTimeout等
3.调用connect()方法连接远程资源
1 | connection.connect(); |
4.访问资源数据。使用getInputStream方法获取一个输入流用以读取信息。如果服务器端出现错误,调用getErrorStream()方法获取错误信息。
1 | try{ |
5.调用disconnect()关闭连接
1 | connection.disconnect(); |
6.解析需要的数据。