java 抓取页面 - xustar's blog - ITeye博客

`

xustar

浏览: 139746 次
性别:
来自: 成都

最近访客更多访客>>

plumcrane

dzcdhj

mt25367117

程序员的道路才刚刚开始

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

java 抓取页面

博客分类：

java 基础
jsp + HTML + CSS

阅读更多

import java.io.BufferedReader;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.io.PrintWriter;
import java.net.URL;
import java.net.URLConnection;
public class buffered {

public static void main(String[] args) {
  try {
   URL url = new URL("http://www.doc88.com/p-86115937394.html");
   URLConnection conn = url.openConnection();
   conn.setDoOutput(true);
   InputStream in = null;
   in = url.openStream();
   String content = pipe(in,"utf-8");
   System.out.println(content);
   } catch (Exception e) {
    e.printStackTrace();
    } }
static String pipe(InputStream in,String charset) throws IOException {
  StringBuffer s = new StringBuffer();
  if(charset==null||"".equals(charset)){
   charset="utf-8";
   }
  String rLine = null;
  BufferedReader bReader = new BufferedReader(new InputStreamReader(in,charset));
  PrintWriter pw = null;
  FileOutputStream fo = new FileOutputStream("../../index.html");
  OutputStreamWriter writer = new OutputStreamWriter(fo, "utf-8");
  pw = new PrintWriter(writer);
  while ( (rLine = bReader.readLine()) != null) {
   String tmp_rLine = rLine;
   int str_len = tmp_rLine.length();
   if (str_len > 0) {
    s.append(tmp_rLine);
    pw.println(tmp_rLine);
    pw.flush();
    }
   tmp_rLine = null;
   }
  in.close();
  pw.close();
  return s.toString();
  }
}

分享到：

(转)java中四种XML解析技术 | 转 JSTL标签使用

2011-12-21 11:29
浏览 1024
评论(0)
分类:Web前端
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Java抓取https网页数据: Java抓取https网页数据，解决peer not authenticated异常。导入eclipse就能运行，带有所用的jar包（commons-httpclient-3.1.jar，commons-logging.jar，httpclient-4.2.5.jar，httpcore-4.2.4.jar）

java抓取需要验证码登陆后的页面: java抓取页面需要验证码才能登陆的网站抓取登陆后的页面绝对可用，可以直接运行试下。。。

java抓取与采集页面内容喜欢的拿去研究下: 不是完整的程序，只是两页抓取与采集页面内容喜欢的拿去研究下代码量不大，注释没加，不过都不太难。

java抓取网页内容--生成静态页面: 这个程序利用java抓取网页内容，然后生成生成静态页面

java抓取任何指定网页的数据: 通过java抓取任何指定网页的数据，里面介绍了java如何实现抓取技术，抓取指定的网页数据并解析

java抓取网页的爬虫: java抓取网页的爬虫

java代码中抓取http和https: windows系统上的http和https抓包工具， fiddler是http https监控... 如果要监控java程序，需要添加如下代码： System.setProperty("http.proxyHost", "127.0.0.1"); System.setProperty("http.proxyPort", "8888");

java爬虫webmagic抓取静态页面demo: 学习使用webmagic 进行静态页面抓取，springboot + webmagic demo项目，进行学习使用。java 使用webmagic爬取网页数据

java 获取页面信息: java 获取页面信息，两种方法,Java获取URL信息

java网页抓取demo: 包含jar包commons-logging，httpclient-4.1.2.jar，httpcore-4.2.1.jar main类文件，文档，源码

java网络编程抓取指定网页信息--UrlHtml(java源码): import java.io.DataInputStream; import java.io.IOException; import java.net.MalformedURLException; import java.net.URL; public class UrlHtml { @SuppressWarnings("deprecation") public ...

Java抓取网页图片链接地址: 用来抓取网页上的图片的超链接你也可以适当修改用来抓取其他连接

java实现响应式布局爬虫技术: Java 网络爬虫实现网络抓取图片数据、流式布局、响应式布局、懒加载、动态切换加载技术

java抓取带验证码登陆后的页面: 用于，带有验证码的登陆页面的登陆解析。亲测可用，无需jar包。

java爬虫抓取网页数据教程(20210809124656).pdf: java爬虫抓取网页数据教程(20210809124656).pdf

使用java的html解析器实现自动重复抓取任意网站页面.pdf: 使用java的html解析器实现自动重复抓取任意网站页面.pdf

java http方式抓取网页信息 JAVAＩＯ: java http方式读取网页信息，并写入本地文件，Test运行即可使用。

java爬虫，调用接口抓取各个省份的地址表，调用自动化操作封装页面获取数据: 抓取苹果，华为，小米，荣耀，vivo oppo全国售后地信息

java+jsoup抓取网页数据: 使用java+jsoup进行网页数据的抓取，提取自己想要的数据

网页抓取DEMO-可以运行的一个java项目: 网页抓取的简单demo，可以运行的一个项目,适合对网页抓取感兴趣的初学者,介绍了如何抓取到网页的页面

Global site tag (gtag.js) - Google Analytics