import java.io.BufferedReader;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.io.PrintWriter;
import java.net.URL;
import java.net.URLConnection;
public class buffered {
public static void main(String[] args) {
try {
URL url = new URL("http://www.doc88.com/p-86115937394.html");
URLConnection conn = url.openConnection();
conn.setDoOutput(true);
InputStream in = null;
in = url.openStream();
String content = pipe(in,"utf-8");
System.out.println(content);
} catch (Exception e) {
e.printStackTrace();
} }
static String pipe(InputStream in,String charset) throws IOException {
StringBuffer s = new StringBuffer();
if(charset==null||"".equals(charset)){
charset="utf-8";
}
String rLine = null;
BufferedReader bReader = new BufferedReader(new InputStreamReader(in,charset));
PrintWriter pw = null;
FileOutputStream fo = new FileOutputStream("../../index.html");
OutputStreamWriter writer = new OutputStreamWriter(fo, "utf-8");
pw = new PrintWriter(writer);
while ( (rLine = bReader.readLine()) != null) {
String tmp_rLine = rLine;
int str_len = tmp_rLine.length();
if (str_len > 0) {
s.append(tmp_rLine);
pw.println(tmp_rLine);
pw.flush();
}
tmp_rLine = null;
}
in.close();
pw.close();
return s.toString();
}
}
分享到:
相关推荐
Java抓取https网页数据,解决peer not authenticated异常。导入eclipse就能运行,带有所用的jar包(commons-httpclient-3.1.jar,commons-logging.jar,httpclient-4.2.5.jar,httpcore-4.2.4.jar)
java抓取页面 需要验证码才能登陆的网站 抓取登陆后的页面 绝对可用,可以直接运行试下。。。
不是完整的程序,只是两页 抓取与采集页面内容 喜欢的拿去研究下 代码量不大,注释没加,不过都不太难。
这个程序利用java抓取网页内容,然后生成生成静态页面
通过java抓取任何指定网页的数据,里面介绍了java如何实现抓取技术,抓取指定的网页数据并解析
java抓取网页的爬虫
windows系统上的http和https抓包工具, fiddler是http https监控... 如果要监控java程序,需要添加如下代码: System.setProperty("http.proxyHost", "127.0.0.1"); System.setProperty("http.proxyPort", "8888");
学习使用webmagic 进行静态页面抓取,springboot + webmagic demo项目,进行学习使用 。java 使用webmagic爬取网页数据
java 获取页面信息,两种方法,Java获取URL信息
包含jar包commons-logging,httpclient-4.1.2.jar,httpcore-4.2.1.jar main类文件,文档,源码
import java.io.DataInputStream; import java.io.IOException; import java.net.MalformedURLException; import java.net.URL; public class UrlHtml { @SuppressWarnings("deprecation") public ...
用来抓取网页上的 图片的超链接 你也可以适当修改 用来抓取其他连接
Java 网络爬虫实现网络抓取图片数据、流式布局、响应式布局、懒加载、动态切换加载技术
用于,带有验证码的登陆页面的登陆解析。亲测可用,无需jar包。
java爬虫抓取网页数据教程(20210809124656).pdf
使用java的html解析器实现自动重复抓取任意网站页面.pdf
java http方式读取网页信息,并写入本地文件,Test运行即可使用。
抓取苹果,华为,小米,荣耀,vivo oppo全国售后地信息
使用java+jsoup进行网页数据的抓取,提取自己想要的数据
网页抓取的简单demo,可以运行的一个项目,适合对网页抓取感兴趣的初学者,介绍了如何抓取到网页的页面