博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
从一段文字中提取出uri信息
阅读量:6125 次
发布时间:2019-06-21

本文共 2144 字,大约阅读时间需要 7 分钟。

package handle.groupby;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.FileNotFoundException;import java.io.FileReader;import java.io.FileWriter;import java.io.IOException;import java.io.Reader;import java.io.Writer;import java.util.regex.Matcher;import java.util.regex.Pattern;import org.mockito.asm.tree.IntInsnNode;public class GetUrlFromString {    @SuppressWarnings("resource")    public static void main(String[] args) throws IOException {        String line="";        Pattern pattern = Pattern.compile("([\\w.]{1}[\\w\\/.\\s]*[\\w]{1})",Pattern.CASE_INSENSITIVE);                BufferedReader r= new BufferedReader(new FileReader(args[0]));        BufferedWriter w=new BufferedWriter(new FileWriter(args[1])) ;        while ((line=r.readLine())!=null) {            String source = line;             Matcher matcher = pattern.matcher(source);                while(matcher.find()){//                    System.out.println(matcher.group(matcher.groupCount()));                    String url=matcher.group(matcher.groupCount());                    if (url.contains(".")) {                        String resUrl="";                        String resUrl2="";                        if (url.contains("/")) {
                //这个判断是为了提取出短域名的网站级访问访问信息,不需要可以删掉。                 //例如从:汉字汉字汉字t.cn/RVIIIj8汉字汉字 中提取出 t.cn/RVIIIj8而不是t.cn int i =url.lastIndexOf("/"); int i2 =url.indexOf("/"); if (i==i2) { resUrl=url; }else { resUrl =url.split("/")[0]; } }else { resUrl=url; } //去空格 resUrl= resUrl.replaceAll(" ", ""); w.write(source+"|"+resUrl); w.write("\r\n"); } } } r.close(); w.flush(); w.close(); System.out.println("执行完毕"); }}

 

转载于:https://www.cnblogs.com/yanghaolie/p/6418779.html

你可能感兴趣的文章
转:Vue keep-alive实践总结
查看>>
android studio修改新项目package名称
查看>>
深入python的set和dict
查看>>
C++ 11 lambda
查看>>
Hadoop2.5.0 搭建实录
查看>>
实验吧 recursive write up
查看>>
High-speed Charting Control--MFC绘制图表(折线图、饼图、柱形图)控件
查看>>
go test命令參数问题
查看>>
linux 搜索文本
查看>>
超实用Mac软件分享(二)
查看>>
Android JSON数据解析
查看>>
DEV实现日期时间效果
查看>>
java注解【转】
查看>>
Oracle表分区
查看>>
centos 下安装g++
查看>>
嵌入式,代码调试----GDB扫盲
查看>>
类斐波那契数列的奇妙性质
查看>>
配置设置[Django]引入模版之后报错Requested setting TEMPLATE_DEBUG, but settings are not configured....
查看>>
下一步工作分配
查看>>
Response. AppendHeader使用大全及文件下载.net函数使用注意点(转载)
查看>>