avatar
文章
99
标签
36
分类
17

首页
时间轴
标签
分类
友链
十万个为什么
好文推荐
关于
戴晶明的个人博客
搜索
首页
时间轴
标签
分类
友链
十万个为什么
好文推荐
关于

戴晶明的个人博客

java 正则表达式
发表于2023-02-18|正则表达式|java
前言 正则表达式的基础部分已经学习完毕,接下来是学习java提供的正则表达式的库 库说明 java提供的 java.util.regex 包 主要包含下面三个类: Pattern类 这个是用来设置正则表达式和对正则表达式进行编译,和得到Matcher类对象 Matcher类 这个是用匹配数据和存放匹配结果的,我们可以通过这个类获得匹配好的数据和修改数据 PatternSyntaxException类 这个看名字就知道是一个异常类,用来表示正则表达式中的语法错误 我们接下来就是学习这两个类 Pattern类 这个类的构造方法是私有的,我们不能通过new的方法来创建对象,只能通过它提供的静态方法compile来创建对象 1Pattern compile = Pattern.compile("hello"); // 基本匹配 我们发现这和标准的正则表达式 / pattern /flag 有些区别,它的匹配模式和标志符不在同一个字符串中, 我们需要使用传递参数的方式去给定标志符 以下是一些常见的 Pattern 标志: CASE_INSENSITIVE:不区分大小写 ...
java常用库
发表于2023-02-17
前言 记录一下java的一些库可以用来处理哪些东西,这里还附上Maven仓库地址 处理文档 Java提取文档中的数据的方法取决于文档的类型和数据的格式。下面列出了一些可能用到的Java库和工具以及它们支持的数据类型: Apache POI:POI是一种流行的Java库,用于处理Microsoft Office格式的文档,如Word文档(.docx)、Excel文档(.xlsx)和PowerPoint演示文稿(.pptx)。 PDFBox:PDFBox是一个用于创建和处理PDF文档的Java库。它可以用于提取PDF文档中的文本和元数据。 jTidy:jTidy是一个用于清理和解析HTML文档的Java库。它可以将HTML文档转换为XHTML格式,从而更容易地提取其中的数据。 Jsoup:Jsoup是另一个用于解析HTML文档的Java库。它提供了一种简单的方式来解析HTML文档,并提取其中的数据。 OpenCSV:OpenCSV是一个Java库,用于读写CSV文件。如果您需要从CSV文件中提取数据,则可以使用OpenCSV。 JSON:JSON是一种轻量级数据交换格式,可用于表示复杂的 ...
正则表达式
发表于2023-02-17
前言 以前学过一点点正则表达式,后面又忘记了,又总是遇到这个东西,所以想这次学的明白一点,虽说不用记住,但是也要知道怎么用,这样查资料的时候也能查的明白一些 介绍 正则表达式(Regular Expression)是一种文本模式,简称Regex,包括普通字符(例如,a 到 z 之间的字母,数字)和特殊字符(称为"元字符",列如\ . * ^ $),正则表达式可以用来匹配,查找,替换一系列符合规则的字符串 修饰符 我觉得很有必要先把这个修饰符先了解了再去了解元字符 正则表达式一般长这样 / pattern(匹配字符串) /flags(修饰符) 修饰符很大程度上影响我们的匹配 g修饰符 代表全局匹配(global),查找所有项,如果不加这个,就只查找第一项 i修饰符 代表忽略大小写(ignore) m修饰符 代表多行匹配( multi line), 如果不加这个,无论换行与否都是当成一行来处理,这样的话使用 $ 和 ^ 元字符的时候就要注意了 s修饰符 代表 当使用元字符 . 的时候 可以匹配 换行符,如果不加的话, . 是不会匹配 换行符的 元字符 使用元字 ...
java爬虫
发表于2023-02-16|爬虫|java•jsoup•HttpClient
前言 Java 有很多好用的爬虫框架可供选择。以下是其中一些流行的爬虫框架: Jsoup:Jsoup 是一个 HTML 解析器,可以方便地从 HTML 文档中提取数据。它可以模拟浏览器行为,解析 HTML 标签和属性,并提供了多种方法来选择和操作文档中的元素。 WebMagic:WebMagic 是一个基于 Java 的开源网络爬虫框架。它提供了强大的抓取和解析功能,支持多线程和分布式部署。WebMagic 还有一个基于注解的简单 API,可以方便地实现自定义的抓取逻辑。 HttpClient:HttpClient 是一个用于发送 HTTP 请求的 Java 库,可以用来构建爬虫。它提供了对多种 HTTP 协议的支持,可以处理 HTTP 请求和响应,并提供了多种方式来处理响应内容。 Selenium:Selenium 是一个用于自动化浏览器的工具,可以用来构建爬虫。它可以模拟用户在浏览器中的操作,如点击、滚动、输入等,并提供了多种方式来获取网页内容。 Spring Batch:Spring Batch 是一个用于批量处理的框架,可以用来构建爬虫。它提供了多线程、分步骤和分布式处理的支 ...
webMagic使用详解
发表于2023-02-15
webmagic 里面维持了一个请求队列,多个线程就是从这个队列里面请求 1234567891011121314151617181920 public static void main(String[] args) { Spider spider = Spider.create(new test1()).thread(5); // 开启五个线程去请求队列里面拿请求,然后请求服务器 for(int i=0;i<10;i++){ spider.addUrl("http://localhost:8888/?a="+i); // 请求这个地址会返回参数值 } spider.run(); }输出结果如下:get page: http://localhost:8888/?a=2get page: http://localhost:8888/?a=1get page: http://localhost:8888/?a=3get page: htt ...
http协议
发表于2023-02-15
前言 万维网构想三个部分: 页面文本标记语言 html ( 怎么表示页面) 传输数据的协议 http ( 怎么传输页面) 统一资源标识符 URI (资源在哪) 在所有的HTTP版本中,目前最流行的还是HTTP1.1这个版本 URI与URL URI (统一资源标识符) 和 URL(统一资源定位符的区别) : URI 可以用来标识任何资源(比如ftp,http,talent协议类型的资源),而URL 只能标识特定协议(http)的资源, URI 支持很多种协议,而URL 只支持http协议,URL 是 URI 的一个子集 所以咱们以后就说URI 就不会错啦,哈哈哈哈 后面的总结都是基于HTTP1.1来说的哦 请求方法 http协议支持的请求方法: GET 主要用于向服务器获取资源 POST 主要用于向服务器传输资源 HADE 与GET方法类似,但是只获取响应报文的首部,不返回响应报文的主体 OPTIONS 询问支持的方法(在响应报文头部的Allow字段里面) TRACE CONNECT PUT 用于上传资源 DELTE 用于删除资源 后面两个方法需要后端采用R ...
电路原理
发表于2023-02-11|基础课程
基本概念 电流 单位时间通过横截面的电荷 I = dq/dt 电压 电场力移动单位电荷需要做的功等于电压 U = dw/dp 电位 从某点到某点的电压差 电动势 非电场力将单位正电荷移动做的功,一般只有电池电源有电动势
计算机科学速成课
发表于2023-02-04|基础课程
半加器 全加器
实用软件
发表于2023-01-04|实用软件
utools 强烈推荐, 能够为我们提供很多实用的工具, 基本上能囊括我这里面其他软件了 官网地址 quicker 这个也是强烈推荐, 搭配utools使用, 真的好用, 这个偏鼠标操作 官网地址 everything 这个软件是用来快速的搜索到某个文件所在的位置,它会将这个文件放进数据库中,然后读取到内存里面,这个可比windows自带的那个搜索功能快多了 官网地址 TreeSize 可以查看目录下具体子目录和文件的大小 破解地址 Typora 用于编写md文件 破解地址 clash 代理软件 网盘地址 手心输入法 干净无广告, 比较好用 窗口顶置 帮助其他软件窗口顶置 windowtop 下载地址, 破解地址 deskpins 下载地址 屏幕标记 论文阅读 zotero readpaper 代码编写 vscode
idea的使用
发表于2022-12-30|工具
部署项目到远程服务器 点击配置 配置好信息 配置好路径映射 打jar包 点击 文件->项目结构->工件 然后点击加号 创建工件 选择目录 构建工件 运行jar包
1…78910
avatar
戴晶明
不积跬步,无以至千里
文章
99
标签
36
分类
17
公告
欢迎光临
最新文章
内网穿透2025-04-28
transformer及其变体学习2025-04-10
python场景方案解决2025-04-03
python常用包学习2025-03-09
目标检测领域的经典模型2024-12-11
分类
  • 4081
  • English1
  • windows1
  • 云原生1
  • 基础课程2
  • 实用软件1
  • 工具4
    • git1
标签
MFC需要复习windowsc++c语言English英语gitGohexodockerjavajsoupHttpClientspringlinux网络linuxmakefilepythontasksk8svue云计算机网络maven工具的使用工具汇编高等数学命令总结tomcatnode操作系统数据结构计算机组成原理UML
归档
  • 四月 20253
  • 三月 20251
  • 十二月 20241
  • 十一月 20243
  • 九月 20243
  • 六月 20247
  • 五月 20244
  • 四月 20242
网站资讯
文章数目 :
99
已运行时间 :
本站总字数 :
459.6k
本站访客数 :
本站总访问量 :
最后更新时间 :
©2022 - 2025 By 戴晶明
框架 Hexo|主题 Butterfly
搜索
数据库加载中