网站首页 > 技术文章 正文
上一节聊到正则表达式的简单应用,不足之处欢迎留言交流。
今天,我们来看一下,如何使用正则表达式,匹配HTML标签及相关信息。
为什么要加上相关信息呢?
因为,如果您想写一个HTML语法树解析库的时候,可能会用到。
下面内容用到的语法
|:表示或者,要么前面,要么后面
(?<=我前面出现的内容)要匹配的内容:只匹配前面出现的字符之后的内容。
要匹配的内容(?=我前面出现的内容):只匹配后面出现的字符之前的内容。
分组捕获:一对完整的小括号(),表示一个组。
\数字:你要使用那一个分组捕获到的内容。
.*?:在正则表达式中,. 表示匹配任意字符,* 表示匹配 0 到任意次的前一个字符,? 表示非贪婪匹配,即尽可能匹配最少的字符。因此,.*? 表示匹配任意字符零次或多次,但尽可能匹配最少的字符。这个表达式通常用于匹配一个字符串中的所有内容,但是避免贪婪匹配导致的匹配错误。
^: 表示匹配开始
[要匹配的字符]:只匹配括号中的字符。
比如[0-9]、[a-z]、[A-Z]、[0-9a-zA-Z]、[0-9abc]等等。
[^要匹配的字符]:[]中加^表示匹配不是“要匹配的字符”。
1、匹配所有HTML标签,并清空。实现innerText类似的功能。
<body><div id="left">left</div><div id="right">right</div></body>
const text = document.body.innerText;
text = text.replace(/\n/g, '');
console.log(text);
//输出: leftright
假设没有innerText的功能呢?实现这个功能,使用正则表达式无疑是最方便的。
var text = document.body.innerHTML.replace(/<[^>]+>/g,'');
text = text.replace(/\n/g, '');
console.log(text);
//输出: leftright
是的,这个正则表达式的意思是,查找<>并且包含他们之间不为>的一段字符串。
到这里,您以为就结束了吗?您在网上搜索匹配HTML标签,可能也会得到这么一个结果(例如:<[^>]+>、<.*?>、等等),但实际上这只是开始,我们本着只要是程序就可能有bug的原则,所以我们来看下面一个例子。
const strHtml = '<span data-code=">">>是大于符号。</span>';
const strRes = strHtml.replace(/<[^>]+>/g, '');
console.log(strRes);
// ">>是大于符号。
bug出现了,怎么办?别着急,请看下一个知识点。
2、匹配HTML标签属性,是写一个HTML语法树要经历的事情。
2.1、首先,我们先解决第一点最后的bug。
const strHtml = '<span data-code=">">>是大于符号。</span>';
// 一个小改动即可。
const strRes = strHtml.replace(/<("[^"]*"|[^>])+>/g, '');
console.log(strRes);
// >是大于符号。
完美 ,还没结束……
const strHtml = "<span data-code='>'>>是大于符号。</span>";
const strRes = strHtml.replace(/<("[^"]*"|[^>])+>/g, '');
console.log(strRes);
// '>>是大于符号。
甲:这不是我写的HTML不标准,是你的解析库兼容性不好,浏览器都可以识别,你为什么不可以?
已:……。
const strHtml = `<i code="<"><小于符号。</i><i code='>'>>大于符号。</i>`;
// 继续改造
const strRes = strHtml.replace(/<((["'])+.*?\2|[^>])+>/g, '');
console.log(strRes);
// <小于符号。>大于符号。
是的,利用正则表达式分组捕获的语法,实现了上面的需求。
2.2 现在,我们来看看,如何找到某个标签的所有属性。
const strHtml = `
<input type='text' disabled value="" class="txt txt-md" v-on:click="save('button')" />
`;
上面的例子中,有多种情况,我们首先来整理出来。
属性1:type='text'
/[\w]+=(["'])+.*?\1/
属性2:disabled
/[\w]+/
属性3:value=""
/[\w]+=(["'])+.*?\1/
属性4:class="txt txt-md"
/[\w]+=(["'])+.*?\1/
属性5:v-on:click="save('button')"
/[\w:]+=(["'])+.*?\1/
其他情况:欢迎讨论。
把所有情况连起来之后。
const strHtml = `<input type='text' disabled value="" class="txt txt-md" v-on:click="save('button')" />`;
const tagAttrs = strHtml.match(/(?<=\s)[\w:-]+(=(["']).*?\2)*/g) || [];
console.log(tagAttrs);
// ["type='text'", 'disabled', 'value=""', 'class="txt txt-md"', `v-on:click="save('button')"`]
人人为我,我为人人,欢迎您的浏览,我们一起加油吧。
猜你喜欢
- 2025-10-02 链接标签_链接标签的代码
- 2025-10-02 零基础10天学会网页制作第二天(下)之表格table标签
- 2025-10-02 企业网站建设的小细节:H标签_企业网站html
- 2025-10-02 HTML-列表标签(双标签) 208_html li标签
- 2025-10-02 HTML基础知识(三) HTML标签知识2_html标签基本结构
- 2025-10-02 HTML 标签_html标签快捷键
- 2025-10-02 Python——Html(表格, , ,、表单 、自定义标签 和)
- 2025-10-02 「测试开发全栈-HTML」(18) label标签的使用
- 2025-10-02 HTML5标签速查表·虎山CTO2025精编版(含废弃标记)避过时页签坑
- 2025-01-03 Markdown 各种标签说明介绍
你 发表评论:
欢迎- 最近发表
-
- Three.js vs Unity:工业可视化为何选择Web方案?
- 一款全新Redis UI可视化管理工具,支持WebUI和桌面——P3X Redis UI
- 时间线可视化实战:三款AI工具实测,手把手教你制作人生轨迹图
- 【推荐】一款可视化在线 Web 定时任务管理平台,支持秒级任务设置
- 重磅更新!FastDatasets 推出可视化 Web 界面
- 模具设计之UG钣金实例教程(3)_ug钣金基础教程
- 前端基于 RBAC 模型的权限管理实现
- 别再把JWT存在localStorage里了!2025年前端鉴权新思路
- 模具设计之曲面造型中不圆润的曲面如何处理技巧
- 9个专业级别的CSS技巧区分了解和精通的鸿沟
- 标签列表
-
- 前端设计模式 (75)
- 前端性能优化 (51)
- 前端模板 (66)
- 前端跨域 (52)
- 前端缓存 (63)
- 前端aes加密 (58)
- 前端脚手架 (56)
- 前端md5加密 (54)
- 前端路由 (61)
- 前端数组 (73)
- 前端js面试题 (50)
- 前端定时器 (59)
- Oracle RAC (76)
- oracle恢复 (77)
- oracle 删除表 (52)
- oracle 用户名 (80)
- oracle 工具 (55)
- oracle 内存 (55)
- oracle 导出表 (62)
- oracle约束 (54)
- oracle 中文 (51)
- oracle链接 (54)
- oracle的函数 (58)
- oracle面试 (55)
- 前端调试 (52)
本文暂时没有评论,来添加一个吧(●'◡'●)