结构化数据和非结构化数据的提取【Python篇】
发布时间:2023-02-16 14:08:24 所属栏目:Python 来源:互联网
导读:结构化数据和非结构化数据的提
结构化数据和非结构化数据的提取【Python篇】 总结一下Pyhon提供的可以提取结构化数据以及非结构化数据的主流库。 1.常见数据的分类: 依据响应分类(附带对应的常用的解析方法~): 结构化数据: ① json数据(高频出现) json模块 jsonpath模块 ②xml数据(低频出现) re 模块(正则语法) lxml模块(xpath语法) 非结构化数据: ①html re模块(正则语法) lxml模块(xpath语法) beautifulsoup(xpath,正则,css选择器) pyquery(css选择器) 小知识点: xml和html的区别 html :超文本标记语言,为了更好的显示数据,侧重于显示数据; xml : 可扩展性标记语言,为了传输和存储数据,侧重点在于数据内容的本身。 2.爬虫世界数据的分类: 结构化数据:json,xml等 处理方式:直接转化 总结 以上是编程之家为你收集整理的结构化数据和非结构化数据的提取【Python篇】全部内容。 如果觉得编程之家网站内容还不错,欢迎将编程之家网站推荐给好友。 原文地址:https://gu-han-zhe.blog.csdn.net" target="_blank" rel="noopener" title="孤寒者">孤寒者</a> <img class="article-time-img article-heard-img" src="https://csdnimg.cn/release/blogv2/dist/pc (编辑:甘南站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
相关内容