Python爬虫的定向爬取技术

Post author: StriveZs
Post link: 439.html
Copyright Notice: All articles in this blog are licensed under <a href="https://creativecommons.org/licenses/by-nc-sa/3.0/" rel="external nofollow" target="_blank">CC BY-NC-SA 3.0 unless stating additionally.

¶Python爬虫的定向爬取技术就是根据设置的主题，对要爬取的网址或者网页中的内容进行筛选。

爬虫定向爬取技术主要需要解决的三个问题 1.清晰地定义好爬虫爬取的目标，规划好主题。 2.建立好爬取网址的过滤筛选规则以及内容的过滤筛选规则 3.建立好URL排序算法，让爬虫能够明确优先爬取哪些页面，以什么顺序爬取待爬取的网页。定向爬取某些信息的步骤主要有： 1.理清爬取的目的 2.设置网址的过滤规则 3.设置好内容采集规则 4.规划好采集任务 5.将采集结果进行相应的修正，处理成我们想要的格式 6.对结果进行进一步的处理，来完成任务进行信息筛选的主要策略有： 1.通过正则表达式筛选一些简单的操作符： 2.通过Xpath表达式筛选简介： XPath即为XML路径语言，它是一种用来确定XML（标准通用标记语言的子集）文档中某部分位置的语言。XPath基于XML的树状结构，有不同类型的节点，包括元素节点，属性节点和文本节点，提供在数据结构树中找寻节点的能力。[1] 起初 XPath 的提出的初衷是将其作为一个通用的、介于XPointer与XSLT间的语法模型。但是 XPath 很快的被开发者采用来当作小型查询语言。 3.通过xslt筛选简介：在计算机科学中，XSLT是 扩展样式表转换语言 的外语缩写，这是一种对XML（标准通用标记语言的子集）文档进行转化的语言，XSLT中的T代表英语中的“转换”（Tr__ansformation）。它是XSL（eXtensible Stylesheet Language）规范的一部分。