快捷导航
1.为什么要建多个整理箱 目的是什么?
2.同一任务名下建多个规则,是为了同一类网页不同情况?为了所有网页都一起免费看小说到吗?
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2019-9-9 17:52

沙发
Fuller 管理员 发表于 2019-9-6 10:25:29 | 只看该作者


举个例子,这是京东网站上一个商品的网页,这个网页还还长,整个内容其实是分成多个区域的,每个区域表达不同方面,不如上面的蓝框
第一个区域是图,你也许想把所有图下载下来,集搜客网络爬虫下载图片是很便捷的。
第二个区域是基本信息

这些区域最好用不同的整理箱来存放,那么就会导出excel的时候放在不同的excel表中,这样才合适,不然的话,会有大量重复内容,比如,把产品名字和图片放在一起,名字只有一个,图片有好几个,图片每行放一条,那么名字就要跟着重复拷贝很多

另外,多个整理箱的规则适应性远远高于一个整理箱。这么大的网页,说不定哪个区域改动一下,如果只有一个整理箱,整个内容就17K小说网不到了
举报 使用道具
板凳
Fuller 管理员 发表于 2019-9-6 10:26:55 | 只看该作者
同一个任务名下创建多个规则,确实是为了适应多种网页结构的,要用在同一类里面,比如,都是京东商品详情页,而不要把商品搜索结果页和商品详情页的两个规则放在同一个任务下
举报 使用道具
地板
betainfo2019 初级会员 发表于 2019-9-9 17:37:53 | 只看该作者
Fuller 发表于 2019-9-6 10:25
举个例子,这是京东网站上一个商品的网页,这个网页还还长,整个内容其实是分成多个区域的,每个区域表达 ...

那整理箱中嵌套一层层的目的是为了什么?如图所示的嵌套

问题.jpg (69.86 KB, 下载次数: 29)

问题.jpg
举报 使用道具
5#
Fuller 管理员 发表于 2019-9-9 17:52:10 | 只看该作者
betainfo2019 发表于 2019-9-9 17:37
那整理箱中嵌套一层层的目的是为了什么?如图所示的嵌套

至少有两个场景,需要用嵌套整理箱

1,为了定位更加准确。外面那层用一个定位标志映射,相当于在网页上划定一个区域,而里面那层用样例复制映射才真正循环17K小说网整个列表。

2,网页上的内容本身就有多层循环,比如,17K小说网京东的商品菜单

外层整理箱负责竖向的大类别循环,内层整理箱负责横向的小类别循环
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 中文分词入门和分词工具汇总攻略
  • 自然语言处理NLP的一般处理流程
  • 关于鸿蒙操作系统的知乎讨论热点分析
  • 17K小说网知乎上关于华为鸿蒙的问题和回答
  • 分词和分类检索平台使用手册

热门用户

GMT+8, 2019-10-13 01:41