新足迹

 找回密码
 注册

精华好帖回顾

· ~~[小玩纸荣誉出品]~~澳洲海鲜百科全说!~~ 120+图片~~ (2011-6-27) Jinoramic · 接到墨尔本精英班的入学通知了。。。撒花44楼考试小结67楼面试问题100楼考后感言(完) (2011-5-20) tyxzh
· 万里走单骑之二 – 再续前缘 (迪拜,伦敦,布鲁塞尔,德国,瑞士,访友,啤酒节,跳伞,欧洲之巅) 超多美图 - 全文完结 (2013-10-6) steprego · 我们肥咪,终于回到澳洲了,1-4楼全部更新完~ (2016-8-13) 肥咪他妈
Advertisement
Advertisement
查看: 3010|回复: 19

如何从政府网站快速获取数据 [复制链接]

发表于 2019-11-25 21:05 来自手机 |显示全部楼层
此文章由 cqflq212 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 cqflq212 所有!转贴必须注明作者、出处和本声明,并保持内容完整
请教大家,我公司需要从department of human services网站获取客户数据。但是DHSS网站是每次查询必须有用户信息,比如一个unique ID,加上last name and DOB。而且不提供API。请教大家如何快速获取大量客户的数据,有没有其他的方案?

考虑了RPA,有点太费时费事。想知道还有其他好的办法吗。
Advertisement
Advertisement

发表于 2019-11-25 21:07 |显示全部楼层
此文章由 明月星光 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 明月星光 所有!转贴必须注明作者、出处和本声明,并保持内容完整
这个行为合法么……

发表于 2019-11-25 21:10 来自手机 |显示全部楼层
此文章由 cqflq212 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 cqflq212 所有!转贴必须注明作者、出处和本声明,并保持内容完整
合法的。只是在技术上,我不知道还有什么其他方案。任何一个healthcare provider都是这样。只是我们量比较大,所以在想其他办法

发表于 2019-11-25 22:16 |显示全部楼层
此文章由 piddock 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 piddock 所有!转贴必须注明作者、出处和本声明,并保持内容完整
cqflq212 发表于 2019-11-25 21:10
合法的。只是在技术上,我不知道还有什么其他方案。任何一个healthcare provider都是这样。只是我们量比较 ...

人工一个一个查询是合法的,但是批量机器爬虫去获取数据应该是不合法的。合法的方式是直接从数据源购买数据。

发表于 2019-11-25 22:21 |显示全部楼层
此文章由 bluehenry 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 bluehenry 所有!转贴必须注明作者、出处和本声明,并保持内容完整
写个爬虫吧

发表于 2019-11-25 22:24 来自手机 |显示全部楼层
此文章由 cqflq212 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 cqflq212 所有!转贴必须注明作者、出处和本声明,并保持内容完整
piddock 发表于 2019-11-25 22:16
人工一个一个查询是合法的,但是批量机器爬虫去获取数据应该是不合法的。合法的方式是直接从数据源购买数 ...

感谢回复。政府DHSS数据客户经常更新的,当然也不存在购买一说,只是获取起来很费事。就想知道技术上可不可以模拟浏览器然后filter value,然后调取这些服务喝数据
Advertisement
Advertisement

发表于 2019-11-25 22:24 来自手机 |显示全部楼层
此文章由 cqflq212 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 cqflq212 所有!转贴必须注明作者、出处和本声明,并保持内容完整
bluehenry 发表于 2019-11-25 22:21
写个爬虫吧

请教怎么写?

发表于 2019-11-25 23:16 |显示全部楼层
此文章由 piddock 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 piddock 所有!转贴必须注明作者、出处和本声明,并保持内容完整
cqflq212 发表于 2019-11-25 22:24
感谢回复。政府DHSS数据客户经常更新的,当然也不存在购买一说,只是获取起来很费事。就想知道技术上可不 ...

你用爬虫试试看,马上封你的ip。如果不存在购买一说,那你完全可以直接问政府免费索取。哪有数据是不要钱的?

发表于 2019-11-26 09:47 |显示全部楼层
此文章由 bluehenry 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 bluehenry 所有!转贴必须注明作者、出处和本声明,并保持内容完整
cqflq212 发表于 2019-11-25 22:24
请教怎么写?

Google一下吧

爬虫如果被封的话,还可以写个程序自动隔一段时间获取。方法好多,Postman,UI自动化测试, etc。。。

评分

参与人数 1积分 +2 收起 理由
cqflq212 + 2 感谢分享

查看全部评分

发表于 2019-11-26 12:05 |显示全部楼层
此文章由 gzrain 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 gzrain 所有!转贴必须注明作者、出处和本声明,并保持内容完整
本帖最后由 gzrain 于 2019-11-26 12:09 编辑
cqflq212 发表于 2019-11-25 22:24
感谢回复。政府DHSS数据客户经常更新的,当然也不存在购买一说,只是获取起来很费事。就想知道技术上可不 ...


浏览器能做的事,就可以automate, 公司爬虫项目每天20w个job

不过现在zf开始转型,提供商用API了,慢慢都往上转了;就是开发很慢,一个endpoint 要写个半年, 慢慢等吧


浏览器自动化,老牌的是selenium,支持多种语言和浏览器;或者Google出品的Puppeteer,nodeJS平台,只支持Chrome

评分

参与人数 1积分 +2 收起 理由
cqflq212 + 2 你太有才了

查看全部评分

发表于 2019-11-27 22:28 |显示全部楼层
此文章由 Wooduck 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Wooduck 所有!转贴必须注明作者、出处和本声明,并保持内容完整
专家。
Advertisement
Advertisement

发表于 2019-11-28 06:16 来自手机 |显示全部楼层
此文章由 civ 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 civ 所有!转贴必须注明作者、出处和本声明,并保持内容完整
学习了

发表于 2019-11-28 07:06 |显示全部楼层
此文章由 napolian 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 napolian 所有!转贴必须注明作者、出处和本声明,并保持内容完整
小心被当成间谍啊

发表于 2019-11-28 10:57 |显示全部楼层
此文章由 cqflq212 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 cqflq212 所有!转贴必须注明作者、出处和本声明,并保持内容完整
谢谢大家。完全合法,因为网站没有API,所以要一个一个查比较慢。

发表于 2019-11-28 11:27 |显示全部楼层
此文章由 liveforlove 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 liveforlove 所有!转贴必须注明作者、出处和本声明,并保持内容完整
逐个查合法,但是爬虫就非法了,除非你很确定的得到对方的confirmation

发表于 2019-11-28 14:56 来自手机 |显示全部楼层
此文章由 qyz225 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 qyz225 所有!转贴必须注明作者、出处和本声明,并保持内容完整
搜一下Department of human service api第一个结果不是吗?
Advertisement
Advertisement

发表于 2019-12-17 03:27 |显示全部楼层
此文章由 flyspirit 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 flyspirit 所有!转贴必须注明作者、出处和本声明,并保持内容完整
爬虫为什么不合法? Google怎么做的, 最大的爬虫就是他们家。

发表于 2019-12-17 05:48 |显示全部楼层
此文章由 woshidajiangyou 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 woshidajiangyou 所有!转贴必须注明作者、出处和本声明,并保持内容完整
gzrain 发表于 2019-11-26 10:35
浏览器能做的事,就可以automate, 公司爬虫项目每天20w个job

不过现在zf开始转型,提供商用API了,慢慢 ...

爬虫,哪个好用用哪个

又不用考虑多浏览器兼容问题

没有任何理由不用Puppeteer吧
锦瑟无端五十弦,一弦一柱思华年。
庄生晓梦迷蝴蝶,望帝春心托杜鹃。
沧海月明珠有泪,蓝田日暖玉生烟。
此情可待成追忆,只是当时已惘然。

发表于 2019-12-17 14:20 来自手机 |显示全部楼层
此文章由 qyz225 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 qyz225 所有!转贴必须注明作者、出处和本声明,并保持内容完整
flyspirit 发表于 2019-12-17 03:27
爬虫为什么不合法? Google怎么做的, 最大的爬虫就是他们家。

可以在robot里面定义许可,禁止规则

发表于 2019-12-17 14:35 |显示全部楼层
此文章由 righttang 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 righttang 所有!转贴必须注明作者、出处和本声明,并保持内容完整
爬虫这东西,你用是可以用,但是并没有SLA一说

简单来说,如果政府那个网站更新了,然后你们爬虫就坏了,获取不了数据了,由此而得可能会造成巨大的商业损失。

如果你们整个Solution建立在爬虫获得的数据上,那风险是巨大的。这个你们Business知道么?

发表回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Advertisement
Advertisement
返回顶部