1,先给网盘看到的数据保存到本地,你直接查看源代码指定不行,需要用google浏览器另存网页
你直接查看源代码他那个ajax的网页,看不到地址 ,所以 很多采集软件,采集不了。
[img][/img][img][/img]
下载完,源代码就这样了,
[img][/img]
我是给他传到网站上去了,重新采集一下,处理
2,用软件处理一下,
[img][/img]
我这是要在论坛上发布,所以 转成ubb
给个网页,可以将html转成ubb
下面我提供一个火车头,过滤规则,就是将另存的百度网盘源代码,整理成
[img][/img]
百度网盘火车头采集规则[img][/img] (3 K) 下载次数:0
3,每个软件分成一个小文件
怎么多下载内容不能就发一个贴子,
用python,给每行另存成一个文件。
f = open("2.txt", "r") #读文件
#print("Hello World")
tt=10
for line in f:
tt=tt+1
print(tt) #pass #do something here print("Hello World")
tem='%d' %tt
f2 = open(tem+'.txt.txt.txt', 'w')
f2.write(line+'\n')
f2.close()
f.close()
分成N个小文件[img][/img]
4,用采集软件保存入库
你也可以改成html,完了,每个页面一个,主题,一个内容,用火车头什么的,直接采集入库。
完事了。
如果有不明白来 bbs.77169.com 找我讨论 |
|