某A服务器上的一个网站,部分内容因为权限限制,在一些网络上不能访问,使用ssh或者vpn也不是很方便(因为我的废柴手机不能用ssh和vpn),所以准备给A服务器上的内容做个即时更新镜像。
我打算这样做,在一个与A服务器同网络的任意一台机器B上,运行一个爬虫程序,将爬到的结果存储到某外网的c机器上。
因为A服务器上的网站有图片内容,将其放到c机器上有些太耗费流量和存储空间了,这部分交给sina微博,将图片上传至新浪微薄以分流减小c机器的访问流量。
c机器用mysql+php,B机器用某一爬虫程序,将A服务器上的网站的文字内容存至c机器的mysql,图片传至新浪微博。
目前已完成部分工作:
- 微博api部分:该部分因为微博访问的限制,需要再多申请几个帐号,现测试10s一个图片,上传30张图片后会被禁封,如果有10个左右的账号的话,基本就不怕被禁封了
- 爬虫程序:基本完工,今天忙活到现在暂时,剩下的明天再做吧
- mysql部分:尚未开始
- php部分:尚未开始,因为php完全不会,所以进度会比较慢
此外A服务器部分内容需要telnet协议才能访问,这部分最后去做吧,因为工作和前面的爬虫完全不同,前面的爬虫是基于普通web的,这部分的内容估计会拖得比较久。
And 最近貌似要去趟帝都,这先后空闲的时间不多,希望整个工作能在5月份左右搞定。
=========Wesker的分割线=============
最近手头有了新的活,希望能赚点钱,今年夏天去tibet的预算也会宽裕些
并且下周三得去帝都,前后事情都挺多的,所以本文所说的事儿会往后延一延了
2011.3.25