注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

My Unix World

不要迷恋Unix,Unix只是计算世界很小的一部分!

 
 
 

日志

 
 

用wget下载自己的百度博客  

2010-01-30 22:58:54|  分类: utility-applicat |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
以Firefox为例,IE道理相同。

1,首先安装一个能够查看http头的工具。如果使用Firefox可以安装"Live HTTP Headers"插件

2,用Firefox登录百度博客,打开Live HTTP Headers,清空 Live HTTP Headers的log

3,随便点一篇日志,可以看到Live HTTP Headers 会出现很多条记录,不必在意,只需要留意第一条,并把Cookie一行保存下来。这一行类似于:
Cookie: BDUSS=xxxxx; BAIDUID=xxxxxxx:FG=1; USERID=xxxxxxxxx; IM_old=xxxxxx; BDSP=xxxxxxx; BDSTAT=xxxxxxxx; BDSPINFO=xxxxxxx; BDOPINFO=xxxxxxxx; OPENPLATFORM_SP=xxxxxxxx

4,构造wget命令行,如:
wget -r -E -I liqix hi.baidu.com/liqix --header='Keep-Alive: 300' --header='Connection: keep-alive'  --header='Cookie: BDUSS=xxxxx; BAIDUID=xxxxxxx:FG=1; USERID=xxxxxxxxx; IM_old=xxxxxx; BDSP=xxxxxxx; BDSTAT=xxxxxxxx; BDSPINFO=xxxxxxx; BDOPINFO=xxxxxxxx; OPENPLATFORM_SP=xxxxxxxx'

5,可以下载整个博客的所有文章了,包括设为隐藏的文章。但是,注意,在下载的过程中,要使Firefox保持登录状态,不可以退出登录,因为整个下载过程中,wget使用firefox的session。

仍然有不完善的地方,存在的问题:
1,文章的浏览量无法显示
2,文章下载下来后,内部的链接仍然使用绝对路径,应该变为相对路径,以方便本地浏览。

对于第1个问题:
浏览量数据可以用这一行:
http://hi.baidu.com/liqix/brwstat?key1=1&key2=xxxxxxxxxxxxxxxxxx_a91c11edbe5a13da2f2e21b8_
key2的第一段不清楚是什么意思,第二段是文章在id。第一段似乎可以通用。
经过几次尝试,个人认为,第一段是用户ID。(通过观察页面加载过程,可以猜测,百度的访问统计存放在单独的数据库中,第一段就是访问统计库中的用户 ID。这样比较容易理解,可以猜想,这是一种比较好的数据库设计思路,很可能百度为每一个用户创建一张访问统计的表,在百度拥有海量的用户情况下,似乎也 只有这一个选择。)
可以用一个小脚本在本地完成下载后日志的修改,使它的显示效果与在线浏览保持一致。
其中,我的ID为d987bb42bc59bb1273f05d42

对于第二个问题,加 -k 参数应该可以解决这个问题。
  评论这张
 
阅读(274)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017