互联网档案馆

互联网档案馆

Archive.org:互联网档案馆

 

二零零六年的尾声一天,辞旧迎新,互联网也一样如此,在往返40年的功底上一步步积聚发展。对于大家而言很愿意通过以往的各种网页、见证和找寻历史,这就是今天所介绍的网站“archive.org”(中文名:档案)——互联网档案馆的价值所在。

档案馆 1

网站名称:Internet Archive(http://www.archive.org/index.php)

上线时间:1996年

网站地址:美利坚合众国加州(San Francisco, CA)

Archive(archive.org)创立于1996年,由Alexa开创者布鲁斯特(布鲁斯特(Brewster))·波特兰(BrewsterKahle)创办,是一个公益属性的计划。它通过定期收录和抓取天下网站的消息,并举办保存。当然犹如搜索引擎一样,大的网站比如GoogleYahoo档案馆,等会每日备份五回,每回收录三个网页;而对此部分小的网站,比如个人blog则可能每年只录取四回,这时候不可制止地会丢掉一些网页。

但Archive网站的开创者和办事协会异常值得我们爱慕,因为直至近年来,他们曾经保存了从1996年至今的跨越1500亿个来回的网络页面或者网页快照。

除此以外对于用户而言,通过Archive网站的“Take Me
Back”,输入一个网站域名,就可以查阅其来往的选取历史。当你点击进入的时候,一定会有专门的感觉——因为你会看出众多众多您可能没有见到过的,他们决定成为历史。

档案馆 2

以我们网易为例,如今Archive网站收录了25372个结果,包括从1998年1五月1日到2008年9月6日的页面。我想尽管是知乎团结如故我们这个工作在天涯论坛的人都有为数不少页面从未看过、备份。

Archive为了更完善地选择网页和历史资料,也盼望发动更多的网站和众人的插手,主动出席。此外其眼前也从刚开端的录取网页,扩充到选定图片、音频、软件、录像等,希望真的变成一个圆满的互联网档案馆。

 

虽说那么些网站是在13年前就创办,但正值前几日,其市值和含义也彰着,衷心希望它亦可永远永久地保留下去。

末尾,在二〇一〇年即将先河的时候,祝福所有知乎科技和每日一站的网友们节日快乐!在二〇一〇年天天一站计划开展改版提高,也盼望收到各位好的见地和提出(欢迎发邮件到tech2004@crop.netease.com,谢谢!)。(文飞翔)

 

 

Archive.org是一个非营利性数字图书馆,目标是“普及一切知识”,此网站存有26PB(大概两千七百万GB)大小的各种数字资料。
这个档案馆从1996年成立至今,收集了各种各样的网站,程序,应用,游戏,图片,语音等资料,其中存储的最多的是网页,截止现在他们已经存了两千八百亿个页面。
Archive.org的网页存储界面

而且每个小时都会抓去一次被收录网站的页面,让你清楚的知道发生的每一件事。

同时Archive.org一点都不流氓,遵守robots.txt爬虫协议,声明不允许被记录的网站他是不会抓取的~
比如百度申明不希望被收录,他就不收录
Robots协议是国际互联网界通行的道德规范,网站通过Robots协议告诉其他引擎哪些页面可以抓取,哪些页面不能抓取。
通过这个引擎你可以看到很多有趣好玩的东西,比如1999年刚刚成立,还是测试版的Google。

 

 

Archive.org:互联网档案馆

2009.12.30 20:51:21    来源: 网易科技    作者:网易科技 ( 条评论 )

  2009年的最后一天,辞旧迎新,互联网也同样如此,在过往40年的基础上一步步积累发展。对于我们而言很希望通过以往的每个网页、见证和找寻历史,这就是今天所介绍的网站“archive.org”(中文名:档案)——互联网档案馆的价值所在。



  网站名称:Internet Archive(http://www.archive.org/index.php)

  上线时间:1996年

  网站地点:美国加州(San Francisco, CA)

  Archive(archive.org)创建于1996年,由Alexa创始人布鲁斯特·卡利(Brewster Kahle)创办,是一个公益性质的计划。它通过定期收录和抓取全球网站的信息,并进行保存。当然犹如搜索引擎一样,大的网站比如Google、Yahoo等会每天备份一次,每次收录多个网页;而对于一些小的网站,比如个人blog则或许每年只收录一次,这时候不可避免地会丢失一些网页。

  但Archive网站的创办者和工作团队非常值得我们尊敬,因为截至目前,他们已经保存了从1996年至今的超过1500亿个过往的网络页面或者网页快照。

  此外对于用户而言,通过Archive网站的“Take Me Back”,输入一个网站域名,就可以查看其过往的收录历史。当你点击进入的时候,一定会有特别的感觉——因为你会看到很多很多你可能从未看到过的,他们已然成为历史。



  以我们网易为例,目前Archive网站收录了25372个结果,包括从1998年12月1日到2008年4月6日的页面。

  Archive为了更完善地收录网页和历史资料,也希望发动更多的网站和人们的参与,主动参与。此外其目前也从刚开始的收录网页,扩展到收录图片、音频、软件、视频等,希望真正成为一个全面的互联网档案馆。

  虽然这个网站是在13年前就创办,但时值今日,其价值和意义也不言而喻,衷心期望它能够永久永久地保存下去。

 

互联网档案馆就是保留所有网站信息的地方,这个档案馆和Alexa有着密切的关系,因为互联网档案馆搜集的网站资源主要来自于Alexa及部分其它网站,也接受主动加入的网站(如果你发现自己的网站没有被收录,可以主动添加到互联网档案馆)。互联网档案馆位于美国旧金山,与Alexa一样诞生于1996年,是一家非赢利性的信息资源数据库,面向全球用户,免费、公开其收集的全部互联网信息资料。自1996年成立起,The Internet Archive定期收录并永久保存全球网站上可以抓取的信息。对于不同的网站,其收录的网页数量和收集周期也不相同,一些大型网站可能每天都会被“备份” 一次,每次可能收录数十个以上的网页,而一些小型网站可能每年收录几次,每次只有几个网页。

 

 

 

 

admin

网站地图xml地图