.htaccess文件详解(全)

发布时间:2010年07月23日      浏览次数:412 次
.htaccess文件,Apache环境中,seo很重要的一个环节。管理员可以通过Apache的AllowOverride指令来设置。作为用户,所能使用的命令受到限制。
1. .htaccess必须以ASCII模式上传,最好将其权限设置为644。
2. 新建一个空文件(记事本文件),如:新建文本文档.txt。
3. 填写以下重定向规则代码,然后把“新建文本文档.txt”改为“.htaccess”(文件名是空的,后缀是.htaccess)。
4. 把.htaccess上传到你网站的根目录。
注:如在自己的电脑上无法修改文件名,提示文件名不能为空!我们可以先把“新建文本文档.txt”上传到网站根目录,然后再在ftp上重命名为“.htaccess”。
经过收集整理加原创,我把htaccess文件功能分为一下7类:
1. URL转向 2. htaccess网址规范化 3. 错误文档的定位 4. 改变缺省的首页文件 5. 阻止爬虫 6. 文档访问的密码保护 7. 防止盗链 8.pr劫持
另附: Discuz!论坛静态化配置规则。
pr劫持我在另外一篇文章中已写到,大家可以看看,这里就不细说了。
  一. URL转向
  当我们对网站改版后,很有可能url也随这网站的改版而改变了。这时候,搜索引擎或者其他网站链接过来的访问就可能出错。这种情况下,我们可以通过htaccess文件如下指令来完成旧的URL自动转向到新的地址:
  Redirect /旧目录/旧文档名 新文档的地址
  或者整个目录的转向:
  Redirect 旧目录 新目录
二. htaccess实现网址规范化
  我多次提到:网址规范化在SEO中是一个很重要的环节,网址的不规范,不仅能造成复制,还可能造成权重不集中的现象,影响排名。
  现在大多数网站,绑定域名都有带WWW和不带两个版本,甚至很多网站同时绑定多个域名。经过处理(跳转、CNAME……),对于访问者来说可能没有任何影响,看到的都是同样的内容;但对于搜索引擎,就无法确定哪一个网址是真正的主页。
  可控因素,网站内容链接应该保持同一个版本,比如整站中,返回首页的地址为固定的一个版本。但还有一个不可控的因素,就是别人链到你的网站,所使用的网址。很多自发链接或交换链接时,别人可能会省略掉WWW,或采用绑定的另一域名。
  外界因素不可控,我们可以从网站内部来控制。利用Apache的.htaccess,使用301重定向,规范网址。

  用301将不带WWW的域名重定向
  rewriteEngine on
  rewriteCond % ^seo84.com [NC]
  rewriteRule ^(.*)$ http://www.seo84.com/$1 [R=301,L]
  用301将绑定的其他多个域名重定向到主域名
  RewriteEngine on
  RewriteCond % ^seo84.com$ [OR]
  RewriteCond % ^bbs.seo84.com$ [OR]
  RewriteCond % ^inseo.cn$ [OR]
  RewriteCond % ^www.inseo.cn$ [OR]
  RewriteCond % ^bbs.inse.cn$
  RewriteRule ^(.*)$ http://www.seo84.com/$1 [R=301,L]
  当然,也可以再扩展一下,将index.html、index.php等也重定向一下:
  RewriteEngine on
  RewriteCond % ^[A-Z]{3,9}\ /index\.php\ HTTP/
  RewriteRule ^index\.php$ http://www.seo84.com/ [R=301,L]
  Enabling SSI Via htaccess 通过htaccess允许SSI(Server Side Including)功能
  AddType text/html .shtml
  AddHandler server-parsed .shtml
  Options Indexes FollowSymLinks Includes
  DirectoryIndex index.shtml index.html
  Blocking users/sites by referrer 根据referrer阻止用户/站点访问
  需要mod_rewrite模块
  例1. 阻止单一referrer: badsite.com
  RewriteEngine on
  # Options +FollowSymlinks
  RewriteCond % seo4\.com [NC]
  RewriteRule .* - [F]
  例2. 阻止多个referrer: badsite1.com, badsite2.com
  RewriteEngine on
  # Options +FollowSymlinks
  RewriteCond % seo841\.com [NC,OR]
  RewriteCond % seo842\.com
  RewriteRule .* - [F]
  [NC] - 大小写不敏感(Case-insensite)
  [F] - 403 Forbidden
  注意以上代码注释掉了”Options +FollowSymlinks”这个语句。如果服务器未在 httpd.conf 的 段落设置 FollowSymLinks, 则需要加上这句,否则会得到”500 Internal Server error”错误。
  Blocking bad bots and site rippers (aka offline browsers) 阻止坏爬虫和离线浏览器
  需要mod_rewrite模块
  三. 错误文档的定位
  用户可以利用.htaccess指定自己事先制作好的错误提醒页面。一般情况下,人们可以专门设立一个目录,例如errors放置这些页面。然后再.htaccess中,加入如下的指令:
  ErrorDocument 404 /errors/notfound.html
  ErrorDocument 500 /errors/internalerror.html
  一条指令一行。上述第一条指令的意思是对于404,也就是没有找到所需要的文档的时候得显示页面为/errors目录下的notfound.html页面。不难看出语法格式为:
  ErrorDocument 错误代码 /目录名/文件名.扩展名
  如果所需要提示的信息很少的话,不必专门制作页面,直接在指令中使用HTML号了,例如下面这个例子:
  ErrorDocument 401 "
  你没有权限访问该页面,请放弃!
  常用的客户端请求错误返回代码:
  401 Authorization Required
  403 Forbidden
  404 Not Found
  405 Method Not Allowed
  408 Request Timed Out
  411 Content Length Required
  412 Precondition Failed
  413 Request Entity Too Long
  414 Request URI Too Long
  415 Unsupported Media Type
  常见的服务器错误返回代码:
  500 Internal Server Error
  四. 改变缺省的首页文件
  一般情况下缺省的首页文件名有default、index等。不过,有些时候目录中没有缺省文件,而是某个特定的文件名,比如在pmwiki中是pmwiki.php。这种情况下,要用户记住文件名来访问很麻烦。在.htaccess中可以轻易的设置新的缺省文件名:
  DirectoryIndex 新的缺省文件名
  也可以列出多个,顺序表明它们之间的优先级别,例如:
  DirectoryIndex filename.html index.cgi index.pl default.htm
  五. 坏爬虫? 比如一些抓垃圾email地址的爬虫和不遵守robots.txt的爬虫
  可以根据 HTTP_USER_AGENT 来判断它们
  (但是对于一些搜索引擎把自己的agent设置为 “Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0)” ,就无能为力了)
  RewriteEngine On
  RewriteCond % ^BlackWidow [OR]
  RewriteCond % ^Bot\ mailto:lg4101622@gmail.com [OR]
  RewriteCond % ^ChinaClaw [OR]
  RewriteCond % ^Custo [OR]
  RewriteCond % ^DISCo [OR]
  RewriteCond % ^Download\ Demon [OR]
  RewriteCond % ^eCatch [OR]
  RewriteCond % ^EirGrabber [OR]
  RewriteCond % ^EmailSiphon [OR]
  RewriteCond % ^EmailWolf [OR]
  RewriteCond % ^Express\ WebPictures [OR]
  RewriteCond % ^ExtractorPro [OR]
  RewriteCond % ^EyeNetIE [OR]
  RewriteCond % ^FlashGet [OR]
  RewriteCond % ^GetRight [OR]
  RewriteCond % ^GetWeb! [OR]
  RewriteCond % ^Go!Zilla [OR]
  RewriteCond % ^Go-Ahead-Got-It [OR]
  RewriteCond % ^GrabNet [OR]
  RewriteCond % ^Grafula [OR]
  RewriteCond % ^HMView [OR]
  RewriteCond % HTTrack [NC,OR]
  RewriteCond % ^Image\ Stripper [OR]
  RewriteCond % ^Image\ Sucker [OR]
  RewriteCond % Indy\ Library [NC,OR]
  RewriteCond % ^InterGET [OR]
  RewriteCond % ^Internet\ Ninja [OR]
  RewriteCond % ^JetCar [OR]
  RewriteCond % ^JOC\ Web\ Spider [OR]
  RewriteCond % ^larbin [OR]
  RewriteCond % ^LeechFTP [OR]
  RewriteCond % ^Mass\ Downloader [OR]
  RewriteCond % ^MIDown\ tool [OR]
  RewriteCond % ^Mister\ PiX [OR]
  RewriteCond % ^Navroad [OR]
  RewriteCond % ^NearSite [OR]
  RewriteCond % ^NetAnts [OR]
  RewriteCond % ^NetSpider [OR]
  RewriteCond % ^Net\ Vampire [OR]
  RewriteCond % ^NetZIP [OR]
  RewriteCond % ^Octopus [OR]
  RewriteCond % ^Offline\ Explorer [OR]
  RewriteCond % ^Offline\ Navigator [OR]
  RewriteCond % ^PageGrabber [OR]
  RewriteCond % ^Papa\ Foto [OR]
  RewriteCond % ^pavuk [OR]
  RewriteCond % ^pcBrowser [OR]
  RewriteCond % ^RealDownload [OR]
  RewriteCond % ^ReGet [OR]
  RewriteCond % ^SiteSnagger [OR]
  RewriteCond % ^SmartDownload [OR]
  RewriteCond % ^SuperBot [OR]
  RewriteCond % ^SuperHTTP [OR]
  RewriteCond % ^Surfbot [OR]
  RewriteCond % ^tAkeOut [OR]
  RewriteCond % ^Teleport\ Pro [OR]
  RewriteCond % ^VoidEYE [OR]
  RewriteCond % ^Web\ Image\ Collector [OR]
  RewriteCond % ^Web\ Sucker [OR]
  RewriteCond % ^WebAuto [OR]
  RewriteCond % ^WebCopier [OR]
  RewriteCond % ^WebFetch [OR]
  RewriteCond % ^WebGo\ IS [OR]
  RewriteCond % ^WebLeacher [OR]
  RewriteCond % ^WebReaper [OR]
  RewriteCond % ^WebSauger [OR]
  RewriteCond % ^Website\ eXtractor [OR]
  RewriteCond % ^Website\ Quester [OR]
  RewriteCond % ^WebStripper [OR]
  RewriteCond % ^WebWhacker [OR]
  RewriteCond % ^WebZIP [OR]
  RewriteCond % ^Wget [OR]
  RewriteCond % ^Widow [OR]
  RewriteCond % ^WWWOFFLE [OR]
  RewriteCond % ^Xaldon\ WebSpider [OR]
  RewriteCond % ^Zeus
  RewriteRule ^.* - [F,L]
  [F] - 403 Forbidden
  [L] - 连接(Link)
  六. 文档访问的密码保护
  要利用.htaccess对某个目录下的文档设定访问用户和对应的密码,首先要做的是生成一个.htpasswd的文本文档,例如:
  zheng:y4E7Ep8e7EYV
  这里密码经过加密,用户可以自己找些工具将密码加密成.htaccess支持的编码。该文档最好不要放在www目录下,建议放在www根目录文档之外,这样更为安全些。
  有了授权用户文档,可以在.htaccess中加入如下指令了:
  AuthUserFile .htpasswd的服务器目录
  AuthGroupFile /dev/null (需要授权访问的目录)
  AuthName EnterPassword
  AuthType Basic (授权类型)
  require user wsabstract (允许访问的用户,如果希望表中所有用户都允许,可以使用 require valid-user)
  注,括号部分为学习时候自己添加的注释
  拒绝来自某个IP的访问
  如果我不想某个GVM部门访问到我的站点的内容,那可以通过.htaccess中加入该部门的IP而将它们拒绝在外。
  例如:
  order allow,deny
  deny from 210.10.56.32
  deny from 219.5.45.
  allow from all
  第二行拒绝某个IP,第三行拒绝某个IP段,也就是219.5.45.0~219.2.45.255
  想要拒绝所有人?用deny from all好了。不止用IP,也可以用域名来设定。
  保护.htaccess文档
  在使用.htaccess来设置目录的密码保护时,它包含了密码文件的路径。从安全考虑,有必要把.htaccess也保护起来,不让别人看到其中的内容。虽然可以用其他方式做到这点,比如文档的权限。不过,.htaccess本身也能做到,只需加入如下的指令:
  order allow,deny
  deny from all
  七. 防止盗链
  如果不喜欢别人在他们的网页上连接自己的图片、文档的话,也可以通过htaccess的指令来做到。
  所需要的指令如下:
  RewriteEngine on
  RewriteCond % !^$
  RewriteCond % !^http://(www.)?mydomain.com...*$ [NC]
  RewriteRule .(gif|jpg)$ - [F]
  如果觉得让别人的页面开个天窗不好看,那可以用一张图片来代替:
  RewriteEngine on
  RewriteCond % !^$
  RewriteCond % !^http://(www.)?mydomain.com...*$ [NC]
  RewriteRule .(gif|jpg)$ http://www.mydomain.com/替代图片文件名 [R,L]
  source:http://wsabstract.com/howt...
  附: Discuz!论坛静态化配置规则:
  # 将 RewriteEngine 模式打开
  RewriteEngine On
  # 修改以下语句中的 /discuz 为你的论坛目录地址,如果程序放在根目录中,请将 /discuz 修改为 /
  RewriteBase /
  # Rewrite 系统规则请勿修改
  RewriteRule ^archiver/((fid|tid)-[\w\-]+\.html)$ archiver/index.php?$1
  RewriteRule ^forum-([0-9]+)-([0-9]+)\.html$ forumdisplay.php?fid=$1&page=$2
  RewriteRule ^thread-([0-9]+)-([0-9]+)-([0-9]+)\.html$ viewthread.php?tid=$1&extra=page\%3D$3&page=$2
  RewriteRule ^space-(username|uid)-(.+)\.html$ space.php?$1=$2
  RewriteRule ^tag-(.+)\.html$ tag.php?name=$1
免责声明:本站相关技术文章信息部分来自网络,目的主要是传播更多信息,如果您认为本站的某些信息侵犯了您的版权,请与我们联系,我们会即时妥善的处理,谢谢合作!