Robots.txt những điều bạn cần biết để tăng rank

Mr LNA

Administrator
1 Tháng mười một 2010
49,065
12
38


Một trong những điều quan trọng để web site của bạn có thể đạt High ranking (thứ hạng cao) trong các cỗ máy tìm kiếm là bạn phải xây dựng cho mình một file Robots.txt. Vậy file Robots.txt là gì? Khi một search engine tìm đến (nguyên văn Crawler) website nào đó, nó sẽ tìm một file đặc biệt trước tiên, đó là file robots.txt. File robots.txt cho search engine đó biết rằng, Website này có thể index hoặc không (tùy theo lệnh được viết trong file robots.txt).

Thực chất, file robots.txt là một tập tin văn bản đơn giản (không chứa mã HTML) được đặt trong thư mục gốc của web site, ví dụ: http://sinhvienthamdinh.com/robots.txt

Vậy, làm thế nào để tạo ra một file robots.txt? Rất đơn giản, bạn có thể mở chương trình Notepad hay bất cứ chương trình soạn thảo văn bản nào, lưu file với tên robots.txt là xong. Các dòng lệnh trong file này có cấu trúc như sau:

Mã:
 	User-agent: googlebot 
Disallow: /cgi-bin/
Trong đó:
User-agent: là đại diện của một search engine, Googlebot là spider của Google. Trong ví dụ này, chỉ các spider của Google là được phép index web site.
Disallow: là không cho phép thực hiện điều gì đó. ở ví dụ trên là không cho phép các spider index thư mục "cgi-bin" trong web site.

Một ví dụ nữa:
Mã:
User-agent: googlebot 
Disallow: /support
Tất cả các trang nằm trong thư mục support, hay support-desk sẽ không được index.

Nếu bạn muốn tất cả các search engine có thể index web site của bạn, nhưng không được index các trang trong thư mục "cgi-bin" thì sử dụng lệnh sau:
Mã:
User-agent: * 
Disallow: /cgi-bin/
Những điều nên tránh:
+ Không sử dụng các chú thích trong file robots.txt, nó có thể làm cho các spider của search engine bị lầm lẫn. Ví dụ:

"Disallow: support # Don't index the support directory" might be misinterepreted as "Disallow: support#Don't index the support directory".


+ Không được để khoảng trắng ở đầu dòng lệnh, ví dụ:

Mã:
    User-agent: * 
Disallow: /cgi-bin/
+Không thay đổi trật tự của các dòng lệnh. Ví dụ:
Mã:
Disallow: /support 
User-agent: *
+ Không sử dụng quá một thư mục trong dòng lệnh Disallow. Ví dụ:
Mã:
 	 	User-agent: * 
Disallow: /support /cgi-bin/ /images/
Các search engine không hiểu định dạng trên. bạn nên viết thế này:

Mã:
User-agent: * 
Disallow: /support 
Disallow: /cgi-bin/ 
Disallow: /images/
+ Phải chắc chắn các mệnh đề, từ sử dụng trong lệnh là đúng. Ví dụ, thư mục của bạn là "cgi-bin" (viết thường, không viết hoa), nhưng khí vào lệnh, bạn lại viết là "Cgi-Bin" thì các spider sẽ "bó tay".

+ Không nên dùng lệnh Allow trong file robots.txt, bởi vì trong web site của bạn chắc chắn sẽ có một số trang hoặc một số thành phần bạn không muốn bị người khác "nhòm ngó". nếu bạn sử dụng lệnh Allow, tất cả mọi ngóc ngách trong web site của bạn sẽ bị index

Và đây là 1 file robots.txt mà sinhvienthamdinh.com đang sử dụng:
Mã:
User-agent: * 
#Crawl-Delay: 10
Disallow: /cgi-bin/
Disallow: /forum/admincp/ 
Disallow: /forum/modcp/ 
Disallow: /forum/clientscript/ 
Disallow: /forum/cpstyles/
Disallow: /forum/customavatars/
Disallow: /forum/customgroupicons/
Disallow: /forum/customprofilepics/ 
Disallow: /forum/files/  
Disallow: /forum/images/ 
Disallow: /forum/includes/ 
Disallow: /forum/ajax.php 
Disallow: /forum/cron.php
Disallow: /forum/attachment.php
Disallow: /forum/editpost.php 
Disallow: /forum/faq.php 
Disallow: /forum/global.php 
Disallow: /forum/image.php
Disallow: /forum/joinrequest.php 
Disallow: /forum/login.php 
Disallow: /forum/misc.php 
Disallow: /forum/moderator.php 
Disallow: /forum/newattatchment.php 
Disallow: /forum/newreply.php 
Disallow: /forum/newthread.php 
Disallow: /forum/online.php 
Disallow: /forum/payment_gateway.php
Disallow: /forum/payments.php
Disallow: /forum/poll.php 
Disallow: /forum/postings.php 
Disallow: /forum/printthread.php 
Disallow: /forum/private.php
Disallow: /forum/profile.php
Disallow: /forum/report.php 
Disallow: /forum/reputation.php 
Disallow: /forum/search.php 
Disallow: /forum/sendmessage.php 
Disallow: /forum/subcription.php 
Disallow: /forum/threadrate.php 
Disallow: /forum/usercp.php 
Disallow: /forum/usernote.php
 

Thống kê diễn đàn

Chủ đề
61,113
Bài viết
63,332
Thành viên
86,294
Thành viên mới nhất
noithatdiemnhan1

VỀ CHÚNG TÔI

  • Sinhvienthamdinh.Com là diễn đàn đầu tiên và lớn nhất dành riêng cho cộng đồng nhân lực ngành thẩm định giá. Cổng thông tin được tạo ra nhằm tạo kênh kết nối tri thức cho tất cả các bạn đã và đang quan tâm đến ngành thẩm định giá. Các thông tin được tổng hợp với đầy đủ các mảng thuộc lĩnh vực thẩm định giá như: Thẩm định giá Bất động sản, thẩm định giá động sản, thẩm định giá máy móc thiết bị, thẩm định giá doanh nghiệp, thẩm định giá dự án đầu tư, thẩm định giá thương hiệu...
  • Với phương châm "Connet For Sharing" chúng tôi chia sẻ hoàn toàn miễn phí và không giới hạn những kiến thức từ cộng đồng diễn đàn.

DANH MỤC CHÍNH

CÁ NHÂN