Tóm lại là Robots.txt

Tệp robots.txt chứa các chỉ thị cho các công cụ tìm kiếm. Bạn có thể sử dụng nó để ngăn các công cụ tìm kiếm thu thập dữ liệu các phần cụ thể trên trang web của bạn và cung cấp cho các công cụ tìm kiếm các mẹo hữu ích về cách chúng có thể thu thập dữ liệu trang web của bạn một cách tốt nhất. Tệp robots.txt đóng một vai trò lớn trong SEO.

Khi triển khai robots.txt, hãy ghi nhớ các phương pháp hay nhất sau:

  • Hãy cẩn thận khi thực hiện các thay đổi đối với tệp robots.txt của bạn: tệp này có khả năng làm cho các phần lớn trên trang web của bạn không thể truy cập được đối với các công cụ tìm kiếm.
  • Tệp robots.txt phải nằm trong thư mục gốc của trang web của bạn (ví dụ http://www.example.com/robots.txt:).
  • Tệp robots.txt chỉ hợp lệ cho tên miền đầy đủ mà nó cư trú, bao gồm cả giao thức ( httphoặc https).
  • Các công cụ tìm kiếm khác nhau diễn giải các chỉ thị khác nhau. Theo mặc định, lệnh khớp đầu tiên luôn thắng. Tuy nhiên, với Google và Bing, tính cụ thể sẽ chiến thắng.
  • Tránh sử dụng lệnh trì hoãn thu thập thông tin cho các công cụ tìm kiếm càng nhiều càng tốt.

Contents

Tệp robots.txt là gì?

Tệp robot.txt là gì? robot.txt cho các công cụ tìm kiếm biết các quy tắc tương tác trên trang web của bạn. Một phần quan trọng của việc làm SEO là gửi các tín hiệu phù hợp đến các công cụ tìm kiếm và robots.txt là một trong những cách để truyền đạt các tùy chọn thu thập thông tin của bạn tới các công cụ tìm kiếm.

Vào năm 2019, chúng ta đã thấy một số phát triển xung quanh tiêu chuẩn robots.txt: Google đã đề xuất một phần mở rộng cho Giao thức loại trừ rô bốt và mã nguồn mở trình phân tích cú pháp robots.txt của nó .

TL; DR

  • Trình thông dịch robots.txt của Google khá linh hoạt và đáng ngạc nhiên.
  • Trong trường hợp chỉ thị có sự nhầm lẫn, Google sẽ sai lầm ở các khía cạnh an toàn và giả định rằng các phần nên được hạn chế thay vì không bị hạn chế.

Các công cụ tìm kiếm thường xuyên kiểm tra tệp robots.txt của trang web để xem liệu có bất kỳ hướng dẫn nào để thu thập thông tin trang web hay không. Chúng tôi gọi đây là những chỉ thị hướng dẫn .

Nếu không có tệp robots.txt hoặc nếu không có chỉ thị hiện hành, công cụ tìm kiếm sẽ thu thập thông tin toàn bộ trang web.

Mặc dù tất cả các công cụ tìm kiếm chính đều tôn trọng tệp robots.txt, nhưng các công cụ tìm kiếm có thể chọn bỏ qua (các phần của) tệp robots.txt của bạn. Mặc dù các lệnh trong tệp robots.txt là một tín hiệu mạnh mẽ đối với các công cụ tìm kiếm, nhưng điều quan trọng cần nhớ là tệp robots.txt là một tập hợp các lệnh tùy chọn cho các công cụ tìm kiếm chứ không phải là một nhiệm vụ.

Tệp robots.txt là tệp nhạy cảm nhất trong thế giới SEO. Một ký tự duy nhất có thể phá vỡ toàn bộ trang web.

Thí dụ

Hãy xem một ví dụ để minh họa điều này:

Bạn đang chạy một trang web Thương mại điện tử và khách truy cập có thể sử dụng bộ lọc để nhanh chóng tìm kiếm các sản phẩm của bạn. Bộ lọc này tạo ra các trang về cơ bản hiển thị nội dung giống như các trang khác. Điều này mang lại hiệu quả tốt cho người dùng, nhưng lại gây nhầm lẫn cho công cụ tìm kiếm vì nó tạo ra nội dung trùng lặp . Bạn không muốn các công cụ tìm kiếm lập chỉ mục các trang được lọc này và lãng phí thời gian quý báu của họ trên các URL có nội dung được lọc này. Do đó, bạn nên thiết lập Disallowcác quy tắc để các công cụ tìm kiếm không truy cập các trang sản phẩm được lọc này.

Việc ngăn nội dung trùng lặp cũng có thể được thực hiện bằng cách sử dụng URL chuẩn hoặc thẻ meta rô bốt, tuy nhiên, những điều này không giải quyết được việc cho phép các công cụ tìm kiếm chỉ thu thập dữ liệu các trang quan trọng. Việc sử dụng URL chuẩn hoặc thẻ meta rô bốt sẽ không ngăn các công cụ tìm kiếm thu thập thông tin các trang này . Nó sẽ chỉ ngăn các công cụ tìm kiếm hiển thị các trang này trong kết quả tìm kiếm . Vì các công cụ tìm kiếm có thời gian giới hạn để thu thập thông tin một trang web , thời gian này nên được dành cho các trang mà bạn muốn xuất hiện trong các công cụ tìm kiếm.

Tệp robots.txt trông như thế nào?

Ví dụ về tệp robots.txt đơn giản cho trang web WordPress có thể trông như thế nào:

User-agent: *
Disallow: /wp-admin/

Hãy giải thích cấu trúc của tệp robots.txt dựa trên ví dụ trên:

  • Tác nhân người dùng: user-agentchỉ thị cho các công cụ tìm kiếm các chỉ thị tuân theo có nghĩa là.
  • *: điều này chỉ ra rằng các chỉ thị dành cho tất cả các công cụ tìm kiếm.
  • Disallow: đây là một chỉ thị cho biết nội dung nào không thể truy cập vào user-agent.
  • /wp-admin/: đây là pathcái không thể truy cập được đối với user-agent.

Tóm lại: tệp robots.txt này yêu cầu tất cả các công cụ tìm kiếm tránh xa /wp-admin/thư mục.

Hãy phân tích chi tiết hơn các thành phần khác nhau của tệp robots.txt:

  • Đại lý người dùng
  • Không cho phép
  • Cho phép
  • Sơ đồ trang web
  • Trễ thu thập thông tin

Tác nhân người dùng trong robots.txt

Mỗi công cụ tìm kiếm nên xác định chính họ với một user-agentGooglebotVí dụ, rô bốt của Google nhận dạng , rô bốt của Yahoo và rô bốt Slurpcủa Bing BingBot, v.v.

Bản user-agentghi xác định sự bắt đầu của một nhóm chỉ thị. Tất cả các chỉ thị ở giữa bản ghi đầu tiên user-agentvà user-agentbản ghi tiếp theo được coi là chỉ thị cho bản ghi đầu tiên user-agent.

Các chỉ thị có thể áp dụng cho các tác nhân người dùng cụ thể, nhưng chúng cũng có thể áp dụng cho tất cả các tác nhân người dùng. Trong trường hợp đó, một ký tự đại diện là đã qua sử dụng: User-agent: *.

Không cho phép chỉ thị trong robots.txt

Bạn có thể yêu cầu các công cụ tìm kiếm không truy cập vào các tệp, trang hoặc phần nhất định trên trang web của bạn. Điều này được thực hiện bằng cách sử dụng Disallowchỉ thị. Theo sau Disallowchỉ thị là pathkhông nên truy cập. Nếu không pathđược xác định, chỉ thị sẽ bị bỏ qua.

Thí dụ

User-agent: *
Disallow: /wp-admin/

Trong ví dụ này, tất cả các công cụ tìm kiếm được yêu cầu không được truy cập vào /wp-admin/thư mục.

Cho phép chỉ thị trong robots.txt

Các Allowchỉ thị được sử dụng để chống lại một Disallowchỉ thị. Lệnh Allownày được hỗ trợ bởi Google và Bing. Sử dụng các lệnh Allowvà Disallowcùng nhau, bạn có thể cho các công cụ tìm kiếm biết rằng chúng có thể truy cập vào một tệp hoặc trang cụ thể trong một thư mục không được phép. Theo sau Allowchỉ thị là pathcó thể được truy cập. Nếu không pathđược xác định, chỉ thị sẽ bị bỏ qua.

Thí dụ

User-agent: *
Allow: /media/terms-and-conditions.pdf
Disallow: /media/

Trong ví dụ trên, tất cả các công cụ tìm kiếm không được phép truy cập vào /media/thư mục, ngoại trừ tệp /media/terms-and-conditions.pdf.

Quan trọng: khi sử dụng Allowvà Disallowcác lệnh cùng nhau, hãy đảm bảo không sử dụng các ký tự đại diện vì điều này có thể dẫn đến các lệnh xung đột.

Ví dụ về các chỉ thị xung đột

User-agent: *
Allow: /directory
Disallow: *.html

Các công cụ tìm kiếm sẽ không biết phải làm gì với URL http://www.domain.com/directory.html. Không rõ họ có được phép truy cập hay không. Khi các chỉ thị không rõ ràng với Google, chúng sẽ sử dụng chỉ thị ít hạn chế nhất, trong trường hợp này có nghĩa là trên thực tế, chúng sẽ có quyền truy cập http://www.domain.com/directory.html.

Một dòng riêng biệt cho mỗi chỉ thị

Mỗi chỉ thị phải nằm trên một dòng riêng biệt, nếu không công cụ tìm kiếm có thể bị nhầm lẫn khi phân tích cú pháp tệp robots.txt.

Ví dụ về tệp robots.txt không chính xác

Ngăn chặn tệp robots.txt như thế này:

User-agent: * Disallow: /directory-1/ Disallow: /directory-2/ Disallow: /directory-3/

Sử dụng ký tự đại diện *

Không chỉ có thể sử dụng ký tự đại diện để xác định user-agent, nó còn có thể được sử dụng để đối sánh các URL. Ký tự đại diện được hỗ trợ bởi Google, Bing, Yahoo và Ask.

Thí dụ

User-agent: *
Disallow: *?

Trong ví dụ trên, tất cả các công cụ tìm kiếm không được phép truy cập vào các URL bao gồm dấu chấm hỏi ( ?).

Sử dụng cuối URL $

Để biểu thị phần cuối của một URL, bạn có thể sử dụng ký hiệu đô la ( $) ở cuối path.

Thí dụ

User-agent: *
Disallow: *.php$

Trong ví dụ trên, các công cụ tìm kiếm không được phép truy cập vào tất cả các URL kết thúc bằng .php. URL có tham số, ví dụ: https://example.com/page.php?lang=ensẽ không được phép, vì URL không kết thúc sau đó .php.

Thêm sơ đồ trang web vào robots.txt

Mặc dù tệp robots.txt được phát minh để cho các công cụ tìm kiếm biết những trang nào không được thu thập thông tin , tệp robots.txt cũng có thể được sử dụng để trỏ các công cụ tìm kiếm tới sơ đồ trang XML . Điều này được hỗ trợ bởi Google, Bing, Yahoo và Ask.

Sơ đồ trang web XML phải được tham chiếu như một URL tuyệt đối. URL không nhất thiết phải nằm trên cùng một máy chủ lưu trữ với tệp robots.txt.

Tham chiếu sơ đồ trang XML trong tệp robots.txt là một trong những phương pháp hay nhất mà chúng tôi khuyên bạn nên luôn làm, mặc dù bạn có thể đã gửi sơ đồ trang XML của mình trong Google Search Console hoặc Bing Webmaster Tools. Hãy nhớ rằng, có nhiều công cụ tìm kiếm hơn ngoài kia.

Xin lưu ý rằng có thể tham chiếu nhiều sơ đồ trang XML trong một tệp robots.txt.

Ví dụ

Nhiều sơ đồ trang web XML được xác định trong tệp robots.txt:

User-agent: *
Disallow: /wp-admin/
Sitemap: https://www.example.com/sitemap1.xml
Sitemap: https://www.example.com/sitemap2.xml

Ví dụ trên cho tất cả các công cụ tìm kiếm không được truy cập vào thư mục /wp-admin/và có hai sơ đồ trang XML có thể được tìm thấy tại https://www.example.com/sitemap1.xmlvà https://www.example.com/sitemap2.xml.

Một sơ đồ trang XML duy nhất được xác định trong tệp robots.txt:

User-agent: *
Disallow: /wp-admin/

Sitemap: https://www.example.com/sitemap_index.xml

Ví dụ trên cho tất cả các công cụ tìm kiếm không được truy cập vào thư mục /wp-admin/và sơ đồ trang web XML có thể được tìm thấy tại https://www.example.com/sitemap_index.xml.

Bình luận

Các chú thích được đặt trước một #và có thể được đặt ở đầu một dòng hoặc sau một chỉ thị trên cùng một dòng. Mọi thứ sau ý #muốn đều bị bỏ qua. Những bình luận này chỉ dành cho con người.

ví dụ 1

# Don't allow access to the /wp-admin/ directory for all robots.
User-agent: *
Disallow: /wp-admin/

Ví dụ 2

User-agent: * #Applies to all robots
Disallow: /wp-admin/ # Don't allow access to the /wp-admin/ directory.

Các ví dụ trên truyền đạt cùng một thông điệp.

Trễ thu thập thông tin trong robots.txt

Các Crawl-delaychỉ thị là một chỉ thị không chính thức sử dụng để ngăn chặn các máy chủ quá tải với quá nhiều yêu cầu. Nếu các công cụ tìm kiếm có thể làm quá tải máy chủ, thì việc thêm Crawl-delayvào tệp robots.txt của bạn chỉ là một giải pháp khắc phục tạm thời. Thực tế của vấn đề là, trang web của bạn đang chạy trên một môi trường lưu trữ kém và / hoặc trang web của bạn được định cấu hình không chính xác, và bạn nên sửa lỗi đó càng sớm càng tốt.

Cách công cụ tìm kiếm xử lý Crawl-delaykhác nhau. Dưới đây chúng tôi giải thích cách các công cụ tìm kiếm chính xử lý nó.

Trễ thu thập thông tin và Google

Trình thu thập thông tin của Google, Googlebot, không hỗ trợ lệnh Crawl-delay, vì vậy đừng bận tâm đến việc xác định độ trễ thu thập thông tin của Google.

Tuy nhiên, Google có hỗ trợ xác định tốc độ thu thập dữ liệu (hoặc “tốc độ yêu cầu” nếu bạn muốn) trong Google Search Console.

Đặt tốc độ thu thập thông tin trong GSC
  1. Đăng nhập vào Google Search Console cũ .
  2. Chọn trang web bạn muốn xác định tốc độ thu thập dữ liệu.
  3. Bạn chỉ có thể điều chỉnh một cài đặt:, Crawl ratevới một thanh trượt, nơi bạn có thể đặt tốc độ thu thập dữ liệu ưa thích. Theo mặc định, tốc độ thu thập dữ liệu được đặt thành “Để Google tối ưu hóa cho trang web của tôi (được khuyến nghị)”.

Đây là những gì trông giống như trong Google Search Console:

Độ trễ thu thập thông tin và Bing, Yahoo và Yandex

Bing, Yahoo và Yandex đều hỗ trợ Crawl-delaychỉ thị để giảm tốc độ thu thập dữ liệu của một trang web. Tuy nhiên, cách hiểu của họ về độ trễ thu thập thông tin hơi khác nhau, vì vậy hãy nhớ kiểm tra tài liệu của họ:

  • Bing và Yahoo
  • Yandex

Các Crawl-delaychỉ thị nên được đặt ngay sau khi Disallowhoặc Allowchỉ thị.

Thí dụ:

User-agent: BingBot
Disallow: /private/
Crawl-delay: 10

Trễ thu thập thông tin và Baidu

Baidu không hỗ trợ lệnh crawl-delaynày, tuy nhiên bạn có thể đăng ký tài khoản Công cụ quản trị trang web Baidu để bạn có thể kiểm soát tần suất thu thập thông tin, tương tự như Google Search Console.

Khi nào sử dụng tệp robots.txt?

Chúng tôi khuyên bạn nên luôn sử dụng tệp robots.txt. Hoàn toàn không có hại khi có một cái và đó là một nơi tuyệt vời để cung cấp các chỉ thị của công cụ tìm kiếm về cách chúng có thể thu thập dữ liệu trang web của bạn một cách tốt nhất.

Các phương pháp hay nhất về Robots.txt

Các phương pháp hay nhất trong robots.txt được phân loại như sau:

  • Vị trí và tên tệp
  • Thứ tự ưu tiên
  • Chỉ một nhóm lệnh cho mỗi robot
  • Càng cụ thể càng tốt
  • Chỉ thị cho tất cả rô bốt đồng thời bao gồm chỉ thị cho một rô bốt cụ thể
  • Tệp Robots.txt cho mỗi miền (con).
  • Nguyên tắc xung đột: robots.txt so với Google Search Console
  • Theo dõi tệp robots.txt của bạn
  • Không sử dụng noindex trong robots.txt của bạn
  • Ngăn UTF-8 BOM trong tệp robots.txt

Vị trí và tên tệp

Các tập tin robots.txt nên luôn luôn được đặt trong rootcủa một trang web (trong thư mục cấp cao nhất của chủ nhà) và mang tên tập tin robots.txt, ví dụ: https://www.example.com/robots.txt. Lưu ý rằng URL cho tệp robots.txt, giống như bất kỳ URL nào khác, phân biệt chữ hoa chữ thường.

Nếu không tìm thấy tệp robots.txt ở vị trí mặc định, các công cụ tìm kiếm sẽ cho rằng không có chỉ thị nào và thu thập dữ liệu trên trang web của bạn.

Thứ tự ưu tiên

Điều quan trọng cần lưu ý là các công cụ tìm kiếm xử lý các tệp robots.txt theo cách khác nhau. Theo mặc định, lệnh khớp đầu tiên luôn thắng .

Tuy nhiên, với đặc thù của Google và Bing sẽ thắng . Ví dụ: một Allowchỉ thị thắng một Disallowchỉ thị nếu độ dài ký tự của nó dài hơn.

Thí dụ

User-agent: *
Allow: /about/company/
Disallow: /about/

Trong ví dụ trên, tất cả các công cụ tìm kiếm, bao gồm cả Google và Bing không được phép truy cập vào /about/thư mục, ngoại trừ thư mục con /about/company/.

Thí dụ

User-agent: *
Disallow: /about/
Allow: /about/company/

Trong ví dụ trên, tất cả các công cụ tìm kiếm ngoại trừ Google và Bing , không được phép truy cập vào /about/thư mục. Điều đó bao gồm thư mục /about/company/.

Google và Bing được phép truy cập vì Allowchỉ thị dài hơn Disallowchỉ thị.

Chỉ một nhóm lệnh cho mỗi robot

Bạn chỉ có thể xác định một nhóm lệnh cho mỗi công cụ tìm kiếm. Việc có nhiều nhóm chỉ thị cho một công cụ tìm kiếm sẽ khiến họ bối rối.

Càng cụ thể càng tốt

Lệnh Disallownày cũng kích hoạt trên các kết quả phù hợp từng phần. Hãy càng cụ thể càng tốt khi xác định Disallowchỉ thị để ngăn việc vô ý không cho phép truy cập vào tệp.

Thí dụ:

User-agent: *
Disallow: /directory

Ví dụ trên không cho phép các công cụ tìm kiếm truy cập vào:

  • /directory
  • /directory/
  • /directory-name-1
  • /directory-name.html
  • /directory-name.php
  • /directory-name.pdf

Chỉ thị cho tất cả rô bốt đồng thời bao gồm chỉ thị cho một rô bốt cụ thể

Đối với rô bốt, chỉ một nhóm lệnh là hợp lệ. Trong trường hợp các chỉ thị dành cho tất cả các rô bốt được tuân theo các chỉ thị dành cho một rô bốt cụ thể, thì chỉ những chỉ thị cụ thể này mới được xem xét. Để rô bốt cụ thể cũng tuân theo các lệnh cho tất cả rô bốt, bạn cần lặp lại các lệnh này cho rô bốt cụ thể.

Hãy xem một ví dụ sẽ làm rõ điều này:

Thí dụ

User-agent: *
Disallow: /secret/
Disallow: /test/
Disallow: /not-launched-yet/

User-agent: googlebot
Disallow: /not-launched-yet/

Trong ví dụ trên tất cả các công cụ tìm kiếm ngoại trừ Google không được phép truy cập /secret//test/và /not-launched-yet/. Google chỉ không được phép truy cập vào /not-launched-yet/, nhưng được phép truy cập vào /secret/và /test/.

Nếu bạn không muốn googlebot truy cập /secret/và /not-launched-yet/sau đó bạn cần lặp lại các lệnh này cho googlebotcụ thể:

User-agent: *
Disallow: /secret/
Disallow: /test/
Disallow: /not-launched-yet/

User-agent: googlebot
Disallow: /secret/
Disallow: /not-launched-yet/

Xin lưu ý rằng tệp robots.txt của bạn có sẵn công khai. Việc không cho phép các phần của trang web trong đó có thể được sử dụng như một vectơ tấn công bởi những người có ý đồ xấu.

Tệp Robots.txt cho mỗi miền (con)

Lệnh robots.txt chỉ áp dụng cho miền (phụ) mà tệp được lưu trữ trên đó.

Ví dụ

http://example.com/robots.txtlà hợp lệ cho http://example.com, nhưng không cho http://www.example.comhoặc https://example.com.

Cách tốt nhất là chỉ có một tệp robots.txt có sẵn trên miền (phụ) của bạn.

Nếu bạn có sẵn nhiều tệp robots.txt, hãy đảm bảo rằng chúng trả về trạng thái HTTP 404 hoặc chuyển hướng 301 đến tệp robots.txt chuẩn.

Nguyên tắc xung đột: robots.txt so với Google Search Console

Trong trường hợp tệp robots.txt của bạn xung đột với cài đặt được xác định trong Google Search Console, Google thường chọn sử dụng cài đặt được xác định trong Google Search Console thay vì các lệnh được xác định trong tệp robots.txt.

Theo dõi tệp robots.txt của bạn

Điều quan trọng là phải theo dõi tệp robots.txt của bạn để biết các thay đổi. Tại ContentKing, chúng tôi gặp rất nhiều vấn đề trong đó các chỉ thị không chính xác và các thay đổi đột ngột đối với tệp robots.txt gây ra các vấn đề nghiêm trọng về SEO.

Điều này đúng đặc biệt khi khởi chạy các tính năng mới hoặc một trang web mới đã được chuẩn bị trên môi trường thử nghiệm, vì những tính năng này thường chứa tệp robots.txt sau:

User-agent: *
Disallow: /

Chúng tôi đã xây dựng tính năng theo dõi và cảnh báo thay đổi trong robots.txt vì lý do này.

Không sử dụng noindex trong robots.txt của bạn

Trong nhiều năm, Google đã công khai khuyến cáo không nên sử dụng chỉ thị ngăn lập chỉ mục không chính thức . Tuy nhiên, kể từ ngày 1 tháng 9 năm 2019, Google đã ngừng hỗ trợ hoàn toàn .

Lệnh noindex không chính thức không bao giờ hoạt động trong Bing, như đã được xác nhận bởi Frédéric Dubut trong tweet này :

Cách tốt nhất để báo hiệu cho các công cụ tìm kiếm rằng các trang không nên được lập chỉ mục là sử dụng thẻ meta robots hoặc X-Robots-Tag .

Ngăn UTF-8 BOM trong tệp robots.txt

BOM là viết tắt của dấu thứ tự byte , một ký tự ẩn ở đầu tệp được sử dụng để chỉ mã hóa Unicode của tệp văn bản.

Mặc dù Google tuyên bố rằng họ bỏ qua dấu thứ tự byte Unicode tùy chọn ở đầu tệp robots.txt, chúng tôi khuyên bạn nên ngăn “UTF-8 BOM” vì chúng tôi đã thấy nó gây ra vấn đề với việc giải thích tệp robots.txt bằng cách tìm kiếm động cơ.

Mặc dù Google nói rằng họ có thể đối phó với nó, nhưng đây là hai lý do để ngăn UTF-8 BOM:

  1. Bạn không muốn có bất kỳ sự mơ hồ nào về sở thích của mình xung quanh việc thu thập thông tin đến các công cụ tìm kiếm.
  2. Có những công cụ tìm kiếm khác ngoài kia, có thể không dễ dàng như Google tuyên bố.

Ví dụ về Robots.txt

Trong chương này, chúng tôi sẽ trình bày một loạt các ví dụ về tệp robots.txt:

  • Cho phép tất cả rô bốt truy cập vào mọi thứ
  • Không cho phép tất cả rô bốt truy cập vào mọi thứ
  • Tất cả các bot của Google không có quyền truy cập
  • Tất cả các bot của Google, ngoại trừ tin tức Googlebot không có quyền truy cập
  • Googlebot và Slurp không có bất kỳ quyền truy cập nào
  • Tất cả các rô bốt không có quyền truy cập vào hai thư mục
  • Tất cả rô bốt không có quyền truy cập vào một tệp cụ thể
  • Googlebot không có quyền truy cập vào / admin / và Slurp không có quyền truy cập vào / private /
  • Tệp Robots.txt dành cho WordPress
  • Tệp Robots.txt dành cho Magento

Cho phép tất cả rô bốt truy cập vào mọi thứ

Có nhiều cách để cho các công cụ tìm kiếm biết rằng họ có thể truy cập tất cả các tệp:

User-agent: *
Disallow:

Hoặc có tệp robots.txt trống hoặc hoàn toàn không có tệp robots.txt.

Không cho phép tất cả rô bốt truy cập vào mọi thứ

Ví dụ về robots.txt bên dưới cho tất cả các công cụ tìm kiếm không được truy cập vào toàn bộ trang web:

User-agent: *
Disallow: /

Xin lưu ý rằng chỉ cần MỘT ký tự phụ có thể tạo ra tất cả sự khác biệt.

Tất cả các bot của Google không có quyền truy cập

User-agent: googlebot
Disallow: /

Xin lưu ý rằng khi không cho phép Googlebot, điều này sẽ áp dụng cho tất cả các Googlebot. Điều đó bao gồm các rô bốt của Google, chẳng hạn như tìm kiếm tin tức ( googlebot-news) và hình ảnh ( googlebot-images).

Tất cả các bot của Google, ngoại trừ tin tức Googlebot không có quyền truy cập

User-agent: googlebot
Disallow: /

User-agent: googlebot-news
Disallow:

Googlebot và Slurp không có bất kỳ quyền truy cập nào

User-agent: Slurp
User-agent: googlebot
Disallow: /

Tất cả các rô bốt không có quyền truy cập vào hai thư mục

User-agent: *
Disallow: /admin/
Disallow: /private/

Tất cả rô bốt không có quyền truy cập vào một tệp cụ thể

User-agent: *
Disallow: /directory/some-pdf.pdf

Googlebot không có quyền truy cập vào / admin / và Slurp không có quyền truy cập vào / private /

User-agent: googlebot
Disallow: /admin/

User-agent: Slurp
Disallow: /private/
Các câu hỏi thường gặp
  • Bạn có tệp mẫu robots.txt không?

Tệp Robots.txt dành cho WordPress

Tệp robots.txt bên dưới được tối ưu hóa đặc biệt cho WordPress, giả sử:

  • Bạn không muốn thu thập thông tin phần quản trị viên của mình.
  • Bạn không muốn thu thập thông tin các trang kết quả tìm kiếm nội bộ của mình.
  • Bạn không muốn thu thập thông tin thẻ và trang tác giả của mình.
  • Bạn không muốn thu thập thông tin trang 404 của mình.
User-agent: *
Disallow: /wp-admin/ #block access to admin section
Disallow: /wp-login.php #block access to admin section
Disallow: /search/ #block access to internal search result pages
Disallow: *?s=* #block access to internal search result pages
Disallow: *?p=* #block access to pages for which permalinks fails
Disallow: *&p=* #block access to pages for which permalinks fails
Disallow: *&preview=* #block access to preview pages
Disallow: /tag/ #block access to tag pages
Disallow: /author/ #block access to author pages
Disallow: /404-error/ #block access to 404 page

Sitemap: https://www.example.com/sitemap_index.xml

Xin lưu ý rằng tệp robots.txt này sẽ hoạt động trong hầu hết các trường hợp, nhưng bạn phải luôn điều chỉnh và kiểm tra nó để đảm bảo rằng nó áp dụng cho trường hợp chính xác của bạn.

Tệp Robots.txt dành cho Magento

Các tập tin robots.txt dưới đây được tối ưu hóa đặc biệt cho Magento, và sẽ làm cho kết quả nội bộ tìm kiếm, các trang đăng nhập, định danh phiên và bộ kết quả lọc có chứa pricecolormaterialvà sizetiêu chí không thể tiếp cận để thu thập.

User-agent: *
Disallow: /catalogsearch/
Disallow: /search/
Disallow: /customer/account/login/
Disallow: /*?SID=
Disallow: /*?PHPSESSID=
Disallow: /*?price=
Disallow: /*&price=
Disallow: /*?color=
Disallow: /*&color=
Disallow: /*?material=
Disallow: /*&material=
Disallow: /*?size=
Disallow: /*&size=

Sitemap: https://www.example.com/sitemap_index.xml

Xin lưu ý rằng tệp robots.txt này sẽ hoạt động với hầu hết các cửa hàng Magento, nhưng bạn phải luôn điều chỉnh và kiểm tra nó để đảm bảo rằng nó áp dụng cho trường hợp chính xác của bạn.

Những hạn chế của tệp robots.txt là gì?

Tệp Robots.txt chứa các lệnh

Mặc dù robots.txt được các công cụ tìm kiếm tôn trọng, nhưng nó vẫn là một chỉ thị chứ không phải là nhiệm vụ.

Các trang vẫn xuất hiện trong kết quả tìm kiếm

Các trang không thể truy cập được đối với công cụ tìm kiếm do robots.txt, nhưng có liên kết đến chúng vẫn có thể xuất hiện trong kết quả tìm kiếm nếu chúng được liên kết từ một trang được thu thập thông tin. Một ví dụ về cái này trông như thế nào:

Mô tả của Google không có tệp robots.txt

Chú giải: có thể xóa các URL này khỏi Google bằng công cụ xóa URL của Google Search Console. Xin lưu ý rằng những URL này sẽ chỉ bị xóa tạm thời. Để chúng không xuất hiện trên các trang kết quả của Google, bạn cần xóa URL sau 180 ngày một lần.

Tệp Robots.txt được lưu vào bộ nhớ đệm tối đa 24 giờ

Google đã chỉ ra rằng tệp robots.txt thường được lưu vào bộ nhớ cache trong tối đa 24 giờ. Điều quan trọng là phải xem xét điều này khi bạn thực hiện các thay đổi trong tệp robots.txt của mình.

Không rõ các công cụ tìm kiếm khác xử lý như thế nào với bộ nhớ đệm của robots.txt, nhưng nói chung, tốt nhất là tránh lưu vào bộ đệm tệp robots.txt của bạn để tránh các công cụ tìm kiếm mất nhiều thời gian hơn cần thiết để có thể nhận các thay đổi.

Kích thước tệp Robots.txt

Đối với tệp robots.txt, Google hiện hỗ trợ giới hạn kích thước tệp là 500 kibibyte (512 kilobyte). Mọi nội dung sau kích thước tệp tối đa này có thể bị bỏ qua.

Không rõ liệu các công cụ tìm kiếm khác có kích thước tệp tối đa cho tệp robots.txt hay không.

Câu hỏi thường gặp về robots.txt

🤖 Ví dụ về tệp robots.txt trông như thế nào?

Đây là ví dụ về nội dung của robots.txt: Tác nhân người dùng: * Disallow:. Điều này cho tất cả các trình thu thập thông tin rằng họ có thể truy cập mọi thứ.

⛔ Tất cả Disallow làm được gì trong robots.txt?

Khi bạn đặt tệp robots.txt thành “Không cho phép tất cả”, về cơ bản bạn đang yêu cầu tất cả các trình thu thập thông tin lưu ý. Không có trình thu thập thông tin nào, kể cả Google, được phép truy cập vào trang web của bạn. Điều này có nghĩa là họ sẽ không thể thu thập thông tin, lập chỉ mục và xếp hạng trang web của bạn. Điều này sẽ dẫn đến lượng truy cập tự nhiên giảm mạnh.

✅ Cho phép tất cả làm gì trong robots.txt?

Khi bạn đặt tệp robots.txt thành “Cho phép tất cả”, bạn cho mọi trình thu thập thông tin biết họ có thể truy cập mọi URL trên trang web. Đơn giản là không có quy tắc ban hành. Xin lưu ý rằng điều này tương đương với việc có tệp robots.txt trống hoặc hoàn toàn không có tệp robots.txt.

🤔 robots.txt quan trọng như thế nào đối với SEO?

Nói chung, tệp robots.txt rất quan trọng cho mục đích SEO. Đối với các trang web lớn hơn, robots.txt là điều cần thiết để cung cấp cho các công cụ tìm kiếm hướng dẫn rất rõ ràng về nội dung nào không được truy cập.

LEAVE A REPLY

Please enter your comment!
Please enter your name here