Robots.txt là nơi để quản trị viên web định cấu hình hướng dẫn rô bốt web (thường là rô bốt công cụ tìm kiếm) cách thu thập dữ liệu các trang trên trang web của họ.

Trên thực tế, các tệp robot.txt cho biết liệu một số tác nhân người dùng (trình thu thập thông tin web) có thể thu thập thông tin các phần của trang web hay không. Các hướng dẫn này được chỉ định bằng cú pháp không cho phép tác nhân người dùng thu thập dữ liệu.

1. Tệp robots.txt là gì?

Robots.txt là một tập tin văn bản để người quản trị website khai báo có cho phép công cụ tìm kiếm BOT (user-agent) thu thập thông tin (crawl) trong tài nguyên của một website hay không.

Tệp này được sử dụng để ngăn trình thu thập thông tin yêu cầu trang web của bạn quá nhiều, nó không phải là cơ chế để ẩn trang web khỏi Google. Để ẩn một trang web khỏi Google, bạn nên sử dụng lệnh noindex với thẻ meta rô bốt hoặc mật khẩu bảo vệ trang web của bạn cho một trang web.

 

robot.txt-la-gi
Cách tạo file Robots.txt chuẩn SEO

1.1 Tại sao bạn cần robots.txt?

Tệp Robots.txt kiểm soát quyền truy cập của trình thu thập thông tin vào các khu vực nhất định trên trang web của bạn. Mặc dù điều này có thể rất rủi ro nếu bạn vô tình không cho phép Googlebot thu thập dữ liệu toàn bộ trang web của bạn (!!), nhưng có một số tình huống mà tệp robot.txt có thể rất hữu ích.

Một số trường hợp sử dụng phổ biến bao gồm:

  • Ngăn nội dung trùng lặp xuất hiện trong SERP (lưu ý rằng meta rô bốt thường là lựa chọn tốt hơn cho việc này)
  • Giữ tất cả các phần của trang web ở chế độ riêng tư
  • Giữ cho các trang kết quả tìm kiếm nội bộ không hiển thị trên SERPs công khai
  • Chỉ định vị trí của sơ đồ trang web
  • Ngăn các công cụ tìm kiếm lập chỉ mục các tệp nhất định trên trang web của bạn (hình ảnh, PDF, v.v.)
  • Chỉ định độ trễ thu thập thông tin để ngăn máy chủ của bạn không bị quá tải khi trình thu thập thông tin tải nhiều phần nội dung cùng một lúc

Nếu không có khu vực nào trên trang web của bạn mà bạn muốn kiểm soát quyền truy cập của tác nhân người dùng, bạn hoàn toàn không cần tệp robot.txt.

 

1.2 Định dạng cơ bản:

  • User-agent: [user-agent name]
  • Disallow: [URL string not to be crawled]

2 dòng này được coi là một tệp robot.txt hoàn chỉnh – mặc dù một tệp rô-bốt có thể chứa nhiều dòng tác nhân và chỉ thị người dùng (tức là Disallow (không cho phép), Allown (cho phép), thu thập dữ liệu trễ, v.v.).

Trong tệp robot.txt, mỗi chỉ thị tác nhân người dùng xuất hiện dưới dạng một tập hợp riêng biệt, được phân tách bằng dấu ngắt dòng:

 

user-agent-xuat-hien-duoi-dang-file-robots.txt

 

Thiết lập 3 nhóm tác nhân người dùng riêng biệt được phân tách bằng 1 dòng trống
Đây là một ví dụ:
vi-du-robots.txt
Msnbot, Discobot và Slurp đều được gọi cụ thể, vì vậy những tác nhân người dùng đó sẽ chỉ chú ý đến các lệnh trong các phần của tệp robot.txt. Tất cả các tác nhân người dùng khác sẽ tuân theo các lệnh trong nhóm tác nhân người dùng: *.
  1. buzzfeed.com muốn msnbot ngừng chờ 120 mili giây sau mỗi lần thu thập dữ liệu 1 trang và không được thu thập dữ liệu các chuỗi URL được liệt kê trong cú pháp.
  2. Tất cả tác nhân người dùng (ngoại trừ msnbot, Discobot, Slurp) không được phép thu thập dữ liệu URL có cú pháp được liệt kê.
  3. Discobot sẽ không được phép thu thập thông tin bất kỳ URL nào của nguồn cấp dữ liệu buzzfeed
  4. Slurp (tác nhân người dùng yahoo) sẽ phải đợi 4 mili giây sau mỗi lần thu thập thông tin, tất cả các URL của Buzzfeed.com đều được thu thập thông tin.

1.3 Tác nhân user-agent phổ biến của công cụ tìm kiếm

Dưới đây là danh sách các tác nhân người dùng mà bạn có thể sử dụng trong tệp robot.txt của mình để khớp với các công cụ tìm kiếm được sử dụng phổ biến nhất:
danh-sach-user-agent

1.4 Ví dụ robot.txt:

Dưới đây là một số ví dụ về robots.txt đang hoạt động cho trang web www.example.com:
URL của tệp Robots.txt: www.example.com/robots.txt

1.5 Chặn tất cả trình thu thập dữ liệu web khỏi tất cả nội dung

User-agent: * Disallow: /

Việc sử dụng cú pháp này trong tệp robot.txt sẽ yêu cầu tất cả trình thu thập thông tin web không thu thập thông tin bất kỳ trang nào trên www.example.com, bao gồm cả trang chủ.

1.6 Cho phép tất cả các trình thu thập thông tin web truy cập tất cả nội dung

User-agent: *

Disallow:

Việc sử dụng cú pháp này trong tệp robot.txt sẽ yêu cầu trình thu thập thông tin web thu thập thông tin tất cả các trang trên www.example.com, bao gồm cả trang chủ.

 

1.7 Chặn một trình thu thập thông tin web cụ thể khỏi một thư mục cụ thể

User-agent: Googlebot

Disallow: /example-subfolder/

Cú pháp này chỉ cho trình thu thập thông tin của Google (tên tác nhân người dùng Googlebot) không thu thập thông tin bất kỳ trang nào có chứa chuỗi URL www.example.com/example-subipes … trình thu thập thông tin dành riêng cho web từ một trang web cụ thể

User-agent: Bingbot

Disallow: /example-subfolder/blocked-page.html

Cú pháp này chỉ dành cho trình thu thập thông tin của Bing (tên tác nhân người dùng Bing) để tránh thu thập thông tin theo trang cụ thể tại www.example.com/example-subipes … robot.txt có hoạt động không?
Công cụ tìm kiếm có hai công việc chính:
  • Thu thập thông tin: Thu thập thông tin trên web để khám phá nội dung;
  • Lập chỉ mục (Indexing): Lập chỉ mục nội dung để nó có thể được phục vụ cho những người tìm kiếm đang tìm kiếm thông tin.
Để thu thập thông tin một trang web, các công cụ tìm kiếm đi theo các liên kết để đi từ trang này sang trang khác – cuối cùng, thu thập thông tin qua hàng tỷ liên kết và trang web. Sự thu thập này đôi khi được gọi là hành động thêu thùa.
Sau khi đến một trang web nhưng trước khi xem nó, trình thu thập thông tin tìm kiếm sẽ tìm tệp robot.txt. Nếu tìm thấy tệp này, trình thu thập thông tin sẽ đọc tệp đó trước khi tiếp tục qua trang. Vì tệp robot.txt chứa thông tin về cách công cụ tìm kiếm sẽ thu thập thông tin, thông tin tìm thấy ở đó sẽ hướng dẫn các hành động khác của trình thu thập thông tin trên trang web cụ thể này.
Nếu tệp robot.txt không chứa bất kỳ chỉ thị nào không cho phép hoạt động của tác nhân người dùng (hoặc nếu trang web không có tệp robot.txt), nó sẽ tiến hành thu thập thông tin khác trên trang web.
Một số lưu ý khác về Robot.txt bạn phải biết:
  • Để được tìm thấy, tệp robot.txt phải được đặt trong thư mục cấp cao nhất (gốc) của trang web.
  • txt phân biệt chữ hoa chữ thường: tệp phải được đặt tên là robot.txt (không phải Robots.txt, robot.TXT, hoặc các tên khác).
  • Một số tác nhân người dùng (rô bốt) có thể chọn bỏ qua tệp robot.txt của bạn. Điều này đặc biệt phổ biến với nhiều trình thu thập thông tin bất chính như rô bốt phần mềm độc hại hoặc trình dọn dẹp địa chỉ email.
  • Mỗi miền phụ trên miền gốc sử dụng các tệp robot.txt riêng biệt. Điều này có nghĩa là cả blog.example.com và example.com đều phải có tệp robot.txt của riêng chúng (tại blog.example.com/robots.txt và example.com/robots.txt).
  • Phương pháp hay nhất để hiển thị vị trí của bất kỳ sơ đồ trang web nào được liên kết với miền này ở cuối tệp robot.txt. như hình bên dưới:

sitemap-trong-tep-robots.txt

2. Các điều khoản / cú pháp được sử dụng trong robots.txt

Cú pháp robots.txt có thể được coi là ngôn ngữ của tệp robot.txt. Có 5 thuật ngữ phổ biến mà bạn có thể gặp trong tệp rô bốt. Bao gồm các:
  • User-agent: Trình thu thập thông tin web cụ thể mà bạn đang hướng dẫn thu thập thông tin (thường là công cụ tìm kiếm).
  • Disallow: Lệnh được sử dụng để yêu cầu tác nhân người dùng không thu thập thông tin một URL cụ thể. Chỉ cho phép một dòng “Không cho phép:” trên mỗi URL.
  • Allow (Chỉ áp dụng cho Googlebot): Lệnh thông báo cho Googlebot biết rằng nó có thể truy cập một trang hoặc thư mục con ngay cả khi trang web hoặc thư mục con của nó có thể không được phép.
  • Crawl-delay: Trình thu thập thông tin mất bao nhiêu giây trước khi tải và thu thập thông tin nội dung trang. Lưu ý rằng Googlebot không thừa nhận lệnh này, nhưng tốc độ thu thập dữ liệu có thể được đặt trong Google Search Console.
  • Sơ đồ trang web (sitemap): Được sử dụng để gọi vị trí của bất kỳ (các) sơ đồ trang web XML nào được liên kết với URL này. Lưu ý rằng lệnh này chỉ được hỗ trợ bởi Google, Ask, Bing và Yahoo.

Khớp mẫu

Khi nói đến các URL thực tế để chặn hoặc cho phép, các tệp robot.txt có thể khá phức tạp vì chúng cho phép sử dụng đối sánh mẫu để bao gồm nhiều tùy chọn URL có thể có. Google và Bing đều sử dụng hai cụm từ thông dụng có thể được sử dụng để xác định các trang hoặc thư mục con mà người làm SEO muốn loại trừ. Hai ký tự này là dấu hoa thị (*) và dấu đô la ($).
  • * là ký tự đại diện cho bất kỳ chuỗi ký tự nào
  • $ khớp với phần cuối của URL
Google cung cấp một danh sách tuyệt vời về các ví dụ và cú pháp đối sánh mẫu có thể có ở đây.

3. Robot.txt ở đâu trên một trang web?

Bất cứ khi nào các công cụ tìm kiếm và rô bốt thu thập thông tin đến một trang web (như trình thu thập thông tin của Facebook, Facebot), hãy tìm tệp tin rô bốt.txt. Tuy nhiên, họ sẽ chỉ tìm kiếm tệp đó ở một nơi cụ thể: thư mục gốc (thường là tên miền gốc hoặc trang chủ của bạn).
Nếu user-agent truy cập seothetop.com/robots.txt và không tìm thấy tệp rô bốt ở đó, nó sẽ cho rằng trang web không có ở đó và tiến hành thu thập thông tin mọi thứ trên trang (và thậm chí trên toàn bộ trang web).
Ngay cả khi trang robot.txt tồn tại, ví dụ: example.com/index/robots.txt hoặc www.example.com/homepage/robots.txt, nó sẽ không được phát hiện bởi tác nhân người dùng và trang web đó sẽ được coi là nếu nó không có tệp robot nào cả.
Để đảm bảo rằng tệp robots.txt của bạn được tìm thấy, hãy luôn đưa tệp đó vào thư mục chính hoặc miền gốc của bạn.

Kiểm tra xem bạn có tệp robot.txt không

Bạn không chắc mình có tệp tin robot.txt không? Chỉ cần nhập tên miền gốc của bạn, sau đó thêm /robots.txt vào cuối URL. Ví dụ: tệp robot của Moz được đặt tại moz.com/robots.txt.
Nếu không có trang .txt nào xuất hiện, bạn hiện không có trang robot.txt (trực tiếp).

4. Các phương pháp hay nhất về SEO

  • Đảm bảo rằng bạn không chặn bất kỳ nội dung hoặc phần nào của trang web mà bạn muốn thu thập thông tin.
  • Các liên kết trên các trang bị robots.txt chặn sẽ không được theo dõi. Điều này có nghĩa là
    • Trừ khi chúng cũng được liên kết từ các trang có thể truy cập công cụ tìm kiếm khác (tức là các trang không bị chặn qua robots.txt, meta rô bốt hoặc cách khác), các tài nguyên được liên kết sẽ không được thu thập thông tin và có thể không được lập chỉ mục.
    • Không có liên kết nào có thể được chuyển từ trang bị chặn đến đích của liên kết. Nếu bạn có các trang mà bạn muốn chuyển quyền sở hữu, hãy sử dụng cơ chế chặn khác ngoài robot.txt.
  • Không sử dụng robots.txt để ngăn dữ liệu nhạy cảm (chẳng hạn như thông tin người dùng riêng tư) xuất hiện trong kết quả SERP. Nếu bạn muốn chặn trang của mình khỏi kết quả tìm kiếm, hãy sử dụng một phương pháp khác như bảo vệ bằng mật khẩu hoặc chỉ thị meta ngăn lập chỉ mục.
  • Một số công cụ tìm kiếm có nhiều tác nhân người dùng. Ví dụ: Google sử dụng Googlebot cho tìm kiếm không phải trả tiền và Googlebot-Image để tìm kiếm hình ảnh.
  • Công cụ tìm kiếm lưu trữ nội dung robot.txt, nhưng thường cập nhật nội dung được lưu trong bộ nhớ cache ít nhất một lần một ngày. Nếu bạn thay đổi tệp và muốn cập nhật tệp nhanh hơn, bạn có thể gửi tệp robots.txt của mình tới Google tại đây.

5. Robots.txt so với meta robot so với x-robot

Sự khác biệt giữa ba loại hướng dẫn robot này là gì?
Trước hết, robot.txt là một tệp văn bản thực tế, trong khi meta và x-robot là các chỉ báo meta. Chúng phục vụ các chức năng khác nhau.
Robots.txt ra lệnh cho hành vi thu thập thông tin trên toàn bộ trang web hoặc thư mục, trong khi meta và x-robot có thể ra lệnh cho hành vi lập chỉ mục trang riêng lẻ.

6. Hạn chế của Meta Robots

  • Lệnh Robots.txt có thể không được hỗ trợ bởi tất cả các công cụ tìm kiếm
  • Các trình thu thập thông tin khác nhau sẽ phân tích cú pháp khác nhau
  • Google vẫn có thể lập chỉ mục một trang bị robots.txt chặn nếu trang được liên kết từ các trang khác

Thiết lập tệp Robots thích hợp là điều cần thiết trong SEO kỹ thuật, để tối ưu hóa các thành phần quan trọng khác của SEO kỹ thuật Tham khảo: 17 yếu tố kỹ thuật SEO quan trọng và cách tối ưu hóa.

Nguồn tổng hợp từ Google

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *