Robots.txt là nơi để quản trị viên web định cấu hình hướng dẫn rô bốt web (thường là rô bốt công cụ tìm kiếm) cách thu thập dữ liệu các trang trên trang web của họ.
Trên thực tế, các tệp robot.txt cho biết liệu một số tác nhân người dùng (trình thu thập thông tin web) có thể thu thập thông tin các phần của trang web hay không. Các hướng dẫn này được chỉ định bằng cú pháp không cho phép tác nhân người dùng thu thập dữ liệu.
Nội Dung Chính
1. Tệp robots.txt là gì?
Robots.txt là một tập tin văn bản để người quản trị website khai báo có cho phép công cụ tìm kiếm BOT (user-agent) thu thập thông tin (crawl) trong tài nguyên của một website hay không.
Tệp này được sử dụng để ngăn trình thu thập thông tin yêu cầu trang web của bạn quá nhiều, nó không phải là cơ chế để ẩn trang web khỏi Google. Để ẩn một trang web khỏi Google, bạn nên sử dụng lệnh noindex với thẻ meta rô bốt hoặc mật khẩu bảo vệ trang web của bạn cho một trang web.

1.1 Tại sao bạn cần robots.txt?
Tệp Robots.txt kiểm soát quyền truy cập của trình thu thập thông tin vào các khu vực nhất định trên trang web của bạn. Mặc dù điều này có thể rất rủi ro nếu bạn vô tình không cho phép Googlebot thu thập dữ liệu toàn bộ trang web của bạn (!!), nhưng có một số tình huống mà tệp robot.txt có thể rất hữu ích.
Một số trường hợp sử dụng phổ biến bao gồm:
- Ngăn nội dung trùng lặp xuất hiện trong SERP (lưu ý rằng meta rô bốt thường là lựa chọn tốt hơn cho việc này)
- Giữ tất cả các phần của trang web ở chế độ riêng tư
- Giữ cho các trang kết quả tìm kiếm nội bộ không hiển thị trên SERPs công khai
- Chỉ định vị trí của sơ đồ trang web
- Ngăn các công cụ tìm kiếm lập chỉ mục các tệp nhất định trên trang web của bạn (hình ảnh, PDF, v.v.)
- Chỉ định độ trễ thu thập thông tin để ngăn máy chủ của bạn không bị quá tải khi trình thu thập thông tin tải nhiều phần nội dung cùng một lúc
Nếu không có khu vực nào trên trang web của bạn mà bạn muốn kiểm soát quyền truy cập của tác nhân người dùng, bạn hoàn toàn không cần tệp robot.txt.
1.2 Định dạng cơ bản:
- User-agent: [user-agent name]
- Disallow: [URL string not to be crawled]
2 dòng này được coi là một tệp robot.txt hoàn chỉnh – mặc dù một tệp rô-bốt có thể chứa nhiều dòng tác nhân và chỉ thị người dùng (tức là Disallow (không cho phép), Allown (cho phép), thu thập dữ liệu trễ, v.v.).
Trong tệp robot.txt, mỗi chỉ thị tác nhân người dùng xuất hiện dưới dạng một tập hợp riêng biệt, được phân tách bằng dấu ngắt dòng:

- buzzfeed.com muốn msnbot ngừng chờ 120 mili giây sau mỗi lần thu thập dữ liệu 1 trang và không được thu thập dữ liệu các chuỗi URL được liệt kê trong cú pháp.
- Tất cả tác nhân người dùng (ngoại trừ msnbot, Discobot, Slurp) không được phép thu thập dữ liệu URL có cú pháp được liệt kê.
- Discobot sẽ không được phép thu thập thông tin bất kỳ URL nào của nguồn cấp dữ liệu buzzfeed
- Slurp (tác nhân người dùng yahoo) sẽ phải đợi 4 mili giây sau mỗi lần thu thập thông tin, tất cả các URL của Buzzfeed.com đều được thu thập thông tin.
1.3 Tác nhân user-agent phổ biến của công cụ tìm kiếm

1.4 Ví dụ robot.txt:
1.5 Chặn tất cả trình thu thập dữ liệu web khỏi tất cả nội dung
User-agent: * Disallow: /
1.6 Cho phép tất cả các trình thu thập thông tin web truy cập tất cả nội dung
Disallow:
1.7 Chặn một trình thu thập thông tin web cụ thể khỏi một thư mục cụ thể
User-agent: Googlebot
Disallow: /example-subfolder/
User-agent: Bingbot
Disallow: /example-subfolder/blocked-page.html
- Thu thập thông tin: Thu thập thông tin trên web để khám phá nội dung;
- Lập chỉ mục (Indexing): Lập chỉ mục nội dung để nó có thể được phục vụ cho những người tìm kiếm đang tìm kiếm thông tin.
- Để được tìm thấy, tệp robot.txt phải được đặt trong thư mục cấp cao nhất (gốc) của trang web.
- txt phân biệt chữ hoa chữ thường: tệp phải được đặt tên là robot.txt (không phải Robots.txt, robot.TXT, hoặc các tên khác).
- Một số tác nhân người dùng (rô bốt) có thể chọn bỏ qua tệp robot.txt của bạn. Điều này đặc biệt phổ biến với nhiều trình thu thập thông tin bất chính như rô bốt phần mềm độc hại hoặc trình dọn dẹp địa chỉ email.
- Mỗi miền phụ trên miền gốc sử dụng các tệp robot.txt riêng biệt. Điều này có nghĩa là cả blog.example.com và example.com đều phải có tệp robot.txt của riêng chúng (tại blog.example.com/robots.txt và example.com/robots.txt).
- Phương pháp hay nhất để hiển thị vị trí của bất kỳ sơ đồ trang web nào được liên kết với miền này ở cuối tệp robot.txt. như hình bên dưới:
2. Các điều khoản / cú pháp được sử dụng trong robots.txt
- User-agent: Trình thu thập thông tin web cụ thể mà bạn đang hướng dẫn thu thập thông tin (thường là công cụ tìm kiếm).
- Disallow: Lệnh được sử dụng để yêu cầu tác nhân người dùng không thu thập thông tin một URL cụ thể. Chỉ cho phép một dòng “Không cho phép:” trên mỗi URL.
- Allow (Chỉ áp dụng cho Googlebot): Lệnh thông báo cho Googlebot biết rằng nó có thể truy cập một trang hoặc thư mục con ngay cả khi trang web hoặc thư mục con của nó có thể không được phép.
- Crawl-delay: Trình thu thập thông tin mất bao nhiêu giây trước khi tải và thu thập thông tin nội dung trang. Lưu ý rằng Googlebot không thừa nhận lệnh này, nhưng tốc độ thu thập dữ liệu có thể được đặt trong Google Search Console.
- Sơ đồ trang web (sitemap): Được sử dụng để gọi vị trí của bất kỳ (các) sơ đồ trang web XML nào được liên kết với URL này. Lưu ý rằng lệnh này chỉ được hỗ trợ bởi Google, Ask, Bing và Yahoo.
Khớp mẫu
- * là ký tự đại diện cho bất kỳ chuỗi ký tự nào
- $ khớp với phần cuối của URL
3. Robot.txt ở đâu trên một trang web?
Kiểm tra xem bạn có tệp robot.txt không
4. Các phương pháp hay nhất về SEO
- Đảm bảo rằng bạn không chặn bất kỳ nội dung hoặc phần nào của trang web mà bạn muốn thu thập thông tin.
- Các liên kết trên các trang bị robots.txt chặn sẽ không được theo dõi. Điều này có nghĩa là
- Trừ khi chúng cũng được liên kết từ các trang có thể truy cập công cụ tìm kiếm khác (tức là các trang không bị chặn qua robots.txt, meta rô bốt hoặc cách khác), các tài nguyên được liên kết sẽ không được thu thập thông tin và có thể không được lập chỉ mục.
- Không có liên kết nào có thể được chuyển từ trang bị chặn đến đích của liên kết. Nếu bạn có các trang mà bạn muốn chuyển quyền sở hữu, hãy sử dụng cơ chế chặn khác ngoài robot.txt.
- Không sử dụng robots.txt để ngăn dữ liệu nhạy cảm (chẳng hạn như thông tin người dùng riêng tư) xuất hiện trong kết quả SERP. Nếu bạn muốn chặn trang của mình khỏi kết quả tìm kiếm, hãy sử dụng một phương pháp khác như bảo vệ bằng mật khẩu hoặc chỉ thị meta ngăn lập chỉ mục.
- Một số công cụ tìm kiếm có nhiều tác nhân người dùng. Ví dụ: Google sử dụng Googlebot cho tìm kiếm không phải trả tiền và Googlebot-Image để tìm kiếm hình ảnh.
- Công cụ tìm kiếm lưu trữ nội dung robot.txt, nhưng thường cập nhật nội dung được lưu trong bộ nhớ cache ít nhất một lần một ngày. Nếu bạn thay đổi tệp và muốn cập nhật tệp nhanh hơn, bạn có thể gửi tệp robots.txt của mình tới Google tại đây.
5. Robots.txt so với meta robot so với x-robot
6. Hạn chế của Meta Robots
- Lệnh Robots.txt có thể không được hỗ trợ bởi tất cả các công cụ tìm kiếm
- Các trình thu thập thông tin khác nhau sẽ phân tích cú pháp khác nhau
- Google vẫn có thể lập chỉ mục một trang bị robots.txt chặn nếu trang được liên kết từ các trang khác
Thiết lập tệp Robots thích hợp là điều cần thiết trong SEO kỹ thuật, để tối ưu hóa các thành phần quan trọng khác của SEO kỹ thuật Tham khảo: 17 yếu tố kỹ thuật SEO quan trọng và cách tối ưu hóa.
Nguồn tổng hợp từ Google