Một ý kiến ​​nhỏ về việc không thể cấm đưa vào tệp robots.txt

Trong quá trình tối ưu hóa seo website , thường phải nói chuyện với spider của công cụ tìm kiếm thông qua một tập tin có tên là robots.txt. Nói chung, khi một con nhện của công cụ tìm kiếm thu thập thông tin đến một trang web nhất định, nó sẽ đọc tệp trước và thực hiện các hành động sau theo các quy tắc trong tệp.
Khi một số trang web trong một trang web không cần được công cụ tìm kiếm lập chỉ mục, robots.txt thường được sử dụng để hạn chế việc thu thập dữ liệu trang web này bởi trình thu thập thông tin của công cụ tìm kiếm. Ví dụ: khi trang web xuất hiện ? Replytocom được đưa vào liên tục hoặc một số trang không cần đưa vào và chia sẻ trọng số, v.v. Về mặt này, robots.txt hạn chế hoạt động của các công cụ tìm kiếm.

Robots.txt không thể cấm các trình thu thập thông tin công cụ tìm kiếm được đưa vào

Tình hình thực tế là trang web cấm spider thu thập một loại trang web url nhất định trong robots.txt, nhưng khi sử dụng trang web lệnh nâng cao của công cụ tìm kiếm để truy vấn tình huống bao gồm, công cụ tìm kiếm không tuân theo các quy tắc trong robots.txt. Hầu hết thời gian, các công cụ tìm kiếm thực sự có thể loại trừ các trang web này theo các quy tắc được viết trong trang web robots.txt. Tuy nhiên, đúng là các công cụ tìm kiếm coi các quy tắc trong robots.txt là không có gì.
Tất nhiên, có thể có lỗi trong trang web robots.txt, nhưng bài viết này dựa trên tiền đề rằng robots.txt được viết đúng.

Có một tuyên bố rất chính thức như thế này:

Trong robots.txt của trang web, việc bao gồm các trình thu thập thông tin bị chặn đối với một trang web, nhưng các công cụ tìm kiếm vẫn sẽ thu thập dữ liệu trang web đó, nhưng nội dung của các trang web này sẽ không được hiển thị trong kết quả tìm kiếm có liên quan.

Câu này thoạt nghe hơi khó hiểu nhưng theo ý tác giả thì vẫn rất có thể.
Trước hết, sự phát triển của các công cụ tìm kiếm về cơ bản là để hiển thị cho người dùng tìm kiếm những nội dung lành mạnh, chất lượng cao mà người dùng cần. Trước khi bao gồm và trả về kết quả tìm kiếm có liên quan, các công cụ tìm kiếm phải có hiểu biết tương ứng về các trang web này, sau đó cân nhắc xem có nên đưa chúng vào hay không và xếp hạng chúng như thế nào.

Ví dụ, nếu bạn muốn tạo một trang web bất hợp pháp, trước tiên hãy giả định rằng nội dung của trang web đó chưa được cơ quan quản lý kiểm tra, và không xem xét phương pháp sau là tốt hay xấu. Tất nhiên, nếu bạn trực tiếp sử dụng các từ khóa có liên quan để tối ưu hóa SEO trang web, bạn sẽ nhận được tỷ lệ hiển thị cao hơn và tăng khả năng bị chặn rất nhiều. Hơn nữa, những nội dung bất hợp pháp này có thể không bị chặn bởi các công cụ tìm kiếm.
Lúc này, thứ hạng seo của website được thực hiện thông qua một lượng lớn nội dung lành mạnh. Trang web nhận được rất nhiều lưu lượng truy cập thông qua các từ khóa lành mạnh, và sau đó các liên kết đến thông tin bất hợp pháp được mang trên các nội dung lành mạnh này. Tất nhiên, các liên kết như vậy phải sử dụng robots.txt của trang web để chặn trình thu thập thông tin công cụ tìm kiếm và tất cả các trang nội dung bất hợp pháp cũng bị cấm đưa vào.

Có thể sử dụng công cụ tìm kiếm để kiếm lợi nhuận trong khi tránh sự giám sát của công cụ tìm kiếm? Thực tế không phải như vậy, như đã nói ở trên, để có trải nghiệm người dùng tốt, các công cụ tìm kiếm chắc chắn sẽ có hiểu biết toàn diện về các trang web đã được đưa vào hoặc sẽ được đưa vào (bất kể công cụ tìm kiếm hiện tại có hoàn hảo hay không).
Chà, vì các công cụ tìm kiếm cần phải hiểu trang web, làm thế nào họ có thể làm ngơ trước các trang bị chặn trong robots.txt? Anh ta giả vờ là người trong sáng trước các công cụ tìm kiếm, và bí mật tham gia vào một số hoạt động bất hợp pháp. Tôi nghĩ rằng các công cụ tìm kiếm sẽ không xem xét tình huống này. Vì vậy, ngay cả khi trang web robots.txt của bạn nghiêm cấm thu thập dữ liệu nhện trên một số trang, các công cụ tìm kiếm vẫn phải “kiểm tra” nó. Nếu không, làm thế nào để hiểu đầy đủ các ưu và nhược điểm của trang web?

Tất nhiên, để kiểm tra trạng thái của trang web, trước tiên bạn phải thu thập dữ liệu máy chủ đưa vào công cụ tìm kiếm, sau đó mới đánh giá. Vì các công cụ tìm kiếm vẫn thu thập thông tin và xem các trang bị chặn trong trang web robots.txt, làm thế nào để phản ánh vai trò của robots.txt?
Cách duy nhất để ẩn các trang này là ẩn chúng, ít nhất là không có trong kết quả tìm kiếm thông thường. Nếu không, không phải trang web robots.txt chỉ là một màn hình?

Vì vậy, đừng quá lo lắng khi phát hiện ra rằng các công cụ tìm kiếm vẫn bao gồm các trang web bị chặn bởi robots.txt của trang web. Công cụ tìm kiếm chỉ muốn hiểu đầy đủ về trang web. Nhưng bạn phải đảm bảo rằng các quy tắc robots.txt được viết chính xác. Nói chung, các công cụ tìm kiếm sẽ xóa các trang web bị cấm thu thập thông tin hoặc “ẩn” chúng.

Do tình huống trang web robots.txt vẫn bị đưa vào trang bị chặn có một điều không chắc chắn lớn nên rất tiếc tác giả không thể thực hiện các thí nghiệm thực tế để phát hiện ra tình trạng này. Đồng thời mình cũng chỉ là một tân binh mới bắt đầu học seo nên quan điểm của mình chưa chắc đã đúng. Tác giả xin chân thành mong các bạn cao niên và các chuyên gia về tối ưu hóa seo có thể cho ý kiến ​​và trao đổi, xin cảm ơn.