Một số phương pháp để chặn nhện thu thập thông tin

Nói chung, sau khi một trang web được thành lập và vận hành, người ta luôn hy vọng rằng số lượng công cụ tìm kiếm đưa vào càng nhiều càng tốt. Nhưng đây thường là những gì hầu hết mọi người muốn. Đôi khi, chúng tôi vẫn muốn trình thu thập thông tin của công cụ tìm kiếm không truy cập vào một số thư mục nhất định của trang web và tất nhiên có những trang mà chúng tôi không muốn công cụ tìm kiếm đưa vào.
Ví dụ, khi website mới thành lập và chưa thực sự đi vào hoạt động, chưa có nội dung thực chất, có quá nhiều trang đưa vào khiến sức nặng của website bị phân tán, và đó chính là lúc bạn muốn dồn trọng lượng vào một số trang quan trọng nhất; Một ví dụ khác là việc thành lập một trang web nhân bản và hoạt động của trang web chủ yếu thông qua các phương thức quảng bá khác (ở đây đề cập đến các phương thức quảng bá khác ngoài SEO) …

Chặn nhện công cụ tìm kiếm

Công cụ tìm kiếm lập chỉ mục các trang web yêu cầu trình thu thập thông tin truy cập trang web và thu thập thông tin nội dung của trang. Vì vậy, trong những trường hợp bình thường, nếu bạn muốn ngăn chặn việc đưa vào các công cụ tìm kiếm, bạn cần phải hạn chế và chặn quyền truy cập và thu thập thông tin của trình thu thập thông tin. Dưới đây tác giả giới thiệu một số phương pháp thường dùng để chặn nhện bò.
1. Tệp quy tắc Robots.txt .
Mọi người đều biết rằng robots.txt là một quy tắc hướng dẫn các trình thu thập dữ liệu công cụ tìm kiếm truy cập trang web và nó thường được sử dụng thường xuyên hơn. Khuyến nghị chung là tạo tệp robots.txt trong thư mục gốc bất kể trang web có cần chặn nội dung hay không.
Các quy tắc của tệp robots.txt rất đơn giản. Ví dụ: nếu bạn cần chặn trình thu thập dữ liệu của một công cụ tìm kiếm nhất định truy cập vào tất cả các thư mục, chỉ cần viết:

Tác nhân người dùng: Googlebot
Không cho phép: / Ví
dụ: cấm tất cả các trình thu thập thông tin truy cập và thu thập thông tin một thư mục nhất định: Tác nhân người
dùng: *
Không cho phép: / admin /

2. Thẻ Meta Robot.
Nếu robots.txt là một tệp quy tắc được đặt trên một trang web, thì Meta rô bốt là một thẻ được đặt trên một trang web. Các chức năng thực tế của cả hai gần như giống nhau, nhưng robots.txt được hầu hết các công cụ tìm kiếm hỗ trợ, trong khi phần sau không được hầu hết các công cụ tìm kiếm hỗ trợ. Ngoài ra, để so sánh, Meta rô bốt được sử dụng khi thiết lập các trang nhất định riêng lẻ.
Thẻ Meta rô bốt phải được lưu trữ trong mã “<head> … </head>”:

<head>

<meta name = ”robots” content = ”index, follow” />
</head>

Trong số đó, “chỉ mục” đề cập đến chỉ số và “theo dõi” đề cập đến liên kết theo dõi và chuyển trọng số tương ứng. Tất nhiên, tương ứng có “noindex” và “nofollow”, và các chức năng hoàn toàn ngược lại.

3. Tệp cấu hình máy chủ.
Phương pháp này là phương pháp chặn nhện ít phổ biến nhất và chủ yếu được sử dụng để chặn các trình thu thập dữ liệu “không tuân thủ” các quy tắc của robots.txt.
Phương pháp là phân tích nhật ký trang web trong một khoảng thời gian và tìm ra con nhện cần chặn và IP của nó. Sau đó, chặn nó thông qua tệp cấu hình của máy chủ, để chặn một con nhện nào đó thu thập dữ liệu trang web. Tất nhiên, phương pháp này không linh hoạt để sử dụng, chẳng hạn như nó không thể chặn việc thu thập dữ liệu của một thư mục (hoặc trang web) nào đó bởi một con nhện.
Tùy thuộc vào máy chủ và hệ thống của nó, vui lòng tham khảo các phương pháp cài đặt liên quan để biết chi tiết.

Ngoài 3 phương pháp chặn nhện nêu trên, cần có những phương pháp khác có thể đạt được mục đích ngăn nhện. Các chuyên gia hoan nghênh bổ sung chúng trong thời gian rảnh rỗi.
Nhưng xét về 3 phương pháp trên thì tệp quy tắc robots.txt đầu tiên được sử dụng rộng rãi hơn.

Trừ khi có quy định khác, bài đăng trên blog này ban đầu do Shen tạo ra và bản quyền thuộc về Shen blog ©.
Vui lòng ghi rõ nguồn để tái bản, xin cảm ơn.
Địa chỉ liên kết bài viết này: https://www.yushenblog.com/seo/665.html