Thu thập thông tin Ngân sách trong SEO

Trong tập hôm nay của Whiteboard Friday, Tom đề cập đến một khái niệm SEO nâng cao hơn: ngân sách thu thập thông tin. Google có một lượng thời gian hữu hạn mà họ sẵn sàng dành để thu thập dữ liệu trang web của bạn, vì vậy nếu bạn đang gặp vấn đề với lập chỉ mục, đây là một chủ đề bạn nên quan tâm.

Ảnh bảng trắng mô tả ngân sách thu thập thông tin.

Nhấp vào hình ảnh bảng trắng ở trên để mở phiên bản lớn hơn trong tab mới!

Phiên âm Video

Thứ Sáu vui vẻ, người hâm mộ Moz và chủ đề hôm nay là thu thập thông tin ngân sách. Tôi nghĩ rằng điều đáng nói là đây là một chủ đề nâng cao hơn một phần nào đó hoặc một chủ đề áp dụng chủ yếu cho các trang web lớn hơn. Tôi nghĩ ngay cả khi đó không phải là bạn, vẫn còn rất nhiều điều bạn có thể học được từ điều này về lý thuyết SEO xuất hiện khi bạn xem xét một số chiến thuật bạn có thể sử dụng hoặc một số chẩn đoán bạn có thể sử dụng để thu thập thông tin ngân sách.

Nhưng trong tài liệu của chính Google, họ đề xuất rằng bạn nên quan tâm đến ngân sách thu thập thông tin nếu bạn có hơn một triệu trang hoặc hơn 10.000 trang được cập nhật hàng ngày. Tôi nghĩ đó rõ ràng là những ngưỡng khó hoặc tùy ý. Tôi sẽ nói rằng nếu bạn gặp vấn đề với việc trang web của mình được lập chỉ mục và bạn có các trang nằm sâu trên trang web của mình không nhận được chỉ mục mà bạn muốn hoặc nếu bạn gặp vấn đề với các trang không được lập chỉ mục đủ nhanh, thì trong số những trường hợp đó, ngân sách thu thập thông tin là một vấn đề mà bạn nên quan tâm.

Ngân sách thu thập thông tin là gì? 

Bản vẽ của một con nhện cầm một tờ đô la.

Vậy ngân sách thu thập thông tin thực sự là gì? Ngân sách thu thập thông tin đề cập đến lượng thời gian mà Google sẵn sàng dành để thu thập thông tin một trang web nhất định. Mặc dù có vẻ như Google là một tập đoàn toàn năng, nhưng họ có tài nguyên hữu hạn và web thì rộng lớn. Vì vậy, họ phải ưu tiên bằng cách nào đó và phân bổ một lượng thời gian hoặc nguồn lực nhất định để thu thập dữ liệu một trang web nhất định.

Giờ đây, họ ưu tiên dựa trên – hoặc họ nói rằng họ ưu tiên dựa trên mức độ phổ biến của các trang web với người dùng của họ và dựa trên sự mới mẻ của nội dung, vì loại Googlebot có nhu cầu về các URL mới, chưa từng thấy trước đây. 

Chúng tôi sẽ không thực sự nói trong video này về cách tăng ngân sách thu thập thông tin của bạn. Chúng tôi sẽ tập trung vào cách sử dụng tốt nhất ngân sách thu thập thông tin mà bạn có, đây thường là một đòn bẩy dễ dàng hơn để kéo trong mọi trường hợp. 

Nguyên nhân của các vấn đề về ngân sách thu thập thông tin

Vậy các vấn đề với ngân sách thu thập thông tin thực sự xảy ra như thế nào? 

Các khía cạnh

Bây giờ tôi nghĩ rằng loại vấn đề chính trên các trang web có thể dẫn đến vấn đề ngân sách thu thập thông tin trước hết là các khía cạnh.

Vì vậy, bạn có thể tưởng tượng trên một trang e-comm, hãy tưởng tượng chúng ta có một trang máy tính xách tay. Chúng tôi có thể lọc theo kích thước. Bạn có màn hình 15 inch và 16 GB RAM. Có thể có rất nhiều hoán vị khác nhau ở đó có thể dẫn đến một số lượng rất lớn URL trong khi thực sự chúng ta chỉ có một trang hoặc một danh mục như chúng ta nghĩ về nó – trang máy tính xách tay.

Tương tự, những thứ đó sau đó có thể được sắp xếp lại để tạo các URL khác hoạt động tương tự nhưng phải được thu thập thông tin riêng. Tương tự, chúng có thể được sắp xếp khác nhau. Có thể có phân trang, vân vân và vân vân. Vì vậy, bạn có thể có một trang danh mục tạo ra một số lượng lớn các URL. 

Trang kết quả tìm kiếm

Một vài điều khác thường xảy ra là các trang kết quả tìm kiếm từ một tìm kiếm trang web nội bộ thường có thể, đặc biệt nếu chúng được phân trang, chúng có thể có rất nhiều URL khác nhau được tạo.

Các trang danh sách

Các trang danh sách. Nếu bạn cho phép người dùng tải lên danh sách hoặc nội dung của riêng họ, thì theo thời gian, số lượng URL đó có thể tích tụ thành một số lượng lớn các URL nếu bạn nghĩ về một bảng tuyển dụng hoặc một cái gì đó như eBay và nó có thể có một số lượng lớn các trang. 

Khắc phục các vấn đề về ngân sách thu thập thông tin

Biểu đồ về các giải pháp vấn đề ngân sách thu thập thông tin và liệu chúng có cho phép thu thập thông tin, lập chỉ mục và Xếp hạng trang hay không.

Vậy một số công cụ mà bạn có thể sử dụng để giải quyết những vấn đề này và tận dụng tối đa ngân sách thu thập thông tin của mình là gì?

Vì vậy, về cơ bản, nếu chúng ta nghĩ về cách một URL bình thường hoạt động với Googlebot, chúng ta nói, vâng, nó có thể được thu thập thông tin, vâng, nó có thể được lập chỉ mục và vâng, nó vượt qua Xếp hạng trang. Vì vậy, một URL như thế này, nếu tôi liên kết đến những trang này ở đâu đó trên trang web của mình và sau đó Google theo liên kết đó và lập chỉ mục các trang này, những trang này có thể vẫn có điều hướng hàng đầu và điều hướng trên toàn trang web trên đó. Vì vậy, liên kết thực sự được chuyển qua các trang này sẽ được tái chế. Sẽ có một số tổn thất do quá loãng khi chúng ta liên kết qua quá nhiều trang khác nhau và quá nhiều bộ lọc khác nhau. Nhưng cuối cùng, chúng tôi đang tái chế cái này. Không có loại lỗ đen nào bị mất PageRank bị rò rỉ. 

Robots.txt

Bây giờ ở thái cực ngược lại, loại giải pháp cực đoan nhất để thu thập ngân sách mà bạn có thể sử dụng là tệp robots.txt.

Vì vậy, nếu bạn chặn một trang trong robots.txt, thì nó sẽ không thể được thu thập thông tin. Quá tuyệt vời, vấn đề đã được giải quyết. Chà, không, bởi vì có một số thỏa hiệp ở đây. Về mặt kỹ thuật, các trang và trang bị chặn trong robots.txt có thể được lập chỉ mục. Đôi khi bạn thấy các trang web hiển thị hoặc các trang hiển thị trong SERPs với mô tả meta này không thể hiển thị vì trang bị chặn trong robots.txt hoặc loại thông báo này.

Vì vậy, về mặt kỹ thuật, chúng có thể được lập chỉ mục, nhưng về mặt chức năng chúng sẽ không được xếp hạng cho bất kỳ thứ gì hoặc ít nhất là bất kỳ thứ gì hiệu quả. Vì vậy, vâng, về mặt kỹ thuật. Họ không vượt qua Xếp hạng Trang. Chúng tôi vẫn vượt qua Xếp hạng Trang khi chúng tôi liên kết đến một trang như thế này. Nhưng nếu sau đó nó bị chặn trong robots.txt, thì Xếp hạng trang sẽ không còn nữa.

Vì vậy, chúng tôi đã tạo ra một lỗ rò rỉ và một lỗ đen. Vì vậy, đây là một giải pháp khá nặng tay, mặc dù nó rất dễ thực hiện. 

Nofollow cấp liên kết

Nofollow cấp liên kết, vì vậy ý ​​tôi là nếu chúng tôi lấy các liên kết của chúng tôi trên trang danh mục máy tính xách tay chính, trỏ đến các khía cạnh này và chúng tôi đặt thuộc tính nofollow nội bộ trên các liên kết đó, điều đó sẽ có một số ưu điểm và nhược điểm.

Tôi nghĩ rằng một trường hợp sử dụng tốt hơn cho điều này thực sự sẽ nhiều hơn trong trường hợp danh sách. Vì vậy, hãy tưởng tượng nếu chúng ta điều hành một trang web về ô tô đã qua sử dụng, nơi chúng tôi có hàng triệu danh sách sản phẩm riêng lẻ về ô tô đã qua sử dụng. Giờ đây, chúng tôi không thực sự muốn Google lãng phí thời gian vào những danh sách riêng lẻ này, có lẽ tùy thuộc vào quy mô trang web của chúng tôi.

Nhưng đôi khi một người nổi tiếng có thể tải lên chiếc xe của họ hoặc thứ gì đó tương tự, hoặc một chiếc xe rất hiếm có thể được tải lên và điều đó sẽ bắt đầu nhận được các liên kết truyền thông. Vì vậy, chúng tôi không muốn chặn trang đó trong robots.txt vì đó là các liên kết bên ngoài mà chúng tôi sẽ lãng phí trong trường hợp đó. Vì vậy, những gì chúng tôi có thể làm là trên các liên kết nội bộ của chúng tôi đến trang đó, chúng tôi có thể không theo dõi liên kết nội bộ. Vì vậy, điều đó có nghĩa là nó có thể được thu thập thông tin, nhưng chỉ khi nó được tìm thấy, chỉ khi Google tìm thấy nó theo một cách nào đó, vì vậy thông qua một liên kết bên ngoài hoặc một cái gì đó tương tự.

Vì vậy, chúng tôi sắp có một ngôi nhà nửa chừng ở đây. Bây giờ về mặt kỹ thuật nofollow những ngày này là một gợi ý. Theo kinh nghiệm của tôi, Google sẽ không thu thập dữ liệu các trang chỉ được liên kết đến thông qua một nofollow nội bộ. Nếu nó tìm thấy trang theo một cách nào đó khác, rõ ràng là nó sẽ vẫn thu thập dữ liệu đó. Nhưng nói chung, điều này có thể hiệu quả như một cách hạn chế ngân sách thu thập thông tin hoặc tôi nên nói hiệu quả hơn bằng cách sử dụng ngân sách thu thập thông tin. Trang vẫn có thể được lập chỉ mục.

Đó là những gì chúng tôi đã cố gắng đạt được trong ví dụ đó. Nó vẫn có thể vượt qua Xếp hạng Trang. Đó là điều khác mà chúng tôi đã cố gắng đạt được. Mặc dù bạn vẫn mất một số Xếp hạng trang thông qua liên kết nofollow này. Đó vẫn được coi là một liên kết, và do đó, bạn đang mất một số Xếp hạng Trang mà lẽ ra đã được đưa vào liên kết sau đó. 

Noindex, nofollow

Noindex và nofollow, vì vậy đây rõ ràng là một giải pháp rất phổ biến cho các trang như thế này trên các trang ecomm.

Bây giờ, trong trường hợp này, trang có thể được thu thập thông tin. Nhưng khi Google truy cập vào trang đó, nó sẽ phát hiện ra đó là noindex và nó sẽ thu thập dữ liệu nó ít hơn nhiều theo thời gian vì thu thập thông tin một trang noindex sẽ có ít điểm hơn. Vì vậy, một lần nữa, chúng ta có một ngôi nhà nửa chừng ở đây.

Rõ ràng, nó không thể được lập chỉ mục. Nó là noindex. Nó không vượt qua Xếp hạng Trang ra bên ngoài. PageRank vẫn được chuyển vào trang này, nhưng vì nó có nofollow trong phần đầu, nó không vượt qua PageRank ra bên ngoài. Đây không phải là một giải pháp tuyệt vời. Chúng tôi có một số thỏa hiệp mà chúng tôi phải đạt được ở đây để tiết kiệm ngân sách thu thập thông tin.

Noindex, theo dõi

Vì vậy, nhiều người từng nghĩ, ồ, giải pháp cho điều đó là sử dụng theo dõi noindex như một loại tốt nhất của cả hai. Vì vậy, bạn đặt một thẻ theo dõi ngăn lập chỉ mục trong phần đầu của một trong những trang này và ồ, vâng, mọi người đều là người chiến thắng vì chúng tôi vẫn nhận được cùng một loại lợi ích thu thập dữ liệu. Chúng tôi vẫn chưa lập chỉ mục loại trang trùng lặp mới này, mà chúng tôi không muốn lập chỉ mục, nhưng giải pháp Xếp hạng trang đã được khắc phục.

Chà, cách đây vài năm, Google đã xuất hiện và nói, “Ồ, chính chúng tôi cũng không nhận ra điều này, nhưng thực sự khi chúng tôi thu thập dữ liệu trang này ngày càng ít hơn theo thời gian, chúng tôi sẽ ngừng nhìn thấy liên kết và sau đó nó đã thành công” t đếm. ” Vì vậy, họ ngụ ý rằng điều này không còn hoạt động như một cách vẫn vượt qua Xếp hạng trang nữa, và cuối cùng nó sẽ được coi là noindex và nofollow. Vì vậy, một lần nữa, chúng tôi có một loại giải pháp thỏa hiệp nhẹ ở đó. 

Hợp quy

Bây giờ điều tốt nhất thực sự của tất cả các thế giới sau đó có thể là kinh điển. Với thẻ chuẩn, nó vẫn sẽ được thu thập dữ liệu ít hơn một chút theo thời gian, phiên bản chuẩn hóa, thật tuyệt. Nó vẫn sẽ không được lập chỉ mục, phiên bản chuẩn hóa, tuyệt vời, và nó vẫn vượt qua Xếp hạng trang.

Vì vậy, điều đó có vẻ tuyệt vời. Điều đó có vẻ hoàn hảo trong rất nhiều trường hợp. Nhưng điều này chỉ hoạt động nếu các trang có gần đủ bản sao mà Google sẵn sàng coi chúng là bản sao và tôn trọng trang chuẩn. Nếu họ không sẵn sàng coi chúng là một bản sao, thì bạn có thể phải quay lại sử dụng noindex. Hoặc nếu bạn nghĩ rằng thực sự không có lý do gì để URL này tồn tại, tôi không biết sự kết hợp thứ tự sai này ra đời như thế nào, nhưng nó có vẻ khá vô nghĩa.

301

Tôi sẽ không liên kết với nó nữa. Nhưng trong trường hợp một số người vẫn tìm thấy URL bằng cách nào đó, chúng tôi có thể sử dụng 301 như một loại nền kinh tế sẽ hoạt động khá tốt cuối cùng cho … thậm chí không cần phải nhìn vào trang trong trường hợp hiếm hoi nó kiểm tra nó bởi vì nó chỉ theo sau 301.

Nó sẽ giải quyết vấn đề lập chỉ mục của chúng tôi và nó sẽ vượt qua Xếp hạng trang. Nhưng rõ ràng, sự cân bằng ở đây là người dùng cũng không thể truy cập URL này, vì vậy chúng tôi phải ổn với điều đó. 

Thực hiện chiến thuật thu thập thông tin ngân sách

Vì vậy, sắp xếp lại tất cả những điều này, chúng ta thực sự sẽ sử dụng những chiến thuật này như thế nào? Vì vậy, những hoạt động mà tôi muốn giới thiệu nếu bạn muốn có một dự án ngân sách thu thập thông tin là gì?

Một trong những điều ít trực quan hơn là tốc độ. Giống như tôi đã nói trước đó, Google đang phân bổ một lượng thời gian hoặc lượng tài nguyên để thu thập thông tin một trang web nhất định. Vì vậy, nếu trang web của bạn rất nhanh, nếu bạn có thời gian phản hồi của máy chủ thấp, nếu bạn có HTML nhẹ, chúng sẽ đơn giản truy cập nhiều trang hơn trong cùng một khoảng thời gian.

Vì vậy, đây là một cách tuyệt vời để tiếp cận điều này. Phân tích nhật ký, đây là loại truyền thống hơn. Thường thì khá khó hiểu những trang nào trên trang web của bạn hoặc những thông số nào đang thực sự lấy hết ngân sách thu thập thông tin của bạn. Phân tích nhật ký trên các trang web lớn thường mang lại kết quả đáng ngạc nhiên, vì vậy đó là điều bạn có thể cân nhắc. Sau đó, thực sự sử dụng một số công cụ này.

Vì vậy, các URL dư thừa mà chúng tôi nghĩ rằng người dùng thậm chí không cần phải xem xét, chúng tôi có thể 301. Các biến thể mà người dùng cần xem xét, chúng tôi có thể xem xét thẻ chuẩn hoặc thẻ noindex. Nhưng chúng tôi cũng có thể muốn tránh liên kết với chúng ngay từ đầu để không bị mất Xếp hạng trang ở một mức độ nào đó vào các biến thể được chuẩn hóa hoặc noindex thông qua việc pha loãng hoặc thông qua một ngõ cụt.

Robots.txt và nofollow, như tôi đã ngụ ý khi tôi đang xem xét nó, đây là những chiến thuật mà bạn sẽ muốn sử dụng rất ít vì chúng tạo ra những ngõ cụt PageRank này. Sau đó, cuối cùng, một loại mẹo gần đây hoặc thú vị hơn mà tôi có được một thời gian ngắn trở lại từ một bài đăng trên blog của Ollie HG Mason , mà tôi có thể liên kết đến bên dưới, thì hóa ra nếu bạn có một sơ đồ trang web trên trang web của mình mà bạn chỉ sử dụng đối với các URL mới hoặc URL gần đây, các URL đã thay đổi gần đây của bạn, sau đó vì Googlebot rất muốn nội dung mới, như tôi đã nói, họ sẽ bắt đầu thu thập thông tin sơ đồ trang web này rất thường xuyên. Vì vậy, bạn có thể sử dụng chiến thuật này để hướng ngân sách thu thập thông tin đến các URL mới, loại nào ai cũng thắng.

Googlebot chỉ muốn xem các URL mới. Có lẽ bạn chỉ muốn Googlebot nhìn thấy các URL mới. Vì vậy, nếu bạn có một sơ đồ trang web chỉ phục vụ mục đích đó, thì mọi người đều thắng, và đó có thể là một mẹo khá hay và dễ thực hiện. Vậy đó là tất cả. Tôi hy vọng bạn thấy rằng hữu ích. Nếu không, vui lòng cho tôi biết các mẹo hoặc thách thức của bạn trên Twitter. Tôi tò mò muốn xem những người khác tiếp cận chủ đề này như thế nào

Nguồn: https://moz.com/blog/crawl-budget