Google nghiên cứu show sử dụng của XML Sitemaps Giúp Index nội dung Fresh Quicker

Công cụ tìm kiếm sử dụng chương trình để thu thập dữ liệu web, và nhận dạng các trang mới và các trang mới được cập nhật để bao gồm trong chỉ mục của họ. Chúng thường được gọi là rô-bốt, hoặc crawler, hoặc nhện. Nhưng có những cách khác mà các công cụ tìm kiếm được thông tin về các trang mà nó có thể bao gồm trong các kết quả tìm kiếm.

Một báo cáo chính thức từ Google, Sitemaps: Above and Beyond the Crawl of Duty (pdf), khảo sát hiệu quả của sitemap XML, mà Google công bố là thí nghiệm được gọi là Google Sitemaps trong năm 2005. Thí nghiệm dường như đã là một thành công.

Sitemap XML là một cách cho chủ sở hữu trang web để giúp các trang chỉ mục công cụ tìm kiếm trên các trang web của họ, thông qua việc sử dụng một Sơ đồ trang web xml. Yahoo và Microsoft gia nhập Google vào thêm hỗ trợ cho các sitemap XML không lâu sau đó, và một tập hợp các trang giải thích các giao thức bản đồ website đã được đưa ra.

Giấy cho chúng ta biết rằng khoảng 35 triệu trang web xuất bản bản đồ website XML, như trong tháng 10 năm 2008, cung cấp dữ liệu cho một số tỷ URL. Trong khi bản đồ website XML đã được thông qua bởi một số lượng lớn các trang web, chúng tôi đã không có nhiều thông tin từ bất kỳ các công cụ tìm kiếm trên những cách hữu ích sitemap có được, làm thế nào họ có thể được sử dụng cùng với các chương trình thu thập dữ liệu dịch vụ seo website, và nếu họ thực hiện một sự khác biệt trong bao nhiêu trang được lập chỉ mục, và làm thế nào một cách nhanh chóng.

Các giấy trả lời một số những câu hỏi, với một cái nhìn về cách sử dụng Google sitemap XML trong việc khám phá các trang web mới, và nội dung mới trên các trang đã được lập chỉ mục, cũng như một trường hợp nghiên cứu trên ba trang web khác nhau – Amazon, CNN, và Pubmed.

Cách tiếp cận của Amazon để sitemap XML xoay quanh số lượng rất lớn các URL được liệt kê – 20 triệu, cũng như việc bổ sung các sản phẩm mới trên cơ sở thường xuyên. Họ cũng có những nỗ lực để chỉ các phiên bản URL kinh điển, hoặc tốt nhất, các trang sản phẩm trong sitemap XML của họ.

Cách tiếp cận của CNN để sitemap XML tập trung vào việc giúp đỡ một công cụ tìm kiếm tìm thấy việc bổ sung nhiều URL mới hàng ngày, và cũng giải quyết các vấn đề kinh điển với các trang của họ.

Pubmed có một kho lưu trữ khổng lồ của các URL được liệt kê trong bản đồ website XML của họ, với rất ít thay đổi nhất của chúng theo thời gian, và một tỷ lệ thay đổi URL được liệt kê như là hàng tháng.

Một phần của nghiên cứu được giới hạn đến 500 triệu URL đã được tìm thấy trong bản đồ website XML, và nó tập trung vào việc quyết định có hay không việc sử dụng các bản đồ website XML cung cấp sự bao gồm của các trang chất lượng cao hơn so với việc sử dụng các chương trình thu thập dữ liệu một mình, mà không xem xét sitemap thông tin.

Một khía cạnh khác của cuộc nghiên cứu đã xem xét 5 tỷ URL đã được nhìn thấy bởi cả sitemap XML và qua sự phát hiện của các trang thông qua các chương trình thu thập dữ liệu web, để xác định những thứ như cách tiếp cận nào cho thấy các phiên bản tươi của các trang đó. Nó xuất hiện rằng cách tiếp cận sitemap tìm thấy nội dung mới nhanh hơn:

Tiếp theo, chúng ta nghiên cứu một trong hai hệ thống thu thập dữ liệu, Sitemaps and Discovery, thấy URL đầu tiên. Chúng tôi tiến hành thử nghiệm này trên một tập dữ liệu gồm hơn năm tỷ URL đã được nhìn thấy bởi cả hai hệ thống. Theo số liệu thống kê gần đây nhất tại thời điểm viết, 78% của các URL đã được nhìn thấy bởi Sitemaps đầu tiên, so với 22% đã được nhìn thấy qua Discovery đầu tiên.

Phần cuối cùng của bài báo bàn về cách thông tin từ bản đồ website XML có thể được sử dụng bởi một công cụ tìm kiếm để giúp quyết định các trang của một trang web để thu thập thông tin đầu tiên.

Nếu bạn đang sử dụng bản đồ website XML trên trang dịch vụ seo web của bạn, bạn có thể tìm thấy những phần nghiên cứu trường hợp thú vị, và đó là giới thiệu về cách Amazon, CNN, và Pubmed tổ chức và sử dụng những bản đồ website.

Nếu bạn không sử dụng bản đồ website XML trên trang web của bạn, bạn có thể muốn đọc qua bài báo này, và xem xét bổ sung chúng.

Share this post