Một cách tiếp cận Yahoo Để Tránh Crawling Quảng cáo và theo dõi phiên Liên kết

Một ứng dụng Yahoo bằng sáng chế mới được công bố mô tả một vài cách để lọc ra một số URL mà nó có thể thu thập thông tin, để giữ cho các trang được lập chỉ mục và trình bày cho người tìm kiếm.

Các URL được đề cập đến trong việc nộp bằng sáng chế như liên kết “thoáng” vì họ thay đổi từ lần đến thăm, thường bởi vì họ là những quảng cáo đó có các URL với mã theo dõi bao gồm bên trong chúng, hoặc chứa các ID phiên để theo dõi khách.

Một cách tiếp cận được cung cấp để xác định liên kết thoáng qua trên một trang Web. Cách tiếp cận này đảm bảo rằng các liên kết tạm thời không được thu thập và lưu trữ, do đó tiết kiệm nguồn lực cho bò liên kết hợp lệ dẫn tới thông tin hữu ích.

Liên kết đi trên một trang web được xác định, và sau một thời gian, một bản sao mới của các trang web thu được và các liên kết đi xác định. Các bộ tương ứng của liên kết được so sánh và liên kết mà không xuất hiện trong cả hai bộ liên kết được xác định là thoáng qua.

Crawling liên tiếp để xác định các liên kết tạm thời
Được phát minh bởi Dmitri Pavlovski, Vladimir Ofitserov, và Alexander Arsky
US Patent Application 20070226206
Đăng ngày 27 Tháng 9 năm 2007
Nộp: 23 Tháng 3 2006

Có ba giai đoạn chính để làm thế nào một công cụ tìm kiếm hoạt động. Việc đầu tiên liên quan đến một công cụ tìm kiếm việc gửi đi các chương trình này thường được gọi là crawlers hay nhện hay robot. Những trình thu thập xác định các trang được lập chỉ mục trên dịch vụ seo Web, và các địa chỉ của các trang ở dạng URL.

Các giai đoạn khác liên quan đến thông tin lập chỉ mục tìm thấy trên các trang trong một thu thập dữ liệu và trình bày kết quả tìm thấy trong chỉ mục đó để đáp ứng với một truy vấn được thực hiện bởi một người tìm kiếm. Nếu giai đoạn bò có thể trở nên hiệu quả hơn, sau đó các giai đoạn khác có thể có ít việc phải làm, và cũng sẽ có hiệu quả hơn.

Làm Web Crawling hiệu quả hơn

Các cách mà các chương trình thu thập dữ liệu từ các công cụ tìm kiếm lớn thực sự làm việc là một cái gì đó công cụ tìm kiếm thường không chia sẻ nhiều về.

Chúng tôi có một số gợi ý, như aa Stanford nguồn danh sách trang đã sử dụng trong giai đoạn đầu của công việc đối Google, trong đó bao gồm một tài liệu có tiêu đề hiệu quả Crawling qua URL Thứ tự. Giấy mà thảo luận về cách thức một chương trình thu thập dữ liệu tìm kiếm có thể ưu tiên mà các URL một con nhện có thể ghé thăm tiếp theo khi nó tìm thấy địa chỉ để các tài liệu trong khi trườn bò một trang.

Các nhà sáng chế của quá trình này Yahoo mô tả một số yếu tố của một quá trình thu thập dữ liệu trong hồ sơ bằng sáng chế:

Trình thu thập web sử dụng một loạt các thuật toán thu thập dữ liệu để xác định thứ tự mà các trang Web đang bò. Ví dụ, một đầu ra đầu tiên trong phương pháp tiếp cận liên kết có thể được sử dụng. Với phương pháp này, các liên kết được bò dựa trên thứ tự mà chúng được đặt trên một trang Web.

Một ví dụ khác, một cách tiếp cận tốt nhất “đầu tiên” có thể được sử dụng khi thứ tự liên kết nào được thu thập được chọn dựa trên liên kết thích hợp, ví dụ, các liên kết được coi là có liên quan nhiều hơn là thu thập thông tin trước khi liên kết được coi là ít có liên quan.

Họ cũng nói với chúng ta rằng nó là khá phổ biến cho các nhà quảng cáo để bao gồm các thông tin trong các URL đó giúp xác định người sử dụng, và theo dõi, nơi những du khách đến từ. Loại thông tin này có thể xuất hiện trong việc sử dụng các session ID, URL theo dõi, và các kỹ thuật khác mà gây ra một URL để thay đổi từ một khách truy cập khác.

Do những thay đổi, nếu các URL được lập chỉ mục, chỉ số công cụ tìm kiếm của có thể chứa rất nhiều các trang ở các URL khác nhau đó là bản sao của nhau hay không nên đã được thu thập thông ở nơi đầu tiên. Chúng tôi đang nói rằng:

Bởi vì mục đích của một trang Web thu thập là để khám phá các trang có chứa thông tin hữu ích cho người dùng web, nó sẽ là không hiệu quả và lãng phí các nguồn lực để thu thập thông tin và lập chỉ mục tất cả các link thoáng qua mà ý nghĩa chỉ được sử dụng như một theo dõi hoặc phiên định danh duy nhất.

Các quá trình trong hồ sơ bằng sáng chế này là nhằm mục đích tránh những loại liên kết thoáng qua.

Xác định kết thoáng

Trên một trang web, bạn có thể tìm thấy văn bản, một liên kết đến các trang khác, và advertisments. Những liên kết đến các trang khác có các URL trỏ đến các trang dịch vụ seo website có thông tin hữu ích để được thu thập và lưu trữ. Các quảng cáo có thể là một hình ảnh với một URL theo dõi nhúng. Khi một chương trình web bò sau URL theo dõi của advertisemen, nó được đưa đến một trang web khác, rất có thể nằm trên một máy chủ Web khác nhau.

Một trình thu thập yêu cầu các trang web từ các máy chủ lưu trữ nó, và được cung cấp các HTML từ trang. Nó phân tích thông qua HTML, và trích ra một danh sách của tất cả các URL từ trang, và lưu trữ chúng. Sau đó nó tạo ra một “làm mới” lệnh cho một bản sao mới của trang, sau một phút hoặc lâu hơn (nộp bằng sáng chế cho chúng ta biết rằng “trong khi một phút đã được tìm thấy để cho kết quả tốt nhất, bất kỳ khoảng thời gian có thể được sử dụng.”

Các bản làm mới của trang có thể khác nhau từ các bản sao đầu tiên. Có thể là các máy chủ Web có thể chèn vào các bản sao mới một quảng cáo mới với một URL theo dõi nhúng mới, thay thế các quảng cáo cũ. Crawler làm cho một danh sách của tất cả các URL từ trang, và các cửa hàng mà danh sách.

Danh sách các URL ban đầu được chiết xuất được so sánh với các URL mới được trích xuất. Các URL mà là trong thu thập dữ liệu đầu tiên của trang web đó đã biến mất trong thu thập dữ liệu thứ hai của các trang web được coi là thoáng qua, và không hữu ích cho bò hoặc đưa vào chỉ mục tìm kiếm.

Trong một phương án, tất cả các liên kết xuất hiện trong cả hai lần thu thập liên tiếp của cùng một trang được đánh dấu là thích hợp cho bò và đưa vào một chỉ số, và đang thực sự thu thập thông tin.

Phân đoạn trang để làm so sánh tương lai nhanh hơn

Thay vì so sánh tất cả các liên kết trên các lần thu thập trong tương lai của một trang, nó có thể được dễ dàng hơn để chỉ xem các phần của trang mà liên kết tạm thời đã được tìm thấy trên các lần thu thập trước đó. Các bằng sáng chế mô tả nó như thế nào có thể phá vỡ các trang thành các phần:

Một cách tiếp cận đối với việc xác định các phần của HTML có thể được thực hiện bằng cách sử dụng Document Object Model Tree (DOM) phân hủy. Một cây DOM là một đại diện của một phần của HTML sử dụng một cây của các thẻ HTML tags nơi nhóm như

có thẻ phụ câyvà lần lượt thẻ có thẻ lá

.

Nói chung, một cây DOM chứa thẻ và các văn bản và thuộc tính của chúng. Để xác định các liên kết tạm thời sử dụng ít crawl của trang, thu thập thông tin ban đầu có thể lấy một trang nhiều lần, phân hủy HTML bao gồm trang thành một cây DOM, xác định các liên kết thoáng qua và xác định các yếu tố DOM phụ cây thoáng có chứa các liên kết chỉ thoáng qua.

Khi thu thập các trang tương tự trong tương lai, nếu các bánh xích phát hiện trang đó có một cây DOM giống với trước đây trườn trường hợp, sau đó thu thập thông tin có thể xem xét các liên kết mới có nguồn gốc từ cùng một thoáng DOM phụ cây là thoáng qua mà không lần nạp thêm cùng một trang .

Đây là loại phân đoạn của các trang web không phải là duy nhất cho Yahoo.

Cả Google và Microsoft đã công bố hồ sơ bằng sáng chế và giấy tờ mô tả làm thế nào họ có thể phân khúc phần của trang web cho các mục đích khác nhau. Tôi đã viết về một số cách mà Google có thể làm một cái gì đó như thế trong Google và tài liệu Segmentation Indexing cho Local Search.

Microsoft đã viết về một vài phương pháp khác nhau để phân định các trang, và tài liệu nổi tiếng nhất của họ về vấn đề này có lẽ là VIPS: a Vision dựa trên trang Segmentation Algorithm (pdf).

Kể từ khi nhiều trang trên một trang web chia sẻ cùng một mẫu, loại phân đoạn này có thể hữu ích trong việc giúp đỡ các trình thu thập bỏ qua liên kết thoáng qua từ những khu vực trên các trang khác của cùng một trang web.

Các trang web xác định rằng là mục tiêu thường xuyên của Liên kết thoáng

Các URL của liên kết thoáng qua cũng có thể được xác định và thu thập được, để nó có thể bỏ qua chúng trong tương lai:

Theo một phương án, để làm giảm số lần nạp liên tục, một trình thu thập có thể cố gắng để xác định các trang web thường xuyên được sử dụng như là mục tiêu của các liên kết thoáng qua.

Một cách tiếp cận có thể được sử dụng liên quan đến việc xác định các liên kết tạm thời bằng cách sử dụng các kỹ thuật được mô tả ở trên, và tổng hợp thêm tất cả các liên kết của trang web mục tiêu và xác định các trang web mà hầu hết các liên kết là thoáng qua.

Việc thu thập sau đó có thể sử dụng một danh sách các trang web như vậy để xác định tất cả các liên kết tương lai với họ là các liên kết thoáng qua mà không thực hiện lần nạp thêm của cùng một trang.

Tôi không chắc chắn nếu điều này sẽ có tác động đến các liên kết không quảng cáo cho các trang trên các trang web cũng sử dụng advertisments.

Share this post


thiết kế logo theo phong thủy là rất cần thiết trong chiến dịch marketing quảng cáo video