Yahoo Thay thế giả định Thứ hạng trang Với dữ liệu người dùng

PageRank là một thuật toán tính toán tầm quan trọng hoặc chất lượng của một tài liệu Web.

Nó có thể được sử dụng trong một số cách bởi một công cụ tìm kiếm, chẳng hạn như được kết hợp với các yếu tố liên quan để xếp hạng kết quả tìm kiếm, hoặc để xác định các trang web để thu thập thông tin (pdf) và cách thường xuyên để thu thập thông tin cho họ, hoặc đó là một phần của một cơ sở dữ liệu một tài liệu phải được đặt bên trong.

Các thuật toán tìm kiếm được dựa trên những giả định về cách mọi người sử dụng dịch vụ seo Web, làm thế nào họ có thể tìm kiếm, những gì họ có thể chú ý đến, và những gì họ có thể tìm thấy quan trọng. Đó là sự thật với PageRank trong cả lý thuyết, và làm thế nào nó có thể được sử dụng trong thực tế.

Giả định PageRank thách thức

Nó là tốt để xem folks trong các cộng đồng tìm kiếm thách thức một số giả định đằng sau PageRank. Một ứng dụng bằng sáng chế từ Yahoo, công bố tuần trước làm nảy sinh một số vấn đề, từ những người biết PageRank rất tốt.

Dưới đây là một số vấn đề các nhà phát minh của các điểm nộp hồ sơ bằng sáng chế liên quan đến một số giả định cơ bản về PageRank:

Không phải tất cả Liên kết là bình đẳng – những người không chọn ngẫu nhiên các liên kết trên các trang mà họ truy cập – một số trang quan trọng hơn những người khác, và một số ít khi tiếp ở tất cả như “từ chối” liên kết.

Giả định rằng tất cả các liên kết đi trong một trang Web được theo sau bởi một người lướt ngẫu nhiên thống nhất ngẫu nhiên là không thực tế. Trong thực tế, các liên kết có thể được phân loại thành các nhóm khác nhau, một số trong đó được tiếp hiếm khi nếu ở tất cả (ví dụ, liên kết từ chối trách nhiệm).

“Liên kết nội bộ” như vậy được gọi là ít đáng tin cậy và nhiều hơn nữa tự quảng cáo là “liên kết bên ngoài” chưa được thường xuyên trọng không kém. Những cố gắng để gán trọng để liên kết dựa trên các biện pháp tương tự IR đã được thực hiện nhưng không được sử dụng rộng rãi.

Xem, ví dụ, The Intelligent Surfer. Kết hợp xác suất của liên kết và thông tin nội dung trong PageRank (pdf), M. Richardson và P. Domingos, tiến bộ trong Hệ thống thông tin Processing Neural 14, MIT Press, 2002.

Surfers chán Đừng Tới Random Pages – một trong những giả định của các công thức PageRank là đôi khi, thay vì theo một liên kết trên một trang, “lướt ngẫu nhiên” sẽ trở nên buồn chán và chỉ cần đi bất cứ nơi nào khác một cách ngẫu nhiên. Các ứng dụng bằng sáng chế ghi chú rằng nó là không thực tế khi cho rằng hầu hết mọi người sử dụng web chọn cổng lớn và các trang nhà nhỏ với một xác suất như nhau. Khi ai đó lá một trang để đi nơi khác (một teleportation nhảy đồng phục cho bất kỳ trang ngẫu nhiên dưới PageRank) nó dường như không được bất kỳ trang ngẫu nhiên ở tất cả các nơi mà họ sẽ đi.

Surfers chán Đừng Chỉ Tới trang Trusted – khi mà “lướt ngẫu nhiên” lá thay vì liên kết sau đây, nó cũng không chắc rằng họ sẽ chỉ đi đến một tập tin cậy của các trang hoặc các trang web, dưới cái gì đó giống như TrustRank (Xem, ví dụ, Chống Spam Web với TrustRank – pdf). Giả định này thực sự không có gì để làm với cách mọi người thực sự sử dụng Web, nhưng thay vì trang bị thêm vào PageRank để chống thư rác liên kết thay vì “phản ánh hành vi của người sử dụng trong thế giới thực.”

Các trang Thay đổi và mất giá trị ở mức giá khác nhau – quá trình PageRank cũng bỏ qua rằng các trang được mua và thêm thắt, hoặc phân rã và trở nên ít có giá trị theo thời gian và làm như vậy ở mức giá rất khác nhau.

Đôi khi tính toán PageRank Cheat – một số sử dụng các công thức PageRank trong thực tế đang “thường được thực hiện đối với các kết hợp của các trang của trang web, máy chủ, hoặc tên miền với, còn được gọi là ‘không’ PageRank.” Xem Khai thác cấu trúc khối của Web cho máy tính PageRank (pdf)., Điều này có nghĩa rằng các liên kết giữa các trang đang được bằng cách nào đó để tổng hợp một khối cấp. Các ứng dụng bằng sáng chế nói với chúng ta rằng, “Thật không may, hầu hết các công nghệ tự động để thực hiện tập hợp này không làm việc tốt.”

Người sử dụng PageRank Sensitive Application Patent

Tôi đã đề cập rằng những người đứng sau các ứng dụng bằng sáng chế dịch vụ seo website biết PageRank tốt. Một trong những tài liệu toàn diện nhất và chi tiết tôi đã nhìn thấy trên PageRank là Cuộc điều tra về PageRank Computing, được viết bởi một trong những nhà phát minh có tên trong tài liệu sau đây. Nó cũng được trích dẫn trong việc nộp bằng sáng chế.

User-nhạy cảm pagerank
Được phát minh bởi Pavel Berkhin, Usama Fayyad M., Prabhakar Raghavan, Andrew Tomkins
Giao cho yahoo
US Patent Application 20080010281
Xuất bản ngày 10 tháng 1 năm 2008
Nộp: 22 Tháng Sáu năm 2006

Trừu tượng

Kỹ thuật này được mô tả để tạo ra một giá trị thẩm quyền của một trong những đầu tiên của đa số các tài liệu. Một thành phần đầu tiên của các giá trị thẩm quyền được tạo ra với tham chiếu đến các liên kết đi kèm với tài liệu đầu tiên. Các liên kết ngoài cho phép truy cập vào một tập hợp con đầu tiên của sự đa dạng của văn bản.

Một thành phần thứ hai của giá trị thẩm quyền được tạo ra với tham chiếu đến một tập hợp con thứ hai của sự đa dạng của văn bản. Mỗi tập con thứ hai của văn bản đại diện cho một điểm khởi đầu tiềm năng cho một phiên người dùng.

Một phần ba giá trị thẩm quyền được tạo ra đại diện cho một khả năng mà một người dùng phiên khởi xướng bởi bất kỳ một dân số của người sử dụng sẽ kết thúc với các tài liệu đầu tiên.

Các thành phần đầu tiên, thứ hai và thứ ba của giá trị thẩm quyền được kết hợp để tạo ra các giá trị thẩm quyền. Ít nhất một trong những người đầu tiên, thành phần thứ hai và thứ ba của giá trị quyền hạn được tính toán với tham chiếu đến dữ liệu người dùng liên quan đến ít nhất một số các liên kết ngoài và các tập con thứ hai của tài liệu.

Các ứng dụng bằng sáng chế cho biết thêm yếu tố của hành vi người dùng để tính toán PageRank.

Liên kết Trọng lượng – trọng lượng hoặc giá trị của các liên kết có thể bị ảnh hưởng bởi thực tế “dữ liệu người dùng đại diện cho một tần số mà các outbound link tương ứng đã được lựa chọn bởi một dân số của người sử dụng.”

Khả năng ngẫu nhiên rời đến một trang mới – cơ hội mà một người nào đó có thể để lại (hoặc dịch chuyển tức thời) đến một trang khác thay vì theo một liên kết trên một trang cũng chịu ảnh hưởng của dữ liệu người dùng.

Sự hài lòng với Found Trang – xác suất mà một người có thể dừng lại, và không ghé thăm trang mới bằng cách liên kết trên các trang họ đang ở trên cũng được tính toán bằng cách nhìn vào dữ liệu người dùng sau.

Ba thành phần này có thể được sử dụng để tạo ra một “giá trị quyền” cho một tài liệu trên Web.

Tầm quan trọng của anchor text, và các văn bản khác có liên quan với một liên kết, cũng được đề cập trong tài PageRank nhạy cảm:

Theo một phương án được nêu ra, một giá trị thẩm quyền của một đầu tiên một trong đa số các tài liệu được tạo ra.

Văn bản liên quan đến mỗi một đa số liên kết trong nước cho phép truy cập vào tài liệu đầu tiên được xác định.

Một trọng lượng được gán cho các văn bản có liên quan với nhau của các liên kết trong nước.

Mỗi phòng trong số trọng lượng có nguồn gốc với tham chiếu đến dữ liệu người dùng đại diện cho một tần số mà các liên kết trong nước tương ứng đã được lựa chọn bởi một dân số của người sử dụng.

Giá trị quyền hạn được tạo ra với tham chiếu đến các trọng.

Vai trò của dữ liệu người dùng

Dữ liệu người dùng đưa vào thuật toán này nên “phản ánh hành vi và / hoặc nhân khẩu học của một dân số sử dụng cơ bản.” Đó là dữ liệu người dùng thực tế phản ánh cách mà mọi người duyệt trang. Người sử dụng PageRank Sensitive có thể phản ánh “hành vi hướng dân số người dùng đối với các tài liệu, các trang, các trang web với, và các lĩnh vực truy cập, và các liên kết được lựa chọn.”

Những ảnh hưởng khác của một tài PageRank Sensitive

Các ứng dụng bằng sáng chế mô tả một số công thức toán học khác nhau để tính toán tài khoản này PageRank nhạy cảm. Tôi sẽ không để đào sâu vào những người. Nó cũng giải quyết một số ý nghĩa thú vị khác:

Tài Segment PageRank Cá nhân hoá – dữ liệu người dùng từ các cấu nhân khẩu học khác nhau (dựa trên tuổi tác, giới tính, thu nhập, vị trí người dùng, hành vi người dùng, vv) có thể được xác định, do đó kết quả tìm kiếm có thể là khác nhau cho những người từ những nhân khẩu học khác nhau. Điều này có thể được sử dụng với các phương pháp khác để PageRank cá nhân, giống như một PageRank Sensitive Topic.

Dân Visit Blocks – hành vi người dùng dựa trên thăm và duyệt các khối (các trang web, máy chủ, hoặc tên miền) có thể hữu ích trong việc tìm hiểu làm thế nào mọi người đi từ một khối để chặn khác, và làm tăng thêm một cách tiếp cận PageRank khối cấp dựa chủ yếu vào các liên kết giữa các khối.

Làm thế nào Passage of Time thể ảnh hưởng đến PageRank – PageRank nên được cập nhật thường xuyên vì các liên kết giữa các trang trên Web thay đổi theo thời gian. Các trang có thể được coi là trang cốt lõi cũng có thể thay đổi trong ý nghĩa, hoặc đi ra khỏi thời trang mặc dù các liên kết đến và đi từ các trang không thay đổi. Kết hợp dữ liệu người dùng vào PageRank có nghĩa là các sự kiện gần đây có thể được nhấn mạnh, và các sự kiện lớn tuổi giảm giá.

Chọn trang để Crawl – PageRank có thể được sử dụng trong việc xác định liệu để thu thập thông tin và thực hiện theo các liên kết liên kết với một trang. Việc bổ sung các dữ liệu người dùng trong PageRank có thể làm cho việc lựa chọn dễ dàng hơn.

Beyond PageRank để phân tích các văn bản liên kết với Liên kết – neo văn bản có thể là “một trong những tính năng hữu ích nhất được sử dụng trong bảng xếp hạng kết quả tìm kiếm Web lấy.” Tầm quan trọng của anchor text (và văn bản có liên quan) có thể được kết hợp với điểm số hành vi người dùng giống như các tầm quan trọng của các trọng liên kết có thể khác nhau về tài PageRank nhạy cảm.

Phần kết luận

PageRank, trong hầu hết các công thức khác nhau đã được mô tả trong hồ sơ bằng sáng chế và các giấy tờ, tập trung vào việc liên kết xuất bản trên web, và làm cho một số giả định về cách mọi người ghé thăm, trình duyệt, và các tài liệu sử dụng kèm theo các liên kết.

Người sử dụng PageRank Sensitive cố gắng để thay thế một số những giả định với dữ liệu người dùng thực tế về cách mọi người làm du lịch đến và sử dụng tài liệu Web.

Rất khuyến khích: David Harry đào khá sâu vào ứng dụng bằng sáng chế này cũng vậy, trong Yahoo, Page Rank và Teleportation Oh My! và cung cấp một cái nhìn của tài liệu này từ một góc độ khác nhau. David rút ra một số khía cạnh hấp dẫn của các tài liệu mà tôi đã làm không, như “The Web Garbage Collection Utility”, và khám phá những khía cạnh dữ liệu người dùng của việc nộp bằng sáng chế.

Share this post


thiết kế logo theo phong thủy là rất cần thiết trong chiến dịch marketing quảng cáo video