Năm 2005, John Lamping của Google đã đưa ra một bài thuyết trình cho một lớp học tại Berkeley về chất lượng thông tin , tiêu đề Trên internet , không ai biết bạn là một con chó (pdf) . Trong bài nói chuyện của mình, ông đưa ra những câu hỏi như :

Tại sao quảng cáo hàng ngày California trang Đức ?
Bao nhiêu ngành công nghiệp thư rác có thể thực hiện bằng cách gửi thư rác công cụ tìm kiếm ?
Một trong slide John Lamping từ chất lượng của mình trình bày thông tin cho thấy hai đoạn văn khác nhau, nơi phong cách Madlib chèn từ khoá đã được thực hiện trên nội dung.

Trong bài phát biểu của mình, ông đã chỉ ra cách mà mọi người đã cố gắng để thao tác kết quả tìm kiếm , chẳng hạn như chèn điên thư viên giống như các từ khóa vào các mẫu cho các trang như trong slide của mình ở trên , che đậy và thư rác khác phương pháp tiếp cận để tối ưu hóa trang , và trả tiền liên kết và bình luận gửi thư rác. Ngoài nói chuyện với khán giả về chất lượng học tập tìm kiếm, ông đã làm việc trên làm một cái gì đó để nâng cao chất lượng kết quả tìm kiếm .

Tôi đã viết về một bằng sáng chế John Lamping đồng phát minh trong một bài có tiêu đề Làm thế nào truy vấn Searchers ” Có thể ảnh hưởng Kết quả tìm kiếm tùy chỉnh của Google. Bài viết của tôi mô tả một bằng sáng chế năm 2003 khám phá làm thế nào để cải thiện thứ hạng tìm kiếm bằng cách nhìn vào kết quả cho các truy vấn liên quan. Năm 2005 , ông là một đồng minh với Mark Pearson trên một bằng sáng chế của Google cấp ngày hôm nay, trình bày một cách để tạo ra và sử dụng các tín hiệu chất lượng cho các tài liệu và các trang web dựa trên kết quả từ các truy vấn tìm kiếm.

Trả lại “tốt nhất” kết quả tìm kiếm

Hầu hết các bằng sáng chế bao gồm phần mô tả vấn đề mà họ có ý định để giải quyết , trong bằng sáng chế mới này, chúng tôi đang nói với mục đích là để trả lại kết quả tốt nhất cho một tìm kiếm dựa trên một thước đo về chất lượng của các văn bản bằng cách thêm một số điểm bổ sung chất lượng cho ít nhất một số câu truy vấn.

Khi bằng sáng chế đã được viết vào năm 2005 , chất lượng của các trang trả lại cho một truy vấn cụ thể được đo bằng một hồi thông tin ( IR) điểm số tính theo độ liên quan một tài liệu có thể là một truy vấn, và một số điểm dựa trên liên kết trỏ đến trang .

Rằng điểm số IR có thể được tạo ra bằng cách nhìn vào các trận đấu giữa các truy vấn và các từ trên một trang web. Nói cách phù hợp trong một truy vấn và tiêu đề của một trang có thể điểm số cao hơn một trận đấu giữa các truy vấn và lời nói trong phần cuối trang . Nếu văn bản phù hợp được tìm thấy trong các phông chữ có lớn hơn hoặc in đậm hoặc in nghiêng , văn bản có thể đếm nhiều hơn lời nói trong văn bản bình thường .

Một trang bao gồm tất cả các điều khoản trong một truy vấn cũng có thể có một số điểm IR cao hơn một trang mà chỉ bao gồm một hoặc một số các điều khoản .

Này và các loại tương tự của các tín hiệu có thể được kết hợp để tạo ra một số điểm IR cho một trang để xác định “chất lượng” của các kết quả trong các trang cho một tìm kiếm .

Ngoài việc sử dụng một số điểm IR cho các trang , một công cụ tìm kiếm có thể xem xét các cấu trúc liên kết giữa các trang để xếp hạng các tài liệu , mặc dù chúng ta biết rằng có những lúc mà cấu trúc liên kết có thể là ” không có sẵn, không đáng tin cậy , hoặc giới hạn trong phạm vi ” mà sẽ hạn chế sử dụng và giá trị của nó .

Một giải pháp cho những hạn chế của một số điểm dựa trên thông tin Retrieval (IR) và liên kết phân tích là cho các công cụ tìm kiếm để phân tích ” hiệp hội ” khác giữa các truy vấn và các trang được tìm thấy trong kết quả tìm kiếm cho những truy vấn, để tạo ra một ” điểm chất lượng ” cho những trang . Rằng điểm chất lượng có thể được tạo ra bằng cách nhìn vào :

Các truy vấn khác nhau một trang có thể được tìm thấy cho ,
Những gì neo văn bản là chỉ vào trang đó,
Làm thế nào nổi bật các văn bản trong một truy vấn có thể là trên trang đó, và
Làm thế nào thường xuyên những người chọn các trang nhất định để đáp ứng với các truy vấn cụ thể.
Liệu nó có vẻ giống như khi ai đó nhập truy vấn vào công cụ tìm kiếm mà họ đang đặc biệt yêu cầu, hoặc yêu cầu một trang mà họ đã có trong tâm trí? Một cái gì đó chúng ta thường đề cập đến như một truy vấn định hướng những ngày này? Nếu vậy, đó có thể là một tín hiệu của chất lượng của trang đó. Ví dụ, nếu tôi tìm kiếm [ ESPN ] , cơ hội được rằng tôi đang tìm kiếm các trang ESPN . Tìm kiếm của tôi cho [ ESPN ] và lựa chọn của tôi về trang chủ ESPN có thể được coi là một tín hiệu chất lượng của Google.

Khi bạn so sánh những thuật ngữ truy vấn với neo văn bản trong các liên kết trỏ đến một trang từ các kết quả tìm kiếm cho truy vấn đó, là các văn bản trong các liên kết này thường tương tự hoặc giống như các thuật ngữ truy vấn ? Không trang đó có xu hướng có liên kết nhiều hơn với nó bằng cách sử dụng những từ ngữ hơn các trang khác trong kết quả tìm kiếm giống nhau không? Một lần nữa, đó là một cái gì đó mà có thể được xem như là một tín hiệu chất lượng cho trang đó. Nếu bạn google [ ESPN ] , làm một hoặc hai trang có xu hướng có liên kết nhiều hơn trong đó bao gồm ” ESPN ” hơn so với các trang khác trong kết quả tìm kiếm . Một lần nữa, đó là một dấu hiệu tích cực “chất lượng” cho những trang đó.

Nếu có nhiều người tìm kiếm sử dụng một truy vấn nhất định hoặc một cái tương tự , và có xu hướng chọn một trang nào đó, đó là một tín hiệu có thể nâng cao điểm chất lượng của trang đó. Nếu hầu hết mọi người tìm kiếm [ ESPN ] có xu hướng chọn trang ESPN, đó là một tín hiệu chất lượng mà Google có thể theo dõi .

Các bằng sáng chế của Google trên điểm chất lượng cấp hôm nay là :

Phát sinh và sử dụng tài liệu và chất lượng trang web tín hiệu từ dòng truy vấn tìm kiếm
Được phát minh bởi John Lamping và Mark Pearson
Giao cho Google
US Patent 7.962.462
Cấp 14 tháng 6 2011
Nộp 31 tháng 5 2005

trừu tượng

Một hệ thống phân tích một hoặc nhiều dòng tìm kiếm để phát hiện một hoặc nhiều mối liên hệ giữa một tài liệu và một hoặc nhiều truy vấn trong một hoặc nhiều dòng tìm kiếm. Hệ thống tiếp tục xuất phát một giá trị cho tài liệu dựa trên các hiệp hội phát hiện và sử dụng giá trị bắt nguồn trong việc đánh giá chất lượng của các tài liệu liên quan đến một hoặc nhiều truy vấn tiếp theo với .

Điểm chất lượng và thông tin cập nhật Panda

Trên 24 tháng hai năm nay, Matt Cutts của Google và Amit Singhal đồng xuất bản một bài đăng blog tại Google Blog chính thức mang tên Tìm các trang web chất lượng cao hơn trong tìm kiếm, trong đó mô tả một sự thay đổi đáng kể trong cách mà Google xếp hạng trang trong kết quả tìm kiếm , mà sẽ tác động gần như 12% của tất cả các truy vấn tìm kiếm . Chúng tôi đã nói rằng cách tiếp cận mới sẽ làm giảm thứ hạng cho các trang chất lượng thấp hơn , và tăng thứ hạng cho các trang chất lượng cao hơn .

Bài viết cung cấp một số gợi ý như những gì Google xem là chất lượng cao và các trang chất lượng thấp , và nó đã được theo dõi bởi báo cáo nhiều hơn từ Cutts và Singhal , bao gồm một cuộc phỏng vấn chung với hai on March 3, 2011, TED 2011: ‘ Panda ‘ mà Ghét trại : A Q & A với Tìm kiếm kỹ sư trên của Google mà chúng ta học được nhiều hơn về bản cập nhật , bao gồm thực tế là nó được đặt theo tên một kỹ sư của Google có tên Panda .

Tôi đọc các cuộc phỏng vấn và khi săn bắn để biết thêm thông tin về kỹ sư đó, hy vọng tìm được một cái gì đó rằng ông có thể đã viết rằng có thể giúp cung cấp thêm thông tin, và sau ngày hôm đó đã viết Tìm kiếm Google cho Big Panda và Tìm kiếm Quyết định cây .

Nó xuất hiện mà tôi có thể tìm thấy các kỹ sư ngay khi tôi chạy qua Biswanath Panda , người đã tham gia với nghiên cứu làm thế nào để có hiệu quả và hiệu quả sử dụng một loại phương pháp tiếp cận máy học trên các tập dữ liệu rất lớn, như chỉ số web của Google, để so sánh và phân loại các trang dựa trên tính năng nhất định về những trang với một tập nổi tiếng của trang để xác định chất lượng của các trang này.

Trong TED 2011 cuộc phỏng vấn liên kết trong đoạn trên , Matt Cutts nói với chúng ta :

Và chúng tôi thực sự đã đưa ra một phân loại để nói , được rồi, IRS hoặc Wikipedia hay New York Times là hơn ở phía bên này , và các trang web chất lượng thấp hơn ở phía bên này . Và bạn thực sự có thể nhìn thấy lý do toán học …

Chúng tôi cũng đã nói rằng các tính năng được coi là tín hiệu tiềm năng của chất lượng được dựa trên một loạt các câu hỏi về các trang như hay không, bạn sẽ tin tưởng một trang web với thông tin thẻ tín dụng của bạn . Amit Singhal xuất bản một bài khác về bản cập nhật trên 06 Tháng 5 bao gồm một số các loại câu hỏi mà lấy cảm hứng từ bản cập nhật.

Dưới đây là năm đầu tiên trong số 23 liệt kê :

Bạn sẽ tin tưởng các thông tin được trình bày trong bài viết này ?
Là bài ​​viết này được viết bởi một chuyên gia hoặc người đam mê những người hiểu biết chủ đề tốt, hoặc là nó cạn hơn trong tự nhiên?
Liệu các trang web có những bài viết trùng lặp , chồng chéo, hoặc dư thừa trên cùng một chủ đề hoặc tương tự với biến thể từ khoá hơi khác nhau ?
Bạn có thể thoải mái đưa ra thông tin thẻ tín dụng của bạn vào trang web này ?
Có bài viết này có lỗi chính tả, phong cách , hoặc lỗi thực tế ?
Các câu hỏi bao gồm một loạt các chủ đề, từ sự tin tưởng và tín nhiệm , độ sâu của nội dung, các vấn đề liên quan đến cấu trúc trang web và ngữ pháp và chính tả. Nó đã không cung cấp mô tả chi tiết của các loại tính năng mà có thể được sử dụng để xác định chất lượng của các trang và các trang web .

Phương pháp mô tả trong bài báo Biswanath của Panda đã được thử nghiệm trong tìm kiếm tài trợ của Google để xem các tính năng tìm thấy trong các quảng cáo và các truy vấn và các trang đích có thể dự đoán tỷ lệ bị trả lại từ các trang đích những quảng cáo chỉ để . Thử nghiệm được mô tả trong bài báo, dự đoán Giá Bounce trong Tài trợ Tìm kiếm quảng cáo.

Nó khá có thể là cách tiếp cận cũng có thể được sử dụng để phân loại các tính năng trên các trang và các trang web để cung cấp điểm chất lượng cho họ mà có thể tăng hoặc giảm thứ hạng của họ trong các kết quả tìm kiếm.

Quá trình giao điểm chất lượng vào các trang web và các trang web là một cái gì đó Google đã được khám phá trong một thời gian trước khi các bản cập nhật Panda , như chúng ta có thể thấy trong thời gian gần đây được cấp bằng sáng chế này của Google trên tài liệu và tín hiệu chất lượng trang web từ dòng truy vấn tìm kiếm .

Panda có thể xem xét các tính năng khác để xác định điểm chất lượng cho các loại truy vấn khác nhau , nhưng ý tưởng về việc xác định “chất lượng” với một số điểm để thêm vào các điểm hồng ngoại và liên kết phân tích trong các trang xếp hạng có thể đã nhận bắt đầu của nó với bằng sáng chế này .

Nhìn sâu hơn vào các tín hiệu từ số điểm bằng sáng chế chất lượng , có một câu hỏi chính mà nó dường như tập trung vào .

Là một truy vấn yêu cầu cho một trang cụ thể ?

Các bằng sáng chế cho chúng ta biết rằng nó có thể chỉ định điểm đến một trang nếu một truy vấn tìm kiếm cụ thể được coi là “yêu cầu ” cho một hay nhiều trang . Điều này nghe có phần giống như cách Google có thể phản ứng một truy vấn mà họ tin rằng là định hướng trong tự nhiên, và khi một trang web cụ thể có khả năng là một trang có thẩm quyền cho một truy vấn cụ thể.

Một bằng sáng chế của Google mô tả cách khác mà Google có thể xác định một trang hoặc trang web đó có thể là “độc quyền” cho một truy vấn cụ thể là Tuyên truyền thông tin hữu ích giữa các trang web có liên quan , chẳng hạn như các trang web của một trang web , mà tôi đã viết trong một bài đăng năm 2007 Xác định tiêu đề Google Search Cơ quan Trang và Tuyên truyền Thẩm quyền Trang liên quan .

Rằng bằng sáng chế quan Trang nhìn vào một số tính năng, cả trên trang và off , và thậm chí một số bằng chứng ẩn để xác định xem một trang hoặc trang web cụ thể có thể có thẩm quyền cho một truy vấn cụ thể. Điều thú vị là John Lamping cũng là một trong những đồng minh niêm yết trên bằng sáng chế đó.

Một truy vấn tìm kiếm có thể nói là yêu cầu một hoặc nhiều trang nếu :

Các trang có văn bản tương tự như trong các truy vấn ở những nơi như tiêu đề trang, trong văn bản nổi bật của trang, hoặc trong các URL của trang.
Nếu có nhiều liên kết, có thể là một phần lớn , được tìm thấy trên các trang khác của trang web có văn bản tương tự như các điểm truy vấn đến trang hoặc các trang .
Nếu người sử dụng cùng một truy vấn hoặc một trong rất có liên quan có xu hướng chọn trang hoặc các trang kết quả tìm kiếm
Điểm có thể được giao cho rằng trang hoặc các trang của các công cụ tìm kiếm khi nó được tìm thấy rằng các truy vấn tìm kiếm được ” yêu cầu ” cho những trang đó.

Ví dụ , giả sử hai truy vấn có phần phổ biến – [ London Các khách sạn ] và [ Ritz Carlton ] . Hầu hết các liên kết bằng cách sử dụng văn bản ” Ritz Carlton ” có khả năng điểm đến một trang Ritz Carlton chính thức trên trang web , do đó, nó nhận được điểm cho các truy vấn khi mọi người tìm kiếm nó . Trên một tìm kiếm cho ” khách sạn London, ” liên kết sử dụng văn bản mà có xu hướng để trỏ đến một loạt các trang web khác nhau. Vì vậy , có lẽ không phải là bất kỳ trang nào mà đạt được điểm trên một tìm kiếm cho ” khách sạn London . ”

Các bằng sáng chế cho chúng ta biết rằng nó có thể tìm kiếm một phần lớn các liên kết trỏ đến một trang cụ thể trong tình huống đó , hoặc nó có thể xem xét một ngưỡng nhất định , chẳng hạn như 20 liên kết trỏ đến một trang, là đủ cho một trang để được điểm hướng tới một điểm chất lượng .

Một cách khác để tích lũy điểm chất lượng , như là một dấu hiệu cho thấy một truy vấn cụ thể có thể được ” yêu cầu ” cho một trang cụ thể dựa vào người khác sử dụng truy vấn lựa chọn cùng một trang. Số lượng người tìm kiếm trước lựa chọn cùng một trang có thể là một số quy định tối thiểu , một tỷ lệ nhất định, hoặc có thể là một ưu thế của người tìm kiếm.

Những điểm sau đó có thể được sử dụng như một tín hiệu chất lượng cho mỗi trang tương ứng để tìm kiếm tiếp theo được thực hiện tại các công cụ tìm kiếm , bất kể có hay không những người tìm kiếm followup bao gồm các điều khoản cùng một truy vấn . Có một vài cách khác nhau mà các điểm từ điểm chất lượng này có thể được thực hiện, như được mô tả trong bằng sáng chế , trong đó có thể ảnh hưởng đến PageRank của trang :

Các điểm giao có thể được sử dụng , ví dụ, trong bất kỳ loại tài liệu sau đó thực hiện chấm điểm / xếp hạng thuật toán. Trong một triển khai thực hiện , các điểm giao có thể được sử dụng như một đầu vào trong một tính toán PageRank tiếp theo.

Trong việc thực hiện một , một sự kết hợp của các điểm giao phù hợp với khía cạnh của sáng chế và kết quả của một tính toán PageRank có thể được sử dụng để lấy được một tín hiệu chất lượng . Sự kết hợp này, hoặc có thể là về toán học (ví dụ , trung bình ) hoặc (ví dụ , sử dụng tín hiệu khác nhau tại các địa điểm khác nhau hoặc thời gian trong một thuật toán xếp hạng / điểm ) .

Các điểm được giao, phù hợp với các khía cạnh của sáng chế, có thể thường được sử dụng như một tín hiệu của chất lượng tài liệu , và có thể được sử dụng trong nhiều cách khác nhau trong bất kỳ điểm / xếp hạng thuật toán, hoặc phát sinh các tín hiệu chất lượng khác được sử dụng trong một thứ hạng / ghi thuật toán.

Hạn chế mất hoặc điểm chất lượng

Theo cách tiếp cận trong sáng chế này , một trang có thể tích luỹ điểm hướng tới một điểm chất lượng khi công cụ tìm kiếm tin rằng các truy vấn ” hỏi ” cho một trang cụ thể như tôi mô tả ở trên .

Có một số yếu tố tiêu cực hạn chế và thậm chí tham gia vào phương pháp này điểm tích lũy .

Đối với một số truy vấn, truy vấn tìm kiếm nhất định trước khi được chỉ định có thể dẫn đến không có giao điểm với một hoặc nhiều trang được tìm thấy trong các kết quả tìm kiếm . Chúng tôi không đưa ra một ví dụ hoặc giải thích về những gì các truy vấn đặc biệt có thể được.

Nếu nó xuất hiện mà người tìm kiếm đang tìm kiếm một truy vấn cụ thể ” chỉ để cố gắng tích lũy điểm cho một tài liệu cụ thể “, sau đó các công cụ tìm kiếm có thể trừ điểm giao cho một trang . Chúng tôi cũng không nói chính xác những gì mà có thể có nghĩa là, nhưng nó âm thanh như thuê một số người để tìm kiếm một truy vấn cụ thể và có họ nhấp vào một kết quả nhất định có thể không được chào đón .

Buồn cười, nhưng tôi nhắc nhở một chút của Bing Sting của Google từ đầu năm nay.

Một trang có thể chỉ có thể tích luỹ một số điểm nhất định cho một truy vấn cụ thể , bất kể ai đang làm tìm kiếm. Số lượng các điểm từ một người dùng duy nhất cho một tài liệu cụ thể, hoặc một loạt các truy vấn cho các tài liệu khác nhau có thể được giới hạn là tốt. Số lượng các điểm từ cùng một giao thức Internet (IP) địa chỉ có thể được giới hạn trong một số lượng nhất định mỗi ngày hoặc mỗi tuần, quá .

Những gợi ý trang web Wide

Trong khi các bằng sáng chế mô tả cách trang điểm có thể được chỉ định chất lượng dựa trên hay không một truy vấn xuất hiện để được ” yêu cầu ” cho trang đó , kết luận để mô tả về các bằng sáng chế cho chúng ta biết những điểm chất lượng có thể là một trong hai ” bổ sung hoặc cách khác ” giao cho trang web có chứa các tài liệu.

Một trang web , theo các bằng sáng chế , được định nghĩa một cách rộng rãi như các tài liệu được ” dưới sự kiểm soát chung “, chẳng hạn như các trang :

Kết hợp với một tổ chức
Một tên miền riêng
Một tên máy chủ cụ thể
Được tạo ra bởi các cá nhân hoặc nhóm người cùng
Nói rộng hơn, một trang web có thể được xem xét bao gồm:

Một nhóm các tài liệu về một chủ đề
Một nhóm các tài liệu trong một ngôn ngữ đặc biệt
Một nhóm các tài liệu lưu trữ trong một quốc gia cụ thể
Một nhóm các văn bản viết bằng một phong cách viết đặc biệt
Một điểm được gán cho một trang cụ thể cũng có thể được coi là một “bỏ phiếu ” cho các trang web liên quan đến trang đó. Điểm giao ở các cấp độ khác nhau, cả hai mức tài liệu và mức độ trang web khác nhau , có thể được kết hợp trong một số cách , chẳng hạn như khi có bàn thắng và các trang xếp hạng.

kết luận

Quá trình này được mô tả trong bằng sáng chế mới được cấp của Google dường như thích hợp nhất để xác định kết quả tìm kiếm dẫn đường – trang tìm kiếm đã biết về và dường như muốn tìm thấy khi họ phát hành truy vấn của họ .

Một trong những bí ẩn đang diễn ra xung quanh các bản cập nhật Panda , trong thông báo ban đầu về họ, là bản cập nhật ” đáng chú ý tác động 11,8% các truy vấn của chúng tôi . ” Năm 2006, tôi đã viết một bài tại Search Engine Land mang tên Tại sao nhân dân Google Google? Sự hiểu biết liệu của người dùng để đo lường Searcher Ý định , về một bài thuyết trình từ nhà khoa học nghiên cứu của Google Dan Russell , người đã cung cấp một phân tích về các loại khác nhau của các truy vấn mà Google nhận được cho dù họ đã navigationa , thông tin, hoặc giao dịch. Google Panda tái sinh

Tại thời điểm truy vấn hướng lên tới khoảng 15% các tìm kiếm mà họ nhận được , giao dịch khoảng 22 % , và thông tin chiếm trận chung kết 63%. Tôi chưa thấy một cập nhật cho những tỷ lệ phần trăm từ họ, và có những cách khác để phân loại các truy vấn , nhưng nó có thể là những người đang thực hiện các truy vấn định hướng và ít hơn các loại khác . Là các truy vấn ” định vị ” các loại mà chúng tôi đã nói sẽ được ” đáng kể ảnh hưởng ” ?

Những gì thực sự thú vị về quá trình được mô tả trong bằng sáng chế là nó thiết lập một khuôn khổ cho giao điểm chất lượng đến các trang nói riêng và các trang web được sử dụng để xác định điểm chất lượng cho các trang , và những điểm chất lượng có thể có khả năng ảnh hưởng đến kết quả tìm kiếm cho các truy vấn liên quan mà có thể không được định hướng trong tự nhiên.

Nó không bao gồm hàng loạt các tính năng mà có thể được đánh giá theo những nâng cấp Panda dựa trên các câu hỏi Google trình bày cho các quản trị web về cách cải thiện chất lượng của các trang của họ . Trình bày Berkeley từ John Lamping , khoảng thời gian mà bằng sáng chế này đã được đệ trình , không cho chúng tôi biết rằng nhiều người trong những tính năng chất lượng là một mối quan tâm đến các kỹ sư tìm kiếm của Google vào thời điểm đó .