Công cụ ứng dụng tìm kiếm khác nhau

Anchor text trong một liên kết trỏ đến một trang thường được sử dụng bởi các công cụ tìm kiếm để xác định một trang được liên kết đến là về, và để xác định những từ và cụm từ trang đó là có liên quan cho.

Nhưng, có một số vấn đề đặt ra khi neo văn bản được sử dụng bởi các công cụ tìm kiếm theo cách đó. Dưới đây là một vài trong số họ:

Nếu một trang chỉ hai liên kết đến trang đích tương tự bằng cách sử dụng neo cùng một văn bản trong cả hai liên kết (ví dụ, trong điều hướng và footer của trang), nên sự liên quan của trang liên kết văn bản được trọng gấp đôi nếu có chỉ một link duy nhất từ ​​trang nguồn?
Nếu có một liên kết trên mỗi trang của một trang web vào một trang duy nhất của trang web đó (một liên kết rộng chỗ) bằng cách sử dụng neo cùng một văn bản, mỗi trong số những link cần tích lũy trọng lượng để xác định có liên quan của trang đó có thể cho các văn bản được sử dụng trong các liên kết?
Nếu có nhiều liên kết trên một trang này đến trang khác, hoặc liên kết trên toàn site đến trang khác, và các văn bản neo là khác nhau trong mỗi liên kết, nên các văn bản trong cả hai liên kết mang cùng một số lượng trọng lượng trong việc xác định những gì trang được liên kết đến nói về?

Nếu một trang web là đáng kể một tấm gương của một trang web khác, trọng lượng bao nhiêu nên neo văn bản từ trang web đầu tiên nhân bản của nó được đưa ra, và ngược lại?
Nếu một trang web được coi là “có liên quan” đến một trang web bằng cách sở hữu chung hoặc một số loại khác của mối quan hệ hợp tác, nên các neo văn bản trong các liên kết từ một trang web vào một trang web có liên quan được đưa ra cùng một lượng cân nặng phù hợp là anchor text trong link đến một trang web không liên quan?
Nếu một liên kết dường như đã được tạo ra để thúc đẩy các bảng xếp hạng của một trang đích trong kết quả tìm kiếm, trọng lượng bao nhiêu nên các neo văn bản của liên kết đó được đưa đến trang đích?
Đã có một số lượng lớn các loại giấy tờ, hồ sơ bằng sáng chế, bài viết, và viết blog mô tả PageRank và làm thế nào nó có thể được sử dụng trong bảng xếp hạng các trang cùng một công cụ tìm kiếm. Hiện đã có ít nhiều bài viết về một chủ đề rất liên quan – bao anchor text trong các liên kết có thể ảnh hưởng như thế nào có liên quan một trang có thể được xem xét cho các từ và cụm từ được sử dụng trong các liên kết này.

Trong những ngày đầu của Google, sự liên quan của anchor text đã được nhìn thấy bởi người sáng lập của nó như là một phần quan trọng trong cách trang trên dịch vụ seo Website nên được lập chỉ mục. Chúng ta được biết như sau về anchor text trong năm 1998, Sergey Brin và Lawrence Page tả The Anatomy of a Hypertextual cơ Web Search-Scale lớn:

2.2 Anchor Text

Các văn bản của liên kết được đối xử một cách đặc biệt trong công cụ tìm kiếm của chúng tôi. Hầu hết các công cụ tìm kiếm kết hợp các văn bản của một liên kết với các trang liên kết là trên. Ngoài ra, chúng tôi liên kết nó với trang điểm liên kết tới. Điều này có một số lợi thế. Đầu tiên, neo thường cung cấp mô tả chính xác hơn của các trang web so với các trang bản thân. Thứ hai, neo có thể tồn tại cho các tài liệu mà không thể được lập chỉ mục của công cụ tìm kiếm dựa trên văn bản, chẳng hạn như hình ảnh, các chương trình, và cơ sở dữ liệu. Điều này làm cho nó có thể quay trở lại trang web đó thực tế được thu thập thông. Lưu ý rằng các trang đã không được thu thập thông có thể gây ra vấn đề, vì họ không bao giờ kiểm tra tính hợp lệ trước khi được trả về cho người dùng. Trong trường hợp này, các công cụ tìm kiếm thậm chí có thể trở lại một trang mà không bao giờ thực sự tồn tại, nhưng có siêu liên kết trỏ đến nó. Tuy nhiên, nó có thể sắp xếp kết quả, do đó vấn đề cụ thể này hiếm khi xảy ra.

Ý tưởng này đã nhân giống anchor text đến trang nó đề cập đến đã được thực hiện trong World Wide Web Worm [McBryan 94] đặc biệt là bởi vì nó giúp tìm kiếm thông tin phi văn bản, và mở rộng phạm vi bảo hiểm tìm kiếm những tài liệu tải về ít hơn. Chúng tôi sử dụng tuyên truyền chủ yếu là vì neo neo văn bản có thể giúp cung cấp kết quả chất lượng tốt hơn. Sử dụng neo văn bản hiệu quả là kỹ thuật khó khăn vì những lượng lớn dữ liệu đó phải được xử lý. Trong thu thập dữ liệu của chúng tôi hiện nay là 24 triệu trang, chúng tôi đã có hơn 259 triệu neo mà chúng tôi lập chỉ mục.

Nhưng tuyên bố rằng thậm chí không nhắc đến một số vấn đề mà tôi nuôi trên. Hầu như năm mười một sau đó, chúng tôi đang bắt đầu thấy một số những vấn đề đang được xem xét trong nghiên cứu được công bố từ các công cụ tìm kiếm, mặc dù nếu tôi đã phải đoán, tôi sẽ nói rằng một số những vấn đề đã được băm thông qua và có thể giải quyết ở những nơi như Google.

Một bài báo được công bố hồi đầu năm nay và được trình bày tại hội nghị SIGIR’09 trong tháng Bảy, với các tác giả từ Microsoft Research Asia và Đại học Montreal, khám phá các mối quan hệ giữa các liên kết khi xác định trọng lượng bao nhiêu văn bản từ các liên kết nên được đưa ra trong việc xác định những gì một trang liên kết trỏ đến là về.

Giấy được dùng Neo văn với cấu trúc siêu liên kết của họ đối với Web Search, và trừu tượng từ giấy cung cấp một cái nhìn tổng quan tốt đẹp của các thăm dò:

Như một tốt bổ sung cho nội dung trang, neo văn bản đã được sử dụng rộng rãi, và được chứng minh là hữu ích, trong công cụ tìm kiếm thương mại. Tuy nhiên, các văn bản neo đã được giả định là độc lập, cho dù họ đến từ các trang web tương tự hay không.

Bằng trực giác, một văn bản neo từ các trang web không liên quan nên được coi là bằng chứng mạnh mẽ hơn từ cùng một trang web.

Bài viết này đề xuất hai phương pháp mới để đưa vào tài khoản các mối quan hệ có thể có giữa các văn bản neo. Chúng tôi xem xét hai mối quan hệ trong bài viết này: các liên kết từ các trang web tương tự và các liên kết từ các trang web có liên quan. Tầm quan trọng được giao để neo văn bản trong hai tình huống này là giảm giá. Kết quả thí nghiệm cho thấy hai mẫu xe mới tốt hơn các mô hình cơ sở giả định độc lập giữa các siêu liên kết.

Bài báo trình bày một số mô hình khác nhau liên quan đến trọng lượng bao nhiêu họ có thể cung cấp để neo văn bản từ các liên kết nằm trên cùng một trang, trên cùng một trang web, trên “có liên quan” các trang web, và nói với chúng tôi về một số thí nghiệm mà họ thực hiện nơi các trọng lượng khác nhau cho phù hợp của văn bản neo chơi vào các thí nghiệm.

Các tác giả đã xem xét một tập dữ liệu của 3.000 truy vấn lấy mẫu ngẫu nhiên, và khoảng 140 trở lại tài liệu cho mỗi truy vấn mà được phân loại bởi các biên tập viên của con người như chúng phù hợp (trên thang điểm từ 1-5 hay xấu để hoàn thiện). Sau đó, họ tách ra các truy vấn vào các truy vấn loại thông tin, và các truy vấn loại hải để kiểm tra tốt như thế nào kết quả lần lượt ra khi họ áp dụng một lượng thích hợp có trọng số khác nhau từ các mô hình neo văn bản khác nhau của họ.

Nghiên cứu của họ dường như chỉ ra rằng nếu họ tính nhiều liên kết từ cùng một tên miền như là một liên kết duy nhất, và cung cấp cho trọng lượng khác nhau để liên kết từ các trang dịch vụ seo web khác dựa vào việc có hay không có một mối quan hệ giữa các trang web, mà sự liên quan của anchor text trỏ tới trang tăng lên, đặc biệt là cho các truy vấn hàng hải.

Giấy không trả lời tất cả các câu hỏi mà tôi hỏi ở đầu bài viết này, nhưng nó cung cấp một số gợi ý như thế nào một công cụ tìm kiếm có thể xử lý một số trong những tình huống hoặc ngay bây giờ, hoặc trong tương lai. Đó chắc chắn là giá trị chi tiêu một số thời gian với nếu bạn lo ngại về việc một công cụ tìm kiếm có thể đối xử với anchor text trong các liên kết từ các trang web tương tự, hoặc từ các trang web có liên quan. Nó cũng có giá trị giữ một mắt mở để nghiên cứu thêm về các chủ đề từ nhóm Microsoft Research Asia.

Một câu hỏi mà tôi cần phải hỏi, và có ý định để khám phá trong tương lai rất gần, là những gì có thể là một công cụ tìm kiếm làm khi có chỉ không có nhiều liên kết (với liên kết anchor text) trỏ đến một trang? Có sự liên quan của siêu văn bản vẫn được sử dụng bằng cách nào đó để nói với một công cụ tìm kiếm một trang là về trong tình huống đó?

Share this post