Khi ai đó tìm kiếm Web, một trong những thách thức mà họ phải đối mặt thường được sử dụng đúng từ ngữ trong tìm kiếm của họ để tìm thấy những gì mà họ đang tìm kiếm.

Công cụ tìm kiếm xếp hạng các trang thường dựa vào cách nổi bật về từ truy vấn của người tìm kiếm xuất hiện trên các trang đó, và nếu một người tìm kiếm không sử dụng những từ thích hợp trong tìm kiếm của họ, họ có thể bỏ lỡ các trang web và các thông tin mà họ muốn tìm.

Ví dụ, một người nào đó tìm kiếm lưu trữ ở thành phố Ft web. Wayne có thể gõ các truy vấn vào một công cụ tìm kiếm [lưu trữ Fort Wayne Web], và không nhìn thấy nhiều trang về hosting tại chỗ bởi các thành phố thường được gọi là “Ft. Wayne “hơn là” Fort Wayne. “Tôi thấy mình thường xuyên bị thách thức bởi các loại vấn đề khi tìm kiếm thông tin về Washington, DC, hoặc District of Columbia, hoặc DC.

Một bằng sáng chế được cấp cho Google trong tuần này khám phá làm thế nào các công cụ tìm kiếm có thể mở rộng các thuật ngữ tìm kiếm mà người tìm kiếm sử dụng để bao gồm các từ đồng nghĩa trong tìm kiếm, để làm cho nó dễ dàng hơn cho người tìm kiếm để tìm thông tin trên Web. Trong Ft. Wayne dụ, điều này có thể có nghĩa rằng Google sẽ tìm kiếm các trang trên Web mà là thích hợp cho cả hai [lưu trữ Fort Wayne web] và [lưu trữ web Ft. Wayne].

The Fort Wayne dụ được lấy từ các bằng sáng chế, và các tác giả của sáng chế cung cấp một ví dụ khác của một truy vấn tìm kiếm của người tìm kiếm âm nhạc cho một đoạn video mà họ đang làm có thể sử dụng trong một tìm kiếm – [vòng miễn phí cho bộ phim flash]. Rất có thể là hầu hết người dân cung cấp âm nhạc mà có thể được sử dụng miễn phí cho các video sẽ sử dụng từ “music” hơn là “vòng”. Họ cũng có thể sử dụng từ “hoạt hình” hơn là “bộ phim.” Khi mà các loại tìm kiếm [ vòng miễn phí cho bộ phim flash] vào hộp tìm kiếm của Google, công cụ tìm kiếm có thể không quay trở lại các trang cung cấp nhạc miễn phí cho các hình ảnh động flash vì những trang không sử dụng các từ “vòng lặp” hay “bộ phim,” hoặc các từ “vòng” và ” bộ phim “được sử dụng trên một số trang mà không phải là rất nổi bật và các trang không được xếp hạng rất tốt trong Google cho những điều khoản.

Chúng tôi đang nói với các phát minh sáng chế, đó là các số từ ngữ trong một truy vấn tăng, vấn đề này trở nên nghiêm trọng hơn:

Như vậy, các tài liệu có đáp ứng thông tin của người sử dụng cần có thể sử dụng các từ khác với các thuật ngữ truy vấn được lựa chọn bởi người sử dụng để thể hiện các khái niệm về lãi suất. Kể từ khi công cụ tìm kiếm thường đánh giá các tài liệu dựa trên cách nổi bật thuật ngữ truy vấn của người dùng trong các văn bản, điều này có nghĩa rằng một công cụ tìm kiếm có thể không quay trở lại các tài liệu phù hợp nhất trong những tình huống như vậy (từ các tài liệu có liên quan nhất có thể không chứa thuật ngữ truy vấn của người dùng cách rõ ràng, hoặc tất cả).

Vấn đề này dần dần trở nên nghiêm trọng hơn khi số lượng các điều khoản trong một truy vấn tăng. Đối với các truy vấn dài hơn ba hoặc bốn từ, có khả năng là một trong những từ không phải là cụm từ để mô tả tốt nhất nhu cầu thông tin của người dùng.

Từ đồng nghĩa và ngữ cảnh

Một trong những cách đơn giản cho một công cụ tìm kiếm dịch vụ seo website để cố gắng tìm từ đồng nghĩa với các điều kiện mà người sử dụng trong các truy vấn để mở rộng những truy vấn sẽ được đến với một từ điển đồng nghĩa hoặc cơ sở dữ liệu của các từ đồng nghĩa và tra cứu các từ trong một truy vấn để xác định từ đồng nghĩa có thể. Nhưng có một số hạn chế để tiếp cận đó. Việc quan trọng nhất là ý nghĩa của một thuật ngữ thường được dựa vào ngữ cảnh của nó như thế nào được sử dụng.

Ví dụ, “âm nhạc” không phải là một từ đồng nghĩa thường tốt cho “vòng”, nhưng nó là một từ đồng nghĩa tốt trong bối cảnh của các truy vấn ví dụ trên. Hơn nữa, trường hợp này là đủ đặc biệt mà “âm nhạc” không được liệt kê như là một từ đồng nghĩa với “vòng lặp” trong Từ điển đồng tiêu chuẩn; nhiều ví dụ khác về từ đồng nghĩa phi truyền thống theo ngữ cảnh phụ thuộc có thể được xác định dễ dàng.

Và ngay cả khi đồng nghĩa thông thường có thể được xác định cho một thời hạn, nó có thể được khó khăn để xác định các từ đồng nghĩa đặc biệt để sử dụng trong các hoàn cảnh cụ thể của các truy vấn.

Các bằng sáng chế trình bày một quy trình cho việc tìm kiếm các từ đồng nghĩa cho các từ xuất hiện trong các truy vấn tìm kiếm, đánh giá chất lượng của những từ đồng nghĩa trong bối cảnh của một truy vấn cụ thể, và sử dụng những từ đồng nghĩa để mở rộng truy vấn và trả về các trang có liên quan để tìm kiếm.

Nó bắt đầu bằng việc tìm kiếm các truy vấn mà là như nhau, và thực hiện các bài kiểm tra trên những thuật ngữ truy vấn và cụm từ, trong khi nhìn vào các thông tin liên quan đến các truy vấn.

Vi dụ như:

Số lượng hoặc tỷ lệ phần trăm của thời gian cả hai thuật ngữ xuất hiện trong các truy vấn tìm kiếm trong một khoảng thời gian nhất định.
Số lượng hoặc tỷ lệ phần trăm của thời gian cả hai thuật ngữ xuất hiện trong một phiên tìm kiếm người dùng cụ thể.
Làm thế nào nhiều như nhau các kết quả tìm kiếm được trả về cho các truy vấn tìm kiếm ban đầu và cho một tìm kiếm nơi mà một từ đồng nghĩa ứng cử viên được thay thế.
Một khi các từ đồng nghĩa được tìm thấy rằng có thể thay thế tốt trong một truy vấn, các công cụ tìm kiếm có thể cung cấp một truy vấn thay đổi sử dụng từ đồng nghĩa như một gợi ý tìm kiếm, hoặc các truy vấn sửa đổi có thể được sử dụng để mở rộng phạm vi của các kết quả tìm kiếm trình bày cho một người tìm kiếm.

Vì vậy, một người nào đó tìm kiếm [Web hosting Fort Wayne] có thể được hiển thị một tập hợp các kết quả tìm kiếm với một đề nghị truy vấn ở trên cùng của kết quả với một liên kết đến kết quả cho [Web hosting Ft Wayne], hoặc họ có thể nhìn thấy một tập hợp các tìm kiếm kết quả bao gồm các trang phù hợp nhất cho cả hai [Web hosting Fort Wayne] và [Web hosting Ft Wayne].

Các bằng sáng chế là:

Xác định từ đồng nghĩa thuật ngữ truy vấn trong bối cảnh truy vấn
Được phát minh bởi John Lamping và Steven Baker
Gán cho Google
US Patent 7.636.714
Cấp ngày 22 tháng 12 2009
Nộp: 31 tháng 3 năm 2005

Trừu tượng

Một phương pháp được áp dụng cho điều kiện tìm kiếm để xác định từ đồng nghĩa hoặc các điều khoản thay thế khác được sử dụng trong một hệ thống thông tin. Truy vấn người sử dụng lần đầu tiên được sắp xếp theo danh tính người dùng và phiên. Đối với mỗi truy vấn của người dùng, một đa số giả truy vấn được xác định, mỗi truy vấn giả có nguồn gốc từ một truy vấn người sử dụng bằng cách thay thế một cụm từ của các truy vấn của người dùng với một token.

Đối với mỗi cụm từ, ít nhất là một ứng cử viên từ đồng nghĩa được xác định. Các từ đồng nghĩa ứng cử viên là một thuật ngữ được sử dụng trong một truy vấn người sử dụng ở vị trí của cụm từ, và trong bối cảnh của một truy vấn giả. Sức mạnh hoặc chất lượng của các từ đồng nghĩa ứng cử viên được đánh giá. Từ đồng nghĩa xác nhận có thể được, hoặc gợi ý cho người sử dụng hoặc tự động thêm vào chuỗi tìm kiếm của người dùng.

Làm thế nào các công trình Process

Một người nào đó nhập truy vấn ở công cụ tìm kiếm, và một tập hợp các trang có liên quan cho truy vấn được lưu lại và được xếp hạng dựa trên sự liên quan nhận thức của họ và tầm quan trọng.

Các công cụ tìm kiếm sau đó nhìn vào các thuật ngữ truy vấn, và có thể cố gắng để xác định các từ đồng nghĩa có thể cho các từ hoặc cụm từ trong truy vấn từ một danh sách đó có thể đã được tạo ra từ việc phân tích các bản ghi truy vấn các công cụ tìm kiếm của.

Để tạo ra danh sách đó, tất cả các truy vấn nhận được trong một khoảng thời gian nhất định có thể được xem xét và tiềm năng, hoặc từ đồng nghĩa ứng cử viên sau đó có thể được xác định.

Ví dụ, truy vấn ban đầu có thể là [vòng miễn phí cho bộ phim flash], và có thể được truy vấn trước đó trong nhật ký như [music miễn phí cho bộ phim flash] rằng có thể có giá trị xem xét.

Hoặc, các mảnh truy vấn với thẻ ký tự đại diện trong số họ có thể được sử dụng, chẳng hạn như [miễn phí * cho bộ phim flash].

Thông tin từ các bản ghi truy vấn về các truy vấn với các từ đồng nghĩa ứng cử viên trong số họ sau đó có thể được phân tích.

Ví dụ, thường xuyên như thế nào có ai đó tìm kiếm [vòng miễn phí cho bộ phim flash] trong một thời gian ngắn sau đó tìm kiếm [music miễn phí cho bộ phim flash] hoặc [vòng miễn phí cho các hoạt hình flash].

Các xét nghiệm khác cũng có thể được thực hiện là tốt, chẳng hạn như xác suất mà cả hai truy vấn có thể có một số kết quả tìm kiếm hàng đầu ở chung nếu ai đó tìm kiếm cho cả hai là những gì. Vì vậy, nếu trong một tìm kiếm cho [vòng miễn phí cho bộ phim flash] và tìm kiếm cho [vòng miễn phí cho các hoạt hình flash], có một số trang nhất định trong top 10 (hoặc một số số khác) đó là như nhau, sau đó ” movie “và” hoạt hình “là từ đồng nghĩa tốt trong bối cảnh của câu hỏi đó.

Phần kết luận

Các bằng sáng chế bao gồm một số ví dụ về cách các từ đồng nghĩa có thể được lựa chọn cho các từ xuất hiện trong các truy vấn, và là giá trị chi tiêu một số lượng tốt của thời gian trên, nếu bạn quan tâm đến làm thế nào một công cụ tìm kiếm như Google có thể mở rộng kết quả tìm kiếm cho người tìm kiếm bao gồm những từ đồng nghĩa.

Khi tôi tìm kiếm [huyện columbia bảo tàng], kết quả đầu sau khi kết quả địa phương là một trang mà không bao gồm các từ “Columbia.” Nếu tôi nhìn vào bản cache của trang tại Google, tôi đã nói rằng “Columbia “không xuất hiện trong văn bản neo trong các liên kết đến các trang, mà có thể là lý do tại sao nó hiện lên như là kết quả hàng đầu cho truy vấn của tôi. Nhưng, có rất nhiều các trang mà cũng phù hợp nhất cho những lời tôi sử dụng để tìm kiếm.

Kết quả tìm kiếm Google cho huyện columbia bảo tàng.

Được Google quyết định rằng có những từ khác hoặc cụm từ trên trang đó mà là từ đồng nghĩa với “huyện columbia” như “DC”, và thay đổi kết quả tìm kiếm của tôi để bao gồm trang đó?

Trong khi những bằng chứng không thuyết phục bởi bất kỳ phương tiện, điều thú vị là trong các kết quả tìm kiếm hàng đầu (qua các kết quả địa phương) cho truy vấn của tôi, từ viết tắt “DC” được in đậm như thể nó là một trong những thuật ngữ truy vấn của tôi. Google thường nhấn mạnh thuật ngữ truy vấn khi chúng xuất hiện trong kết quả tìm kiếm bằng cách sử dụng chữ in đậm để hiển thị tìm kiếm các trang web mà họ đang quay trở lại là có liên quan cho truy vấn được sử dụng trong một tìm kiếm.

Không có đề cập đến trong bằng sáng chế dịch vụ seo này mà Google có thể làm nổi bật hoặc hiển thị từ đồng nghĩa trong văn bản in đậm trong kết quả tìm kiếm nếu chúng được sử dụng để mở rộng kết quả tìm kiếm cho một truy vấn, và quá trình làm nổi bật được sử dụng bởi Google là một quá trình riêng biệt, nhưng điều thú vị là các tìm kiếm động cơ in đậm những từ đồng nghĩa với District of Columbia.

Điều này không có ý nghĩa gì đối với bạn như một người tìm kiếm hoặc như là một chủ sở hữu trang web nếu Google đang sử dụng quá trình này?

Đối với những người tìm kiếm, nó có thể có nghĩa rằng Google có thể thêm các trang kết quả tìm kiếm của bạn dựa trên những lời nó nhận thấy là từ đồng nghĩa với từ ngữ bạn sử dụng trong truy vấn của bạn. Tìm kiếm một cái gì đó trong khi bao gồm các từ “District of Columbia” trong tìm kiếm của bạn, và bạn có thể nhìn thấy cũng thấy các trang sử dụng “Washington, DC” hoặc “DC” thay vì “District of Columbia.”

Đối với chủ sở hữu trang web, nó có thể có nghĩa rằng nếu bạn nhắm mục tiêu cụm từ khóa cụ trên trang của bạn cho người tìm kiếm, mà các trang web khác sử dụng từ đồng nghĩa cho một số các từ trong cụm từ khóa của bạn lựa chọn cũng có thể hiển thị trong kết quả tìm kiếm tương tự như các trang của bạn.

Thêm vào – ngày 19 tháng 1 năm 2010 – Một bài Blog chính thức của Google đã vừa công bố trong đó mô tả một sự thay đổi gần đây của Google về cách Google xử lý các từ đồng nghĩa, cũng như việc sử dụng in đậm trong kết quả tìm kiếm để làm nổi bật những từ đồng nghĩa. Các mô tả âm thanh rất giống với quá trình trên, với việc sử dụng các từ đồng nghĩa được xác định trong bối cảnh.

Xem: Giúp máy tính hiểu ngôn ngữ

Lưu ý rằng tác giả của Google Blog bài chính thức, Steven Baker, là một trong những nhà phát minh có tên trên bằng sáng chế này là tốt

Matt Cutts cũng theo kịp với Thông tin thêm về các từ đồng nghĩa tại Google

Google cũng công bố một hồ sơ bằng sáng chế mà nhìn vào các từ đồng nghĩa trong bối cảnh, nhưng cũng sử dụng mô hình ngôn ngữ thống kê để dịch một truy vấn vào một ngôn ngữ khác và sau đó trở thành ngôn ngữ đầu tiên để cố gắng tìm nhiều hơn một cụm từ hoặc thuật ngữ đó có thể bao gồm các từ đồng nghĩa trong cùng một ngữ cảnh. Cách tiếp cận đó và một trong đó tôi đã mô tả ở trên có thể được nhìn thấy được liên quan trong một số cách. Tôi mô tả nó trong bài viết: Làm thế nào Công cụ Tìm kiếm Might Tìm từ đồng nghĩa để sử dụng để mở rộng Truy vấn Tìm kiếm.