Phương pháp tiếp cận mới của Google Để Indexing Và Stopwords

chụp màn hình của Google kết quả trên một tìm kiếm cho một phòng với một cái nhìn.

Cách đây không lâu, nếu bạn bước vào trong Google cụm từ (không có dấu ngoặc kép) “một căn phòng với một cái nhìn,” bạn có thể đã nhận được một số cảnh báo rằng truy vấn của bạn chứa “Stop Words”.

Dừng từ là những từ mà xuất hiện rất thường xuyên trong các văn bản và trên các trang web mà công cụ tìm kiếm thường sẽ bỏ qua chúng khi lập chỉ mục các từ trên trang. Đây có thể là từ ngữ thích: một, và, là, trên, trong, hay, chính là, với.

Good bye ngừng lời?

Trong đó tìm kiếm cho “một căn phòng với một cái nhìn”, bạn có thể nhận được kết quả như thế “, một phòng cho một cái nhìn,” hoặc “phòng để xem,” hoặc cụm từ khác thay thế một số từ dừng lại với những người khác. Điều đó đã làm cho nó ít có khả năng để tìm thấy chính xác những gì bạn đang tìm kiếm khi bạn tìm kiếm một cụm từ với từ dừng ở đó.

Tôi không nhìn thấy Google từ bỏ qua dừng lại nữa. Tuần trước, Dan Thies hỏi Dừng Words Are Dead! Tôi đã bỏ lỡ Memo khác?

Bằng sáng chế dịch vụ seo Google cấp mới này dường như để giữ một số câu trả lời cho sự biến mất của các từ dừng lại, và có khả năng một số vấn đề lập chỉ mục khác từ Google:

Tài liệu chương trình nén hỗ trợ tìm kiếm và phần giải nén
Được phát minh bởi Olcan Sercinoglu
Phân về Google
US Patent 7.319.994
Cấp 15 tháng 1 năm 2008
Nộp ngày 23 tháng 5 năm 2003

Bản tóm tắt không phải là dễ đọc, nhưng đó là sự tóm tắt mà các nhà phát minh đã đến bằng sáng chế, do đó, nó có giá trị xem tại:

Một phương án khác của sáng chế cung cấp một hệ thống tạo điều kiện truy cập vào một đại diện nén của một tập hợp các tài liệu, trong đó đại diện nén hỗ trợ tìm kiếm và giải nén phần.

Trong thời gian hoạt động, hệ thống nhận một yêu cầu tìm kiếm chứa thuật ngữ được tìm kiếm trong tập hợp các tài liệu. Để đáp ứng yêu cầu tìm kiếm, hệ thống nhận dạng xuất hiện của các điều khoản trong tập hợp các tài liệu theo con trỏ qua các đại diện nén sau.

Đại diện nén này mã hóa xuất hiện của một thuật ngữ như một con trỏ đến sự xuất hiện tiếp theo của thuật ngữ này để tạo điều kiện điều tra nhanh chóng của các lần xuất hiện của từ ngữ. Hơn nữa, các đại diện nén duy trì trật tự tuần tự giữa các học kỳ liền kề trong tập hợp các tài liệu, trong đó cho phép các điều khoản lân cận truy cập nhanh.

Có rất nhiều ý nghĩa đằng sau stopwords ngoài này biến mất. Các bằng sáng chế không trực tiếp giải quyết bằng cách sử dụng chỉ mục từ dừng:

Thông thường, với một truy vấn, nút cổ chai hiệu là thời gian cần để giải mã các lần xuất hiện (mà thường được đồng bằng mã hóa để tiết kiệm không gian, và do đó phải được theo dõi từ đầu) của thuật ngữ thường xuyên nhất xảy ra, đặc biệt là nếu hạn này là một cái gọi là stop-word như “the”.

Hệ thống sẽ tìm các từ ngữ ít phổ biến xuất hiện trong truy vấn, và sau đó nhìn xem nếu các từ dừng trong truy vấn đang ở gần đó.

Chúng tôi cũng được nói rằng tìm kiếm cho các cụm từ theo hệ thống này sẽ trở nên nhanh hơn rất nhiều:

Lưu ý rằng trong cụ thể, phù hợp với cụm từ sẽ trở nên nhanh hơn nhiều vì chúng ta sẽ chỉ cần phải giải mã một số giới hạn các điều khoản mà là ngay lập tức sau khi hoặc trước thời hạn ít nhất là phổ biến. Thao tác này sẽ có những phức tạp thời gian O (K * L * N) trong đó K là hạn tần số mã định danh (thảo luận trước đó), L là chiều dài của cụm từ, và N là số lần xuất hiện của thuật ngữ kém thường xuyên trong các cụm từ.

Hồ sơ bằng sáng chế liên quan

Tôi đã viết trước đây về một số tài liệu bằng sáng chế dịch vụ seo website liên quan mà khám phá một số quá trình khác mà làm việc với các khía cạnh của phương pháp nén được mô tả trong bằng sáng chế này.

Google xem xét xử lý truy vấn nhiều giai đoạn, trong đó mô tả một cách mà các tìm kiếm có thể được xử lý trong một số giai đoạn, theo các ứng dụng bằng sáng chế: hệ thống xử lý truy vấn Multi-giai đoạn và phương pháp để sử dụng với kho tokenspace

Google trên nhiều tầng Indexing và Multi-Dàn dựng Query Processing khám phá hệ thống bằng sáng chế của Google và phương pháp mã hóa và giải mã chiều dài thay đổi dữ liệu

Một lý do cho sự mất mát của các kết quả bổ sung, quá?

Trở lại vào tháng Mười Hai, một bài đăng ở blog chính thức của Google nói về The Ultimate Fate of Kết quả Bổ sung. Trong đó, chúng tôi đã nói từ Google rằng “thay vì tìm kiếm một số phần của chỉ số của chúng tôi ở độ sâu hơn cho các truy vấn tối nghĩa, chúng tôi hiện đang tìm kiếm toàn bộ chỉ số cho mỗi truy vấn.”

Sử dụng các quá trình lập chỉ mục trong ba hồ sơ bằng sáng chế có thể giải thích một số thay đổi đối với kết quả mà chúng ta thấy ở Google, nếu họ đang được sử dụng. Có thể họ cũng chiếm sự biến mất của các kết quả bổ sung không? Bạn nghĩ sao?

Share this post


thiết kế logo theo phong thủy là rất cần thiết trong chiến dịch marketing quảng cáo video