Mới công cụ tìm kiếm của Microsoft Bing đã đưa ra trong tuần này với một số sự phô trương và hứng thú. Một điều cần xem cho là cách ngôn ngữ tự nhiên yếu tố tìm từ việc mua lại của Powerset của Microsoft sẽ xuất hiện trong phiên bản mới này của tìm kiếm của Microsoft.

Ngay bây giờ, bạn có thể có được một ý tưởng về cách Powerset hoạt động bằng cách riêng của mình trong việc tìm kiếm thông qua các bài viết Wikipedia, như kết quả này cho Albert Einstein.

Blog của Powerset đã được chuyển đến một địa chỉ mới tuần này trong cộng đồng Bing của các blog. Một bài viết gần đây trên blog gợi ý thêm thông tin về cách thức công nghệ của Powerset đã được sử dụng trong Bing.

Rất có thể công nghệ thậm chí nhiều hơn từ Powerset sẽ tìm cách xâm nhập vào các dịch vụ tìm kiếm từ Microsoft. Để có được một hương vị của những công nghệ đó có để cung cấp, đây là một số các hồ sơ bằng sáng chế mới nhất được gán cho Powerset, với cả một số lời bình luận từ tôi trên các ứng dụng hoặc các bài tóm tắt hoặc trích dẫn từ các tài liệu:

Semi-Automatic Ví dụ dựa trên cảm ứng của Quy định dịch Semantic để Hỗ trợ Ngôn ngữ tự nhiên Tìm kiếm
Được phát minh bởi Emmanuel Rayner, Richard Crouch, Hannah Copperman, Giovanni Lorenzo thione, và Martin Henk Van den Berg
Giao cho Powerset, Inc.
US Patent Application 20090138454
Đăng ngày 28 Tháng Năm năm 2009
Nộp ngày 29 tháng 8 năm 2008

Một công cụ tìm kiếm ngôn ngữ tự nhiên cố gắng trả lời các câu hỏi như “là một con bướm nhỏ như một con chuột?” Một công cụ tìm kiếm thông thường giống cho các trang có chứa từ khóa sẽ trả về một tập hợp các kết quả có chứa các từ như “bướm”, “nhỏ, “và” chuột “, và sẽ không trả lời các câu hỏi.

Câu trả lời cho câu hỏi đã làm với kích thước tương đối của những con chuột và bướm. Ứng dụng bằng sáng chế dịch vụ seo này khám phá một phương pháp để hiểu câu hỏi và cung cấp một câu trả lời có ý nghĩa với nó.

Đại diện cho hiệu quả Lời Sense Xác suất
Được phát minh bởi Rion Snow, Giovanni Lorenzo thione, Scott A. Waterman, Chad Walters, và Timothy Converse
Giao cho Powerset, Inc.
US Patent Application 20090094019
Đăng 09 Tháng Tư 2009
Nộp ngày 29 tháng 8 năm 2008

Từ ngữ có thể có ý nghĩa khác nhau hoặc các giác quan dựa vào cách chúng được sử dụng. Như một ví dụ, từ “in” có thể có nghĩa là văn bản xuất hiện trong một tài liệu, một bức tranh làm từ một khắc, một bản sao của một bộ phim trên phim, hoặc các hành động của việc tạo ra một tài liệu bằng cách in nó, trong số những ý nghĩa khác.

Cảm giác từ định hướng là một quá trình xác định đó có ý nghĩa của một từ được sử dụng khi các từ xuất hiện trong một đoạn văn bản. Trong một công cụ tìm kiếm ngữ nghĩa dựa, cung cấp các kết quả từ tìm kiếm cho một truy vấn có sử dụng một từ trong ý nghĩa dự định bởi một người tìm kiếm sẽ mang lại kết quả tìm kiếm tốt hơn. Lập chỉ mục cho nhiều giác quan có thể khác nhau của một từ có thể yêu cầu một số tiền khổng lồ lưu trữ. Ứng dụng bằng sáng chế này đề cập đến những cách để giảm yêu cầu đó bằng cách cho các giác quan khác nhau của các từ điểm số dựa trên xác suất mà cảm nhận được một từ có thể được đề cập đến trong một truy vấn.

Ngôn ngữ tự nhiên Hypernym cân Cân Đối Lời Sense định hướng
Được phát minh bởi Barney Pell, Rion Snow, và Scott A. Waterman
Giao cho Powerset, Inc.
US Patent Application 20090089047
Xuất bản ngày 02 tháng tư năm 2009
Nộp ngày 29 tháng 8 năm 2008

Từ và cụm từ có thể có nhiều hơn một nghĩa, mà có thể được gọi là giác quan khác nhau của một từ (hoặc cụm từ). Giác quan của Word có thể có một hoặc nhiều hypernyms, đó là rộng hơn, hoặc nhiều hơn ý nghĩa chung chung. “Blue” là một hypernym cho các giác quan của các từ “hải quân”, “thủy”, và “cyan.” Ngoài ra, “màu sắc” là một hypernym cho một ý nghĩa của từ “màu xanh”.

Hiểu được những hypernyms có thể dẫn đến kết quả tìm kiếm tốt hơn. Indexing hypernyms khác nhau cho một từ cũng có thể mất một số tiền khổng lồ của lưu trữ trong một chỉ mục tìm kiếm. Áp dụng điểm để các hypernyms có thể khác nhau dựa trên một xác suất mà có thể được chỉ ra trong một truy vấn có thể làm giảm yêu cầu đó là tốt.

Coreference Nghị quyết mâu thuẫn tư An-Sensitive Hệ thống xử lý ngôn ngữ tự nhiên
Inventd bởi Richard Crouch, Martin Henk Van den Berg, Franco Salvetti, Giovanni Lorenzo thione, và David Ahn
Giao cho Powerset, Inc.
US Patent Application 20090076799
Đăng 19 tháng 3 năm 2009
Nộp ngày 29 tháng 8 năm 2008

Có một ví dụ tốt đẹp từ nộp bằng sáng chế này để minh họa làm thế nào nó hoạt động trong việc tìm hiểu các từ khác nhau có thể tham khảo cùng một người hoặc nơi hoặc điều, như “coreferences” và lý do tại sao sự hiểu biết đó có thể là quan trọng.

Ai đó tìm kiếm các thuật ngữ “Picasso vẽ.” Một tài liệu mà có thể được trả lại cho người tìm kiếm có chứa văn bản, “Picasso đã được sinh ra ở Malaga. Ông đã vẽ bức Guernica. “Tài liệu khác có câu,” người bạn của Picasso Matisse vẽ mãnh liệt. “Nếu tất cả những thứ khác bằng nhau, một công cụ tìm kiếm thông thường có thể xếp hạng các trang thứ hai cao hơn lần thứ nhất bởi vì những lời” Picasso “và” vẽ ” gần nhau. Nếu nó có thể được hiểu là “anh” trong tài liệu đầu tiên đề cập tới Picasso, nó có thể được xếp hạng cao hơn và có thể là một kết quả có liên quan hơn.

Nhấn mạnh Kết quả tìm kiếm Theo nghĩa khái niệm
Được phát minh bởi Barney Pell, Scott Prevost, Giovanni Lorenzo thione, Brendan O’Connor, và Lukas Biewald
Giao cho Powerset, Inc.
US Patent Application 20090063472
Xuất bản ngày 05 tháng 3 2009
Nộp: 29 Tháng tám 2008

Quá trình được mô tả trong ứng dụng bằng sáng chế dịch vụ seo website này là một trong những nỗ lực để tìm thấy việc sử dụng các thuật ngữ truy vấn hoặc cụm từ trong tài liệu với ý của một người tìm kiếm, hiển thị các đoạn từ những tài liệu, và làm nổi bật việc sử dụng những thuật ngữ truy vấn, hoặc điều khoản nào ngữ nghĩa liên quan đến thuật ngữ truy vấn.

Xác định các mối quan hệ ngữ nghĩa trong Reported Speech
Được phát minh bởi Richard S. Crouch, Martin Henk Van Den Berg, David Ahn, Olga Gurevich, Barney D. Pell, Livia Polanyi, Scott A. Prevost, và Lorenzo thione
Giao cho Powerset, Inc.
US Patent Application 20090063426
Xuất bản ngày 05 tháng 3 2009
Nộp: 29 Tháng tám 2008

Một số điều kiện mà có thể được tìm thấy trong nội dung chia sẻ một mối quan hệ ngữ nghĩa, dựa trên những thứ như vị trí hoặc chủ đề của mình, và có thể được quyết định dựa trên ý nghĩa của những lời nói và cách chúng được sử dụng ngữ pháp trong các văn bản của một tài liệu. Hiểu những mối quan hệ có thể hữu ích trong việc đáp ứng các truy vấn, như trong các ứng dụng bằng sáng chế được liệt kê ở trên này.

Các tầng nấc Indexing Role cho Words trong một Index Tìm kiếm
Được phát minh bởi Martin Henk Van Den Berg, Richard S. Crouch, Giovanni L. thione, và Chad P. Walters
Giao cho Powerset, Inc.
US Patent Application 20090063473
Xuất bản ngày 05 tháng 3 2009
Nộp ngày 29 tháng 8 năm 2008

Hiểu như thế nào từ liên quan đến nhau trong một tài liệu có thể có nghĩa là kết quả tìm kiếm tốt hơn được trả lại cho người tìm kiếm.

Một công cụ tìm kiếm thông thường phải đối mặt với các truy vấn “người mua PeopleSoft” có thể trở lại một tài liệu có chứa các câu, “J. Williams là một sĩ quan, người sáng lập Vantive vào cuối năm 1990, được mua bởi PeopleSoft vào năm 1999, “bởi vì nó có chứa các từ khóa” người “,” mua “và” PeopleSoft. “Nhưng nó không trả lời các câu hỏi. Một phân tích ngữ nghĩa của câu truy vấn sẽ cho thấy một người tìm kiếm muốn biết ai là người mua PeopleSoft là, và phân tích ngữ nghĩa của tài liệu đó ví dụ sẽ thấy rằng nó không phải là một trận đấu qood cho truy vấn vì trang này là về việc mua lại Vantive của PeopleSoft.

Indexing thực tế đối với ngôn ngữ tự nhiên Tìm kiếm
Được phát minh bởi Martin Henk Van Den Berg, Daniel Babrow, Robert D. Cheslow, Barney D. Pell, Giovanni Lorenzo thione, và Chad Walters
Giao cho Powerset, Inc.
US Patent Application 20090063550
Xuất bản ngày 05 tháng 3 2009
Nộp ngày 29 tháng 8 năm 2008

Sự kiện được trích từ văn bản trong một cách mà có thể được sử dụng để chỉ số văn bản trong một cách hữu ích. Ví dụ, trong câu “,” Mary rửa một con mèo mướp màu đỏ. “Các mối quan hệ thực tế sau đây có thể được xác định:

đại lý (rửa, Mary)
theme (rửa, mèo)
mod (cat, đỏ)
mod (mèo, tabby)
Các đại lý là người diễn xuất, hoặc “rửa.” Chủ đề của câu là rửa của một con mèo. Modifiers về con mèo chỉ ra rằng nó là “màu đỏ”, và rằng đó là một “tabby.”

Nếu câu đã được thay đổi một chút để “Mary rửa tabby mèo màu đỏ của cô,” chúng tôi cũng sẽ có thể kết hợp “Mary” với “cô ấy”.

Tính Valence Of Expressions Trong Documents Đối Tìm kiếm Một Index Document
Được phát minh bởi Livia Polanyi, Martin Henk Van den Berg, và Barney Pell
Giao cho Powerset, Inc.
US Patent Application 20090077069
Đăng 19 tháng 3 năm 2009
Nộp ngày 29 tháng 8 năm 2008

Một số cụm từ và câu có thể được hiểu là tích cực, tiêu cực, hoặc trung tính trên một chủ đề, người, đối tượng, hoặc sự kiện. Có khả năng xác định và phân biệt với tình cảm giữa khác nhau trong văn bản có nghĩa là một công cụ tìm kiếm có thể trở lại một kết hợp của các trang thể hiện tình cảm khác nhau để đáp ứng với một câu hỏi như “Điều gì làm bác sĩ suy nghĩ về cải cách Medicare?”

Kiến thức duyệt trên cơ sở quan hệ ngữ nghĩa
Được phát minh bởi Franco Salvetti, Giovanni Lorenzo thione, Richard S. Crouch, David Ahn, Lukas Biewald, Brendan O’Connor, và Barney Pell D.
US Patent Application 20090070322
Xuất bản ngày 12 tháng 3 2009
Nộp: 29 Tháng tám 2008

Trừu tượng

Máy tính có thể đọc được phương tiện truyền thông và các hệ thống máy tính để tiến hành quá trình ngữ nghĩa để tạo điều kiện chuyển hướng của kết quả tìm kiếm bao gồm bộ các bộ đại diện cho sự kiện liên quan đến nội dung của tài liệu để đáp ứng với các truy vấn thông tin. Nội dung của tài liệu được truy cập và cấu trúc ngữ nghĩa có nguồn gốc bằng cách chưng cất đại diện ngôn ngữ từ các nội dung. Nhóm của hai hoặc nhiều từ, gọi là các bộ, được chiết xuất từ ​​các tài liệu hoặc các cấu trúc ngữ nghĩa. Tuples có thể được lưu trữ tại một chỉ số tuple. Những đại diện của các bộ quan hệ được hiển thị ngoài các tài liệu lấy ra để đáp ứng với một truy vấn.

Lưu trữ hiệu quả và Thu hồi Chức năng gửi bài
Được phát minh bởi Chad Walters, Giovanni Lorenzo thione, Barney Pell, Lukas Biewald, và Brendan O’Connor
Giao cho Powerset, Inc.
US Patent Application 20090132521
Đăng ngày 21 Tháng 5 năm 2009
Nộp ngày 29 tháng 8 năm 2008

Nhiều loại các thuật toán lập chỉ mục công cụ tìm kiếm sử dụng các chỉ số ngược. Một chỉ số đảo ngược là một cấu trúc dữ liệu được sử dụng để lưu trữ một ánh xạ giữa các từ và vị trí của các điều khoản trong một cơ sở dữ liệu, tài liệu, hoặc thiết lập các tài liệu. Ví dụ, một chỉ số đảo ngược có thể được sử dụng để lưu trữ một ánh xạ giữa các từ và World Wide Web (“Web”) các trang trong đó các từ được sử dụng. Dữ liệu xác định các địa điểm cụ thể mà mỗi kỳ xuất hiện trong một tài liệu cũng có thể được lưu trữ trong một chỉ số đảo ngược. Danh mục các tài liệu trong đó một thuật ngữ cụ thể xuất hiện được thường được gọi là một danh sách gửi bài.

Một số loại thuật toán lập chỉ mục tạo ra một mục riêng biệt trong các chỉ số đảo ngược cho mỗi vai trò ngữ nghĩa rằng một hạn xảy ra tại. Điều này dẫn đến một danh sách gửi bài riêng biệt và một lối đi riêng trong chỉ mục vào danh sách niêm yết, được gọi là các từ vựng, cho mỗi term- đôi vai. Ví dụ, một danh sách niêm yết có thể được tạo ra trong các chỉ số cho từ “chó” và vai trò “chủ thể”. Một danh sách niêm yết có thể được tạo ra cho các từ “bánh” và vai trò “đối tượng”. Để xác định tài liệu mà một con chó là chủ đề và một chiếc bánh là đối tượng, chẳng hạn như ví dụ như khi một con chó được mô tả như là ăn một chiếc bánh, một hoạt động giao được thực hiện giữa hai danh sách niêm yết. Ngữ nghĩa cụ tìm kiếm dựa trên có thể sử dụng loại này lập chỉ mục và hồi tài liệu.

Việc nộp đơn sáng chế mô tả một cách tiếp cận để làm cho việc sử dụng đăng tải danh sách hiệu quả hơn.

Vòng lặp cho Áp dụng hạn chế những lần xuất hiện cấp hạn trong ngôn ngữ tự nhiên Tìm kiếm
Được phát minh bởi Giovanni Lorenzo thione, Barney Pell, Chad Walters, và Richard Crouch
Giao cho Powerset, Inc.
US Patent Application 20090070298
Xuất bản ngày 12 tháng 3 2009
Nộp ngày 29 tháng 8 năm 2008

Một chỉ số có thể hỗ trợ đại diện cho một tập văn lớn của thông tin để các vị trí của các từ và cụm từ có thể được xác định nhanh chóng trong chỉ mục. Một công cụ tìm kiếm truyền thống có thể sử dụng từ khoá như thuật ngữ tìm kiếm như vậy mà các bản đồ chỉ số từ các từ khóa chỉ định bởi một người dùng vào các bài báo hoặc tài liệu mà các từ khóa xuất hiện. Chỉ số ngữ nghĩa có thể đại diện cho ý nghĩa ngữ nghĩa của các từ, thêm vào các từ chính họ.

Mối quan hệ ngữ nghĩa có thể được gán cho chữ trong cả mua lại nội dung và tìm kiếm của người dùng. Truy vấn đối với các chỉ số ngữ nghĩa có thể được dựa trên không chỉ lời nói, nhưng từ trong vai trò cụ thể. Các vai trò là những người chơi của các từ trong câu hoặc cụm từ, được lưu trữ trong chỉ mục ngữ nghĩa.

Chỉ số ngữ nghĩa có thể được coi là một chỉ số đảo ngược đó là một cơ sở dữ liệu tìm kiếm được nhanh chóng mà mục là những từ ngữ nghĩa (tức là từ trong một vai trò nhất định) để trỏ đến các văn bản, hoặc các trang web, mà những lời nói xảy ra. Chỉ số ngữ nghĩa có thể hỗ trợ chỉ mục hybrid. Indexing lai như vậy có thể kết hợp các tính năng và chức năng của cả hai chỉ mục từ khóa và lập chỉ mục ngữ nghĩa.

Checkpointing Vòng lặp Trong Tìm kiếm
Được phát minh bởi Chad Walters, Lukas Biewald, Nitay Joffe, và Andrew James Alan
Giao cho Powerset, Inc.
US Patent Application 20090070308
Xuất bản ngày 12 tháng 3 2009
Nộp ngày 29 tháng 8 năm 2008

Trừu tượng

Công cụ và kỹ thuật được mô tả trong tài liệu này cho checkpointing vòng lặp trong khi tìm kiếm. Những công cụ này có thể cung cấp các phương pháp đó bao gồm vòng lặp instantiating để đáp ứng với yêu cầu tìm kiếm. Các vòng lặp bao gồm các thông tin trạng thái đó vẫn không đổi trong một cuộc sống của iterator cố định, và hơn nữa bao gồm các thông tin trạng thái năng động được cập nhật mới trong cuộc sống của iterator. Các vòng lặp đi qua thông qua danh sách các bài đăng liên quan thực hiện các yêu cầu tìm kiếm.

Khi vòng lặp đi qua các danh sách gửi bài, các vòng lặp có thể cập nhật thông tin trạng thái năng động của họ. Sau đó các vòng lặp có thể đánh giá liệu để tạo ra các trạm kiểm soát, với các trạm kiểm soát bao gồm đại diện của các thông tin trạng thái năng động.