Google khai thác thực tế và xác định đối tượng tài liệu

Khai thác thực tế đang phát triển như là một phương pháp mà công cụ tìm kiếm có thể sử dụng để xác định và hiểu những gì các trang trên trang web là về, và để thu thập dữ kiện về đối tượng và trả lời các câu hỏi của người gửi truy vấn đến một công cụ tìm kiếm.

Một bài báo gần đây từ Google cung cấp một cái nhìn tổng quan tốt đẹp của một số phương pháp được sử dụng để khai thác thực tế. Một ứng dụng bằng sáng chế Google công bố tuần trước khám phá nhìn vào tiêu đề trên trang, và neo văn bản trong các trang có liên quan trên cùng một tên miền để xác định một chủ đề cho một tài liệu.

Giấy là chứng thực và Học kiện từ web (pdf), và quá trình được mô tả bên trong nó là đã được gọi là Grazer. Dưới đây là một chút về cách thức hoạt động:

Nó bắt đầu với sự kiện được nhập khẩu từ một trang web và đưa họ như được biết sự thật (sự kiện hạt giống). Sau đó, nó sẽ cố gắng để tìm thấy đề cập đến các sự kiện hạt giống trên các trang web khác. Điều này liên quan đến việc lấy các trang có liên quan với từng đối tượng và sau đó chứng thực cho sự kiện trong đó.

Một khi nó tìm thấy đề cập đến các sự kiện trong một trang, một khám phá mô hình chính xác cao được áp dụng cho các khu vực xung quanh để tìm các mẫu HTML lặp đi lặp lại. Nếu một mô hình có thể được tìm thấy và nó có chứa một trong các sự kiện ví dụ, Grazer sẽ trích xuất tất cả các sự kiện phù hợp với mô hình và thêm chúng vào thực tế được biết thiết lập.

Việc mở rộng được gọi tập thực tế sẽ được sử dụng trong các bước học tập tiếp theo. Đây là một quá trình bootstrapping và tập thực tế được biết không ngừng phát triển lớn hơn. Quá trình học tập tiếp tục cho đến khi một điều kiện dừng là hài lòng.

Các ứng dụng bằng sáng chế dịch vụ seo mà tôi đã đề cập cổ phiếu một tác giả với giấy trong Shubin Zhao. Đó là tập trung là khi cố gắng tìm một chủ đề cho các tài liệu đã có những sự kiện được chiết xuất từ ​​họ. Nó cách tiếp cận làm điều này bằng cách nhìn vào tiêu đề trên trang và neo văn bản từ các liên kết trỏ đến trang từ các trang liên quan trong cùng một miền.

Bài viết cung cấp một giới thiệu tốt đẹp đến các phương pháp mô tả trong ứng dụng bằng sáng chế.

Các ứng dụng bằng sáng chế:

Xác định chủ đề tài liệu bằng cách sử dụng tiêu đề và neo văn bản của tài liệu liên quan
Được phát minh bởi Shubin Zhao
US Patent Application 20070240031
Đăng ngày 11 Tháng 10 năm 2007
Nộp: 31 tháng 3 năm 2006

Trừu tượng

Một hệ thống và phương pháp xác định một chủ đề cho một tài liệu nguồn. Các hệ thống và phương pháp xác định một tập hợp các tài liệu ngang hàng từ các tên miền như các tài liệu nguồn. Đối với mỗi tài liệu ngang hàng, một bộ sưu tập các liên kết văn bản có chứa một liên kết đến tài liệu peer được xác định. Đối với mỗi tài liệu ngang hàng, một nhãn hiệu được tạo ra bằng cách chọn lâu nhất trận đấu neo văn bản của các văn bản liên kết.

Một mô hình giữa các nhãn và tiêu đề của bộ sưu tập các tài liệu peer được suy luận. Các chủ đề của các nguồn tài liệu được xác định bằng cách áp dụng các mô hình để tiêu đề của tài liệu nguồn.

Một số bài viết liên quan trên Fact Extraction

Ứng dụng bằng sáng chế này đi vào nhiều chi tiết về các thành phần của một kho lưu trữ thực tế. Tôi đã đi vào rất nhiều chi tiết về chủ đề đó trong một bài trước tại: Google trên Chiết xuất và Visualization của Facts

Nó cũng nói về người lao công Google, đó là những chương trình phần mềm được sử dụng để xử lý dữ liệu được tìm thấy trên Web. Tôi đã đưa ra một danh sách của một số các loại khác nhau của các chương trình y mà có thể được sử dụng bởi Google trong Google gác cổng Clean Up kiện trên Web

Mùa hè vừa qua đã thấy rất nhiều các ứng dụng bằng sáng chế dịch vụ seo website được công bố bởi Google liên quan đến khai thác thực tế, và tôi tạo ra một danh sách rất nhiều trong số họ tại: Google & Fact Extraction, Normalization, và Visualization

Share this post


thiết kế logo theo phong thủy là rất cần thiết trong chiến dịch marketing quảng cáo video