The Wisdom của tìm kiếm Đám đông: Nghiên cứu google trên Datamining Queries

Các “World Wide Web của Facts” là chủ đề của một vài giấy tờ từ một nhà nghiên cứu của Google, Marius Pasca. Đang có thể trích xuất các thuộc tính class cho sự kiện từ như một Web của sự kiện có thể cung cấp một số lợi ích cho một số người.

Mới nhất trong các giấy tờ, Tổ chức và tìm kiếm World Wide Web của Facts Bước Hai: Khai thác Wisdom của Đám đông (pdf), đã được thảo luận tại 16 World International Wide Web Conference (WWW-07), và trước đó một, Tổ chức Tìm kiếm và World Wide Web của Facts – Bước Một: Một Fact-Million Extraction Challenge (pdf), được trình bày tại Hội nghị quốc gia thứ 21 trên Artificial Intelligence (AAAI-06)

Trong giải nén các dữ kiện từ các trang một cách lỏng lẻo tổ chức của Web, các thuộc tính cho các lớp học liên quan đến những sự kiện trên cũng có thể được lấy từ các trang web và truy vấn tìm kiếm từ ‘mà kết quả trong một chuyến viếng thăm các trang, và những thuộc tính class chiết xuất có thể được sử dụng trong một số cách khác nhau:

Xuất bản Web – những thuộc tính class có thể được sử dụng để đề xuất các chủ đề cho những tác giả con người tự thêm các mục mới vào các trang dịch vụ seo website như Wikipedia. Vì vậy, ví dụ, một trang trên một thiên thể mới được phát hiện có thể được tăng cường với các đề xuất tự động để bao gồm các thuộc tính lớp như bán kính, trọng lực bề mặt, và vận tốc quỹ đạo.

Câu hỏi Dịch vụ trả lời – (chẳng hạn như “? Các ngày sinh của Stephen Hawking là gì”), các thuộc tính lớp có thể được sử dụng để mở rộng câu hỏi trả lời để trang trải những câu hỏi mới và câu trả lời, và để hiểu được các dạng câu hỏi sẽ là hữu ích trong việc điều chỉnh các hệ thống để đáp ứng nhu cầu tìm kiếm thông tin thường xuyên.

Web tìm kiếm – Kết quả trả về cho một kh¶o truy vấn đến một thực thể có tên cụ thể (ví dụ, Pink Floyd) có thể được cải thiện bằng việc có thể cung cấp một tập hợp các dữ kiện cụ thể, dựa trên các thuộc tính trích trước cho các lớp học mà các thực thể có tên thuộc. Truy vấn mà cũng có thể được tinh chế thành các đề xuất truy vấn ngữ nghĩa chính đáng, bằng cách kết hợp nó với một trong những thuộc tính hàng đầu chiết xuất cho các lớp tương ứng (ví dụ, các album của Pink Floyd cho Pink Floyd).

Tìm kiếm mới Dọc – có thể được đề nghị cho các lĩnh vực như y tế và du lịch, bằng việc có thể bán tự động trích xuất các thuộc tính cho những sự kiện trong những chủ đề.

Tôi đã viết một chút về loại hình này khai thác các thuộc tính lớp từ các thuật ngữ tìm kiếm trong Mining truy vấn tài khoản để trích xuất thông tin từ trang Web. Bài viết này chỉ ra cụ thể những gì tác giả của nó coi là một trong những khía cạnh quan trọng nhất là phải chú ý đến các truy vấn tìm kiếm ‘có thể là:

Có lẽ khía cạnh hấp dẫn nhất của các truy vấn được, tuy nhiên, khả năng của họ để gián tiếp nắm bắt kiến ​​thức của con người, chính xác như họ hỏi về những gì đã biết. Thật vậy, người sử dụng xây dựng các truy vấn của họ dựa trên những kiến ​​thức thông thường mà họ đã sở hữu tại thời điểm tìm kiếm.

Truy vấn tìm kiếm dịch vụ seo đóng hai vai trò cùng một lúc: ngoài việc yêu cầu các thông tin mới, họ cũng gián tiếp truyền đạt kiến ​​thức trong quá trình này. Nếu kiến ​​thức nói chung là nổi bật hoặc có liên quan, người cuối cùng sẽ hỏi về nó, đặc biệt là khi số lượng người dùng và số lượng và chiều rộng của sự gia tăng kiến ​​thức sẵn có, vì nó là trường hợp với các Web như một toàn thể. Nhật ký truy vấn truyền đạt kiến ​​thức thông qua các yêu cầu có thể được trả lời bằng những kiến ​​thức khẳng định trong văn bản mô tả của các bộ sưu tập tài liệu.

Các giấy tờ đi vào chiều sâu trong thảo luận về việc thí điểm và đánh giá được tiến hành trong trích xuất thuộc tính class từ các truy vấn, và từ các trang. Đó là thú vị để xem làm thế nào các thông tin chứa trong những gì mọi người tìm kiếm có thể được sử dụng để cải thiện khả năng của các công cụ tìm kiếm để cung cấp câu trả lời cho câu hỏi yêu cầu một công cụ tìm kiếm.

Share this post


thiết kế logo theo phong thủy là rất cần thiết trong chiến dịch marketing quảng cáo video