Khám phá sự kết nối giữa những cuốn sách Trong Tìm kiếm Sách của Google

Vào tháng Chín năm 2007, các nhà khoa học nghiên cứu Google Bill Schilit và Okan Kolak công bố một tính năng mới cho Google Search Book mà họ gọi là Popular Passages. Các thông báo đến trong một bài đăng blog Tìm kiếm Sách Bên trong Google mang tên Dive vào hồ bơi meme với Google Book Search

Popular Passages cho chúng ta khả năng để tìm các kết nối giữa các cuốn sách bằng cách trích dẫn thú vị hay đoạn văn từ một cuốn sách hoặc tạp chí hoặc công bố, và cho thấy nơi những người xuất hiện trong các tác phẩm văn học khác. Ví dụ, các đoạn văn sau đây cho thấy cuốn sách lên Moneyball: Nghệ thuật của chiến thắng một trò chơi không lành mạnh:

Như vậy: thời gian gần đây trong một xác tàu của một con tàu ở California, một trong những hành khách gắn chặt một vành đai về anh ta với £ 200 của vàng ở trong đó, mà ông đã được tìm thấy sau đó ở phía dưới. Bây giờ, khi anh đã chìm – có anh vàng? hoặc có các vàng anh ta?

Quote John Ruskin này bắt đầu ra khỏi cuốn sách, và xuất hiện trong ít nhất 35 ấn phẩm khác.

Đoạn có thể được lấy từ các vật liệu trong một cuốn sách xuất hiện trong dấu ngoặc kép, như trên, hoặc ở những đoạn không thể viện chứng từ văn bản của cuốn sách. Ví dụ, một đoạn văn khác từ Moneyball xuất hiện trên trang 37 của cuốn sách:

Từ điểm nhìn của Phaolô, đó là điều tuyệt vời về các cầu thủ đại học: họ có số liệu thống kê có ý nghĩa. Họ chơi trò chơi nhiều hơn, chống lại sự cạnh tranh khốc liệt, so với người chơi trung học. Kích thước mẫu số liệu thống kê liên quan của họ đã lớn hơn, và do đó là một sự phản ánh chính xác hơn về một số sự thực đằng sau. Bạn có thể chiếu các cầu thủ đại học với sự chắc chắn lớn hơn bạn có thể chiếu các cầu thủ trung học. Các …

Các tính năng được ưa thích Passages nói với chúng ta rằng đoạn văn này cho thấy trong hai cuốn sách từ 2003-2008, và chúng tôi thấy rằng các cuốn sách khác, nó xuất hiện bên trong là
Các bóng chày Economist: Các trò chơi Real xúc

Khả năng tạo ra các liên kết giữa các tài liệu dựa trên những đoạn được chia sẻ giữa chúng, trong một bộ sưu tập rất lớn các tài liệu mà không chứa các liên kết với nhau Điều thú vị về các tính năng được ưa thích Passages Tìm kiếm Sách là.

Một sự thêm vào tính năng này xem xét các văn bản của các đoạn văn, và một số tiền nhất định từ sau khi họ để xác định điều khoản quan trọng mà đồng xảy ra trong bối cảnh của những đoạn văn, vì vậy mà các đoạn và các cuốn sách mà họ đang có trong có thể được tìm kiếm bởi những “ý tưởng chính.”

Những thách thức kỹ thuật đằng sau sự phát triển của Popular Passages và các ý tưởng quan trọng có thể tìm kiếm được mô tả trong một vài giấy tờ màu trắng từ các nhà nghiên cứu đằng sau các quá trình:

Tạo Liên kết bởi Mining Báo giá (pdf)
Khám phá một thư viện kỹ thuật số thông qua các ý tưởng Key (pdf) – thuyết trình (pdf)
Ngoài ra còn có một số hồ sơ bằng sáng chế của Google liên quan đến việc xác định các danh ngôn và các đoạn văn và ý tưởng quan trọng, và các bảng xếp hạng của những đoạn khi chúng xuất hiện như kết quả trong Tìm kiếm Sách của dịch vụ seo Google:

Xác định và liên kết Passages tương tự trong một văn bản kỹ thuật số Corpus
Được phát minh bởi William N. Schilit, Okan Kolak, và Adam Mathes
Phân về Google
US Patent Application 20090024606
Xuất bản ngày 22 tháng 1 năm 2009
Nộp: 20 tháng 7 2007

Trừu tượng

Một corpus chứa văn bản kỹ thuật số từ nhiều tài liệu. Một công cụ khai thác đoạn xác định đoạn tương tự như trong các tài liệu và lưu trữ dữ liệu mô tả sự giống nhau. Các nhóm công cụ khai thác đoạn đoạn tương tự thành các nhóm dựa trên mức độ tương tự hoặc các tiêu chuẩn khác.

Các công cụ khai thác đoạn xếp các đoạn văn tương tự được tìm thấy trong corpus văn bản dựa trên chất lượng hoặc các tiêu chuẩn khác. Một giao diện người dùng được trình bày bao gồm các liên kết siêu văn bản liên quan đến các đoạn tương tự, cho phép người sử dụng để điều hướng các tài liệu.

Xếp hạng đoạn tương tự
Được phát minh bởi William N. Schilit, Okan Kolak, và Justin John Paul Vincent-Foglesong
US Patent Application 20090055389
Đăng ngày 26 Tháng Hai 2009
Nộp: 05 tháng 6 năm 2008

Trừu tượng

Đoạn trong một ngữ liệu kỹ thuật số được ghi nhận và xếp hạng dựa ít nhất một phần vào đặc điểm của các trường hợp của những đoạn xảy ra trong ngữ liệu.

Đặc điểm này bao gồm sự phổ biến của các tác giả, các đặc điểm của những lời giới thiệu và sau đoạn tương tự, tần số xuất hiện của các đoạn trong corpus kỹ thuật số, độ dài của các đoạn tương tự, những lời của các đoạn tương tự, việc sử dụng dấu chấm câu với những đoạn văn tương tự, và sự lan truyền những đoạn tương tự trong corpus kỹ thuật số.

Các đặc điểm này được ghi và trọng để sản xuất điểm xếp hạng cho các đoạn văn liên quan. Các điểm xếp hạng được sử dụng cho các mục đích bao gồm lựa chọn đoạn để hiển thị gắn với một tài liệu và xếp hạng đoạn hiển thị để đáp ứng với một tìm kiếm.

Xác định các thuật ngữ chính liên quan đến Passages tương tự
Được phát minh bởi William N. Schilit và Okan Kolak
US Patent Application 20090055394
Đăng ngày 26 Tháng Hai 2009
Nộp: 30 Tháng một 2008

Trừu tượng

Điều khoản chính cho đoạn tương tự từ một ngữ liệu lớn được xác định và được sử dụng để tăng cường tìm kiếm và duyệt corpus. Các corpus chứa nhiều tài liệu như văn bản của cuốn sách.

Duyệt theo khái niệm được hỗ trợ bằng cách xác định một tập hợp các đoạn văn tương tự hoặc trích dẫn trong các tài liệu được lưu trữ trong các kho ngữ liệu và gán điều khoản quan trọng để đoạn mà các liên kết đoạn khái niệm có liên quan với nhau.

Bối cảnh của mỗi trường đoạn là được xác định và có thể bao gồm, ví dụ, văn bản xung quanh đoạn văn. Các bối cảnh của tất cả các trường đoạn tương tự được phân tích để xác định các điều khoản quan trọng cho việc thông qua tương tự.

Các điều khoản quan trọng có liên quan được phân tích để xác định mối quan hệ giữa các điều khoản quan trọng từ bộ đoạn văn tương tự khác. Các điều khoản quan trọng có thể được sử dụng như một cơ sở cho việc điều hướng các tài liệu trong các ngữ liệu. Các điều khoản quan trọng cho phép duyệt các tài liệu trong corpus bởi các khái niệm tham chiếu trong tài liệu.

Tìm kiếm Sách của Google cung cấp một số tính năng thú vị khác, chẳng hạn như:

Nhận xét của cuốn sách liệt kê,
Tài liệu tham khảo từ các trang dịch vụ seo website và các cuốn sách khác và các công trình học,
Liên kết đến các phiên bản khác của cùng một cuốn sách và sách liên quan,
Một danh sách các “thuật ngữ chính” xuất hiện trong cuốn sách với các liên kết đến nơi họ xuất hiện, và;
Một bản đồ của Google đến những nơi được đề cập trong cuốn sách.
Các giấy tờ màu trắng ở trên cho chúng ta biết được ưa Passages đã chứng tỏ là một trong những tính năng điều hướng phổ biến nhất của Tìm kiếm Sách của Google kể từ khi nó được phát hành.

Tôi không ngạc nhiên với sự thừa nhận điều đó. Đang có thể tìm thấy dấu ngoặc kép thú vị mà xuất hiện trong một cuốn sách, và được chia sẻ trong cuốn sách khác là một cách hấp dẫn để khám phá những ý tưởng trong cuốn sách được chia sẻ bởi các tác giả khác, và để xem làm thế nào những ý tưởng lây lan.

Thấy thế nào các nhà phát minh của Popular Passages đã đưa ra phương pháp của họ để tìm kiếm những đoạn chia sẻ thú vị trong văn bản được quét và xếp hạng chúng, trong những bài báo và những tài liệu bằng sáng chế trên, cho chúng ta hiểu thấu đáo cách thách thức của tìm kiếm và khám phá những ý tưởng có thể được phát hiện.

Điều này không có ý nghĩa gì đối với tìm kiếm trên web?

Xem xét sự phát triển của sẵn có của cuốn sách, tạp chí, và các tài liệu khác trên Web mà không có các siêu liên kết, phương pháp tìm kiếm thông tin như các liên kết tự động giữa Popular Passages trong những tài liệu in ấn và xác định các thuật ngữ truy vấn phù hợp với ý tưởng Key lấy từ văn bản liên quan đến các đoạn văn có thể trở nên khá phổ biến trên các trang web trong tương lai.

Share this post