Tin tức xếp hạng google và điểm chất lượng đối với nguồn tin tức

Là cơ quan thông tấn lớn, với một phạm vi rộng phạm vi bảo hiểm quốc tế về nhiều chủ đề, với số lượng lớn của các phóng viên, và tinh chỉnh các nguồn bài tốt nhất của tin tức hơn giấy tờ nhỏ hơn và nhiều địa phương, hoặc blog ngách hẹp?

Một bằng sáng chế trên bảng xếp hạng bài viết trong Google News được cấp trong tuần này mà ban đầu được đệ trình vào năm 2003, và sẽ thảo luận về một số yếu tố xếp hạng mà nó có thể sử dụng để trình bày bài báo dựa trên “chất lượng” của các nguồn tin tức có liên quan.

Điều gì là rất thú vị về nó là nó cung cấp một số cái nhìn sâu sắc vào các giả định đằng sau những yếu tố xếp hạng. Tôi nghi ngờ rằng Google có thể đã thay đổi lập trường của họ về một số giả định đằng sau những yếu tố kể từ đó.

Bằng sáng chế không bao gồm đầy đủ các tín hiệu mà Google có thể xem xét trong việc xếp hạng các câu chuyện tin tức, chẳng hạn như sự tươi mát của những tin tức (như đã nêu trong đơn sáng chế của Google trên Universal Search), hoặc có hoặc không phải là một nguồn nào đó là bản gốc.

Là một sang một bên, một khá kỹ thuật, nhưng giấy thú vị về chủ đề của việc tìm kiếm thời gian thực, hoặc rất gần thời gian thực nguồn gốc của nội dung từ Tin tức bài báo hoặc bài đăng trên blog hoặc các trang web, các nhà nghiên cứu của Google được phát hiện nguồn gốc của văn bản Segments hiệu quả (pdf ).

Những tiền đề đằng sau việc phát triển tín hiệu chất lượng cho các bài báo được thành lập sớm trong các bằng sáng chế:

Ví dụ, giả sử một người mong muốn có được những tin tức mới nhất về một chủ đề cụ thể thông qua Internet. Người truy cập một trang dịch vụ seo website bao gồm một công cụ tìm kiếm thông thường. Những người đi vào một hay nhiều điều khoản có liên quan đến các chủ đề quan tâm, chẳng hạn như “Iraq” vào công cụ tìm kiếm để cố gắng xác định vị trí một nguồn thông tin cho rằng đã xuất bản một bài viết liên quan đến chủ đề.

Sử dụng một công cụ tìm kiếm theo cách này để xác định vị trí các trang web cá nhân cung cấp các bài báo liên quan đến chủ đề mong muốn thường dẫn đến một danh sách xếp hạng của hàng trăm hoặc thậm chí hàng ngàn “hit”, nơi mỗi hit có thể tương ứng với một trang web có liên quan đến thuật ngữ tìm kiếm (s).

Trong khi mỗi lượt truy cập trong danh sách xếp hạng có thể liên quan đến chủ đề mong muốn, các nguồn tin tức liên quan đến các truy cập, tuy nhiên, có thể không có chất lượng đồng đều.

Ví dụ, CNN và BBC được coi là nguồn chất lượng cao về độ chính xác của báo cáo, tính chuyên nghiệp trong văn bản, vv, trong khi các nguồn tin địa phương, chẳng hạn như các nguồn tin tức quê nhà, có thể là có chất lượng thấp hơn.

Vì vậy, có tồn tại một nhu cầu cho các hệ thống và phương pháp để cải thiện thứ hạng của các bài báo dựa trên chất lượng của nguồn tin mà các bài báo có liên quan.

Tôi đặt câu hỏi giả định rằng, các nguồn như CNN hay BBC, có thể là nguồn thông tin tốt hơn chất lượng hơn so với các nguồn tin tức quê hương trong nhiều trường hợp. Tôi nghĩ rằng nó thường có thể là một phóng viên địa phương, và một nguồn tin tức quê hương địa phương có thể nắm giữ tiềm năng để cung cấp thông tin chi tiết và những hiểu biết và thông tin mà một tổ chức lớn có thể bỏ lỡ. Đó là giá trị nhìn vào tín hiệu được liệt kê trong các bằng sáng chế, mặc dù.

Các bằng sáng chế là:

Hệ thống và phương pháp để cải thiện thứ hạng của các bài báo
Được phát minh bởi Michael Curtiss, Krishna Bharat, và Michael Schmitt
Phân về Google
US Patent 7.577.655
Cấp ngày 18 tháng tám năm 2009
Nộp 16 tháng 9 2003

Trừu tượng

Một hệ thống xếp kết quả. Hệ thống có thể nhận được một danh sách các liên kết. Hệ thống có thể xác định một nguồn mà mỗi liên kết có liên quan và xếp hạng trong danh sách các liên kết dựa trên ít nhất một phần vào chất lượng của nguồn xác định.

Nguồn Rank

Tại trung tâm của các bằng sáng chế là một phương pháp xếp hạng nguồn cho bài viết có thể được trên cùng một chủ đề, để trình bày những bài viết trong đơn đặt hàng (hoặc xác định mà có thể được hiển thị trên trang đầu của Google News, hoặc trong một kết quả tìm kiếm của Google News .

Quá trình đến với một số hạng nguồn cho một nguồn tin tức dựa trên nhìn vào một số số liệu cho mỗi nguồn tin tức, mà đo các thuộc tính khác nhau của nguồn.

Dưới đây là những số liệu:

Số bài viết được sản xuất bởi các nguồn tin này trong một khoảng thời gian nhất định

Có lẽ, những bài viết nhiều hơn (bài viết không trùng lặp) được sản xuất bởi các nguồn trong một khoảng thời gian, càng tốt. Chúng tôi đang nói đó như là một thay thế, các công cụ tìm kiếm có thể xem xét số lượng các câu ban đầu được công bố bởi các nguồn tin tức trong thời gian đó.

Thời gian trung bình của một bài báo từ các nguồn tin tức

Có thể được đo bằng những từ hoặc câu. Nếu bài viết của CNN bình quân 300 từ, trong khi trung bình một nguồn địa phương 150 từ mỗi afticle, CNN còn có được một giá trị của 300 cho số liệu này trong khi các nguồn địa phương có thể đưa ra một giá trị của 150.

Là những bài báo còn tốt hơn? Nếu một công cụ tìm kiếm là để nhìn vào top 100 CNNs câu chuyện tin tức từ tuần qua, và 100 câu chuyện tin tức hàng đầu từ một nguồn khác, và so sánh độ dài của những người, nên các nguồn với các bài viết dài nhất
được coi là có chất lượng cao? Nếu các công cụ tìm kiếm thay vì nhóm cùng nhau tất cả các bài viết về một câu chuyện cụ thể, và nhìn vào độ dài của những người, sẽ là dài nhất lại là những câu chuyện chất lượng cao hơn. Số liệu này dường như chỉ ra rằng đó là một tín hiệu để xem xét.

Điểm số tin tức Breaking

Làm thế nào ngay sau khi một sự kiện quan trọng xảy ra không các nguồn tin xuất bản một câu chuyện về nó? Nếu tất cả những câu chuyện về sự kiện đó đã được nhóm với nhau, và ngày xuất bản và thời gian đã được xem, các nguồn mà trả lời nhanh nhất sẽ có một “điểm tin tức phá vỡ.” Cao hơn

Mô hình sử dụng

Nếu các công cụ tìm kiếm là để theo dõi bao nhiêu người theo các liên kết đến các nguồn tin tức đặc biệt, khi họ đã được trình bày với các liên kết đến những nguồn khác nhau, trong đó nguồn đã làm mọi người có xu hướng truy cập nhiều hơn? Điều này không đo lường “phổ biến” của các nguồn tin tức như nhiều như nó không có hoặc không có người thực sự làm theo các liên kết đến các nguồn cụ thể khi họ xem những liên kết trong kết quả tìm kiếm dịch vụ seo.

Quan điểm con người của nguồn tin

Những người sử dụng các công cụ tìm kiếm có thể được hỏi để xác định nguồn thông tin cho rằng họ thích đọc hoặc đã truy cập. Các biện pháp khác cũng có thể được sử dụng như là tốt. Ví dụ, chúng ta biết rằng báo chí có thể được so sánh dựa trên ít nhất một phần vào số lượng giải thưởng Pulitzer các giấy tờ đã chiến thắng. Chúng tôi cũng nói rằng tuổi của một nguồn tin “có thể được dùng như là một thước đo của sự tự tin của công chúng.” Là một thay thế, người đánh giá có thể được hiển thị một lựa chọn các bài viết từ các nguồn khác nhau, và được yêu cầu chỉ định một số điểm cho nguồn gốc của chúng.

Số liệu thống kê lưu thông của nguồn tin

Lượng phát hành số liệu thống kê của các ấn phẩm in ấn kết hợp với một nguồn tin, cơ quan thống kê sử dụng “như Media Metrix và Nielsen Netratings,” và những cách khác có thể đo lường lưu lượng truy cập vào một nguồn có thể được xem xét.

Kích thước của các nhân viên kết hợp với các nguồn tin tức

Các con số của tên nhà báo riêng biệt từ các bài báo trong các nguồn tin tức có thể được xem.

Số lượng của các phòng tin tức liên quan đến các nguồn tin tức

Điều này dường như ủng hộ các cơ quan tin tức lớn hơn và đã được thiết lập hơn.

Thực thể có tên ban đầu xuất hiện trong các bài viết được sản xuất bởi các nguồn tin tức

Một thực thể có tên là cụ thể người, địa điểm, tổ chức, hoặc điều.

Nếu tất cả những câu chuyện về một sự kiện đặc biệt được nhóm với nhau, và một bao gồm đề cập đến các thực thể có tên mà bài báo khác trên cùng một chủ đề không bao gồm, nó có thể xếp hạng cao hơn so với những người khác. Số liệu này được cho là để chỉ ra rằng một nguồn tin là “có khả năng báo cáo ban đầu.” Có một số hạn chế về việc sử dụng phương pháp này. Ví dụ, ngày xuất bản của các bài viết có thể được xem xét để xem những bài viết bao gồm trong đó có tên thực thể khi. Những thay đổi trong chính tả và viết tắt cũng có thể được xem xét khi xác định các thực thể có tên trong bài báo là duy nhất.

Số chủ đề mà các nguồn sản xuất nội dung

Các bài viết từ các nguồn tin tức có thể được phân loại thành các chủ đề khác nhau, và phạm vi của những chủ đề có thể được coi là một dấu hiệu của bề rộng của nguồn đó. Điều này dường như ủng hộ các nguồn tổng quát hơn so với những người tập trung vào một ngách hẹp hơn. Có thể là một nguồn tập trung hơn có thể có những bài viết chất lượng cao về các chủ đề mà họ chuyên bên trong.

Đa dạng quốc tế của nguồn tin

Điều này trông vào số lượng các quốc gia mà các trang web tin tức nhận được lưu lượng truy cập trên trang web. Các công cụ tìm kiếm có thể nhìn vào một cái gì đó giống như các địa chỉ IP của người nhấp chuột thông qua các liên kết đến các nguồn ,, để xem cách lây lan ra khán giả của họ có thể là trên toàn cầu.

Các phong cách viết sử dụng bởi nguồn tin

Các công cụ tìm kiếm có thể sử dụng các bài kiểm tra tự động để đo lường chính tả, ngữ pháp, và mức độ đọc cho một nguồn tin tức.

Các tín hiệu khác cũng có thể được xem xét, chẳng hạn như số lượng các liên kết có thể được nhìn thấy chỉ vào trang web tin tức.

Phần kết luận

Đã có một vài hồ sơ bằng sáng chế khác từ Google về Google News, nhưng không ai trong số họ đã đi vào các loại chi tiết cụ thể về những tín hiệu mà công cụ tìm kiếm có thể nhìn vào trong các nguồn và các bài viết xếp hạng như thế này có.

Trong khi điều này đã được nộp gần 6 năm trước, nó cung cấp các thông tin chi tiết cho một tiếp cận thuật toán để gán điểm số đối với các nguồn thông tin cho rằng có thể được sử dụng để xếp hạng các bài báo có tin tức Google, và nhiều người trong số các giả định đằng sau các yếu tố cụ thể trong thuật toán đó. Có thể là một số phiên bản của thuật toán này vẫn được sử dụng ngày hôm nay, và một số các yếu tố xếp hạng liên quan cũng có thể được sử dụng.

Tôi hỏi một số giả thuyết được đưa ra.

Ví dụ, nếu một câu chuyện bẻ ra về một khám phá mới trong Vật lý, và một trang web uy tín và cũng được kính trọng về Vật lý Tin tức công bố một bài viết sâu sắc và chi tiết về việc phát hiện, nó có thể là có thể là một nguồn tốt cho các chủ đề hơn là một tin tức nguồn mà có thể đã viết về những phát hiện đầu tiên, có rất nhiều phóng viên và một lưu thông lớn hơn nhiều, được nhìn thấy bởi một khán giả quốc tế nhiều hơn, có một số lượng lớn các văn phòng tin tức, đã được xuất bản từ năm 1800, và đã được viết bởi một người không biết nhiều về vật lý tại tất cả.

Nếu bạn đã quan tâm đến việc khám phá ra rằng, câu chuyện mà bạn muốn để cho?

Share this post