Google sửa đổi kết quả nội dung website

Tuần này , Google đã được trao bằng sáng chế mô tả làm thế nào họ có thể ghi nội dung trên bao nhiêu Gibberish nó có thể chứa , mà sau đó có thể được sử dụng để giáng chức trang trong kết quả tìm kiếm . Nội dung sai ngữ pháp đề cập đến nội dung có thể là đại diện của nội dung thư rác . Các bằng sáng chế quy định nội dung sai ngữ pháp trên các trang web

như các trang có thể chứa một số từ khóa có giá trị cao , nhưng có thể đã được tạo ra thông qua : Sử dụng lao động chưa qua đào tạo chi phí thấp ( từ những nơi như Mechanical Turk )Ví dụ tạo nội dung cho website dịch vụ SEO và sửa đổi và splicing nó ngẫu nhiên Dịch từ một ngôn ngữ khác nhau Nội dung sai ngữ pháp cũng có xu hướng bao gồm các chuỗi văn bản không có khả năng đại diện cho chuỗi văn bản ngôn ngữ tự nhiên thường xuất hiện trong cú pháp đàm thoại, hoặc có thể không được trong chuỗi văn bản có thể không được cấu trúc theo cú pháp đàm thoại, thường xảy ra trong các tài nguyên như các tài liệu web . Các bằng sáng chế cho chúng ta biết rằng kẻ gửi thư rác có thể tạo ra doanh thu từ lưu lượng truy cập đến trang web sai ngữ pháp bằng cách bao gồm : quảng cáo Liên kết trả cho mỗi nhấp chuột chương trình liên kết Nó cũng cho chúng ta biết chúng ta biết rằng kể từ khi các trang được tạo ra ” sử dụng từ khoá có giá trị cao mà không có bối cảnh , trang web thường không cung cấp bất kỳ thông tin hữu ích cho người dùng. ” Quá trình này bao gồm: Tạo các mô hình ngôn ngữ cho trang web trên mạng , và áp dụng các mô hình để các văn bản của các trang . Tạo ra một số điểm mô hình ngôn ngữ cho các nguồn tài nguyên bao gồm cả việc áp dụng một mô hình ngôn ngữ với nội dung văn bản của tài nguyên Tạo ra một số điểm nhồi truy vấn để tham khảo , truy vấn số điểm nhồi là một chức năng của tần số hạn trong nội dung tài nguyên và chỉ số truy vấn Tính điểm sai ngữ pháp cho các nguồn tài nguyên sử dụng số điểm mô hình ngôn ngữ và số điểm truy vấn nhồi Sử dụng số điểm sai ngữ pháp tính toán để xác định xem có sửa đổi một số điểm xếp hạng của tài nguyên Những điểm sai ngữ pháp có thể được tạo ra cho mỗi trang dựa trên các truy vấn nhiều mà được chứa trên những trang đó. Các trang có thể được xếp hạng ban đầu bằng những thông tin liên quan điểm thu hồi và điểm quan trọng như PageRank. Trang có thể được tái xếp hạng hoặc giáng chức dựa trên một đánh giá thống kê mà nội dung trên các trang được chia thành khác nhau n-gram , chẳng hạn như 5 từ lâu n- gram có thể sẽ phá vỡ các nội dung của một trang thành các nhóm liên tiếp các từ được tìm thấy trên một trang, và tạo ra số liệu thống kê về những nhóm và so sánh với nhóm n-gram khác trên các trang khác trên trang web. Một ví dụ phân tích n-gram của một cụm từ nổi tiếng sử dụng 5 từ : Con cáo nâu nhanh chóng nhảy con cáo nâu nhanh chóng nhảy qua con cáo nâu nhảy qua con cáo nhảy qua lười biếng nhảy qua chú chó lười biếng Các mô hình thống kê được tìm thấy trong một mô hình ngôn ngữ có thể được sử dụng để xác định ngôn ngữ, để áp dụng máy dịch thuật và làm nhận dạng ký tự quang học . Bằng sáng chế là : Xác định nội dung sai ngữ pháp trong các nguồn tài nguyên Được phát minh bởi Shashidhar A. Thakur , Sushrut Karanjkar , Pavel Levin , và Thorsten Brants Giao cho Google US Patent 8.554.769 Cấp ngày 08 Tháng Mười năm 2013 Nộp : ngày 17 tháng 6 năm 2009 trừu tượng Đặc điểm kỹ thuật này mô tả các công nghệ liên quan đến việc cung cấp kết quả tìm kiếm . Một khía cạnh của vấn đề được mô tả trong đặc điểm kỹ thuật này có thể được thể hiện trong phương pháp bao gồm các hành động nhận được một nguồn tài nguyên mạng, tài nguyên mạng bao gồm cả nội dung văn bản , tạo ra một số điểm mô hình ngôn ngữ cho các nguồn tài nguyên bao gồm cả việc áp dụng một mô hình ngôn ngữ với nội dung văn bản của tài nguyên , tạo ra một số điểm nhồi truy vấn để tham khảo , số điểm nhồi truy vấn là một chức năng của tần số hạn trong nội dung tài nguyên và chỉ số truy vấn, tính toán một số điểm sai ngữ pháp cho các nguồn tài nguyên sử dụng số điểm mô hình ngôn ngữ và số điểm truy vấn nhồi; và sử dụng số điểm sai ngữ pháp tính toán để xác định xem có sửa đổi một số điểm xếp hạng của tài nguyên. Nó không phải là một bất ngờ mà Google có thể sử dụng mô hình thống kê ngôn ngữ tự nhiên như một trong những mô tả ở đây để xác định nội dung mà họ có thể xem xét nội dung chất lượng thấp. Có một tên kỹ thuật ( nội dung sai ngữ pháp ) để chỉ rằng loại nội dung là hữu ích , cũng như một bằng sáng chế để chỉ người khác khi mô tả sự nguy hiểm của việc tạo ra nội dung chất lượng thấp thông qua một phương pháp tiếp cận này hay cách khác .

Share this post