Làm thế nào công cụ tìm kiếm có thể tìm ra web spam

Gửi URL của bạn trong một diễn đàn SEO, và được dán nhãn là một Spammer Web? Có Lẽ.

Có một số chủ sở hữu trang web và các nhà tiếp thị internet những người cố gắng để tăng xếp hạng trang web của họ như thế nào trong công cụ tìm kiếm bằng cách mua các liên kết đến các trang web của họ, hoặc liên kết với những người khác trao đổi. Những loại hoạt động được tán thành bởi các công cụ tìm kiếm lớn bởi vì những thao tác có thể tác động đến những trang hiển thị trong kết quả tìm kiếm. Khi Google ghi trên một trong các trang trợ giúp của họ về chương trình liên kết:

Xếp hạng trang web của bạn trong kết quả tìm kiếm của Google là một phần dựa trên phân tích của các trang web liên kết với bạn. Số lượng, chất lượng, và sự liên quan của các liên kết được tính vào đánh giá của bạn. Các trang web liên kết để bạn có thể cung cấp bối cảnh về chủ đề của trang web của bạn, và có thể chỉ ra chất lượng và phổ biến của nó. Tuy nhiên, một số webmaster tham gia vào các chương trình trao đổi liên kết và xây dựng các trang đối tác độc quyền vì lợi ích của liên kết ngang, bỏ qua chất lượng của các liên kết, các nguồn, và ảnh hưởng lâu dài nó sẽ có trên các trang web của họ. Điều này là vi phạm nguyên tắc quản trị trang web của Google và có thể tác động tiêu cực đến xếp hạng trang web của bạn trong kết quả tìm kiếm.

Tương tự như vậy, có các diễn đàn, nơi mọi người công khai thảo luận về việc trao đổi liên kết để thao tác kết quả tìm kiếm.

Microsoft đã công bố một ứng dụng bằng sáng chế mô tả làm thế nào họ có thể nhắm mục tiêu (và có thể là tay chọn) Search Engine Optimization diễn đàn (SEO) có liên quan mà họ tin rằng hoạt động này có thể diễn ra, và thu thập thông tin những người để xem họ có thể xác định các yêu cầu cho các liên kết trao đổi.

Forum Mining cho Suspicious Phát hiện liên kết Spam Sites
Được phát minh bởi Bin Gao, Tie-Yan Liu, Hang Li, và Congkai Sun
Giao cho Microsoft
US Patent Application 20090198673
Xuất bản ngày 06 tháng tám 2009
Nộp: 06 tháng hai năm 2008

Trừu tượng

Một kỹ thuật chống thư rác để bảo vệ thứ hạng công cụ tìm kiếm dựa trên tối ưu hóa công cụ tìm kiếm khai thác mỏ (SEO) các diễn đàn. Các kỹ thuật chống thư rác thu thập các trang web như SEO bài viết diễn đàn từ một danh sách các website spam nghi ngờ, và trích xuất URL trao đổi liên kết đáng ngờ và sự hình thành liên kết tương ứng từ các trang web thu thập được.

Một hình phạt thứ hạng công cụ tìm kiếm sau đó được áp dụng cho các URL trao đổi liên kết đáng ngờ. Hình phạt ít nhất một phần được xác định bởi các thông tin liên kết liên kết với URL trao đổi liên kết tương ứng đáng ngờ.

Để phát hiện các URL trao đổi liên kết đáng ngờ hơn, kỹ thuật này có thể lan truyền một hoặc nhiều cấp độ từ một tập hạt giống của URL trao đổi liên kết đáng ngờ được tạo ra bởi các diễn đàn SEO khai thác mỏ.

Có một thảo luận tốt đẹp trong phần nền của mô tả trong bằng sáng chế nộp về một số phương pháp mà các công cụ tìm kiếm đã phát triển để cố gắng xác định spam web, bao gồm một vài đoạn văn về sự tiến hóa của các cách tiếp cận web gửi thư rác:

Web kỹ thuật gửi thư rác cũng đã tiến hóa theo thời gian. Các thư rác thế hệ đầu tiên từ khóa liên quan đến nhồi khi xếp hạng phụ thuộc vào sự tương tự tài liệu. Các thư rác liên quan đến trang trại liên kết thế hệ thứ hai khi xếp hạng là phần lớn phụ thuộc vào phổ biến trang web. Các thư rác thế hệ thứ ba sử dụng trao đổi liên kết lẫn nhau thông qua “các xã hội ngưỡng mộ lẫn nhau” khi xếp hạng là phần lớn phụ thuộc vào danh tiếng của trang. Nói chung, thế hệ thứ ba Web gửi thư rác là khó phát hiện hơn so với thế hệ trước.

Liên kết kỹ thuật gửi thư rác, trong đó bao gồm busying / bán link, trao đổi liên kết, xây dựng trang trại liên kết, là một thể loại chính của các kỹ thuật thư rác thường được sử dụng. Liên kết spam đề cập đến trường hợp các spammer thiết lập cấu trúc của các trang liên kết với nhau để tăng thứ hạng của họ trong liên kết hệ thống xếp hạng dựa trên cấu trúc như PageRank. Từ phân tích liên kết là một yếu tố rất quan trọng cho công cụ tìm kiếm thương mại, liên kết thư rác là một trong những kỹ thuật phổ biến nhất và có hại cho công cụ tìm kiếm hiện nay.

Các ứng dụng bằng sáng chế cũng định nghĩa và thảo luận về các phương pháp chống thư rác-link như TrustRank, BadRank, và SpamRank, và làm thế nào họ cố gắng để tự động phát hiện các liên kết web spam và spam. Chúng tôi đang nói rằng những phương pháp này không hiệu quả trong các tình huống nhất định, và rằng “liên kết vấn đề thư rác vẫn chưa được giải quyết.”

Một nỗ lực một giải pháp là phải chú ý nhiều hơn đến những nơi mà mọi người có thể được thảo luận công khai việc trao đổi các liên kết trên trang web, và lấy các URL được xác định trong các cuộc thảo luận để sử dụng như một “bộ hạt giống” của URL để thu thập thông tin để xác định các trang khác những Đường dẫn đến. Việc nộp đơn sáng chế đề cập đến những nơi này là “tối ưu hóa công cụ tìm kiếm (SEO) các diễn đàn,” mà có thể được chọn bằng tay.

Công cụ tìm kiếm xếp hạng các hình phạt có thể được áp dụng cho các URL đã được xác định thông qua các phương pháp mô tả trong việc nộp bằng sáng chế, mà dựa vào việc tìm kiếm các URL được đề cập trong các cuộc thảo luận của các liên kết trao đổi mà không thực sự quý khách đến thăm trang dịch vụ seo website mình, hay phân tích nội dung của các trang web. Chúng tôi đang nói ở đó rằng:

Để thuận tiện và hiệu quả trao đổi thông tin thương mại liên kết, kẻ gửi thư rác thường đăng nhập vào diễn đàn SEO để giao tiếp với nhau để liên kết kinh doanh, bao gồm cả trao đổi liên kết, liên kết bán hàng, và trao đổi liên kết giới thiệu.

Các diễn đàn đang ngày càng phổ biến hơn. Gửi thư rác gửi yêu cầu “trao đổi liên kết”, “mua & bán liên kết”, và “trao đổi giới thiệu” trong các diễn đàn, cùng với các URL của trang web của họ, và gửi thư rác liên quan khác có thể trả lời những yêu cầu và cung cấp các URL của trang web của họ.

Để ghi nhận những hoạt động này, thay vì tìm kiếm và phân tích các trang web spam bản thân, các kỹ thuật được mô tả trong tài liệu này xác định các URL của chúng bằng cách phân tích bối cảnh trong bài viết của kẻ gửi thư rác trên các diễn đàn SEO.

Phần kết luận

Có rất nhiều diễn đàn, nơi tối ưu hóa công cụ tìm kiếm được thảo luận cung cấp thông tin hữu ích và hữu ích cho những người tham gia vào các diễn đàn.

Họ có thể cung cấp một cơ hội để mọi người thảo luận về thực hành tốt nhất, trao đổi về việc làm thế nào để tạo ra những trải nghiệm tốt hơn cho khách truy cập, cung cấp những chỉ trích mang tính xây dựng về thiết kế và các khía cạnh khác của một trang web. Nhiều diễn đàn hoạt động như một cộng đồng thực hành hay một trực tuyến giải ba như hình dung của Ray Oldenburg.

Nhưng cũng có những diễn đàn, nơi các cuộc thảo luận về “liên kết để bán” hoặc “liên kết trao đổi” hoặc “liên kết đối ứng” có thể diễn ra. Tôi không chắc chắn lý do tại sao các nhà nghiên cứu tại Microsoft cảm thấy rằng họ cần phải nộp một bằng sáng chế để bảo vệ ý tưởng của việc tìm kiếm các trang web đó, và sử dụng chúng để cố gắng xác định nguy cơ spam web.

Các ứng dụng bằng sáng chế không đi vào chi tiết hơn về một số quá trình mà Microsoft (và công cụ tìm kiếm có thể khác) có thể sử dụng, và được đề nghị đọc nếu bạn tham gia vào một diễn đàn thảo luận về dịch vụ SEO.

Share this post