Phân đoạn trang web yahoo: Phân biệt Noise Từ thông tin

Trong một cuộc phỏng vấn gần đây với Priyank Garg, Giám đốc quản lý sản phẩm của Yahoo! Tìm kiếm công nghệ, được tiến hành bởi Eric Enge, chúng tôi đã nói rằng Yahoo phá vỡ các trang thành phần mẫu để phân biệt giữa ồn ào, hoặc nội dung soạn sẵn, và nội dung độc đáo:

Một trong những điều Yahoo! đã làm là tìm kiếm các cấu trúc mẫu bên trong trang web để chúng tôi có thể nhận ra các trang tấm lò hơi và hiểu những gì họ đang làm. Và như bạn có thể mong đợi, một trang tấm lò hơi giống như một liên hệ với chúng tôi hoặc một về chúng tôi không phải là đi để được nhận được rất nhiều anchor text từ web và bên ngoài của trang web của bạn. Vì vậy, có mục tiêu tự nhiên của các liên kết đến nội dung hữu ích của bạn.

Chúng tôi cũng thực hiện sự phát hiện của các mẫu trên trang web của bạn và cảm giác là thông tin có thể giúp chúng ta nhận ra tốt hơn liên kết có giá trị cho người sử dụng. Chúng tôi làm điều đó thuật toán, nhưng một trong những điều chúng tôi đã làm năm ngoái khoảng thời gian này được chúng tôi đưa ra các tag robot-NoContent, mà là một công cụ quản trị web có thể sử dụng để xác định các bộ phận của trang web của họ mà thực sự không phải nội dung độc đáo cho trang đó hay mà có thể không thích hợp với việc lập chỉ mục của trang.

Nếu bạn có quảng cáo trên một trang, hoặc nếu bạn có chuyển hướng đó là chung cho toàn bộ trang web, bạn có thể kiểm soát nhiều hơn đối với những nỗ lực của chúng tôi để nhận mẫu bằng cách đánh dấu những phần đó với các tag robot-NoContent. Đó sẽ là một dấu hiệu rõ ràng cho chúng tôi rằng khi các webmaster ai biết được nội dung này, bạn đang nói với chúng ta một phần này của trang không phải là nội dung chính độc đáo của trang này và không nhớ trang này cho những điều khoản.

Tôi không hoàn toàn đồng ý với ý tưởng rằng một “về chúng tôi” không thể hấp dẫn và nhiều thông tin, và một cái gì đó mà mọi người sẽ không liên kết đến. Thực hiện đúng, với những thứ như thời hạn và các câu chuyện kể, và hiểu thấu đáo cách một tổ chức đã phát triển, một “về chúng tôi” trang có khả năng có thể là một trong những trang thú vị nhất trên một trang dịch vụ seo website.

Nhưng ý tưởng chung, mà các trang web có thể chứa nội dung không hấp dẫn và thông tin là đúng. Ví dụ, thông báo bản quyền trên một trang, hoặc quảng cáo hoặc liên kết định vị có thể là nội dung mà một người truy cập vào một trang có thể không muốn tập trung vào nhất khi nhìn thấy trang đó.

Các ý tưởng phá vỡ một trang thành nhiều phần, hoặc “phân đoạn” trang đó là một cái gì đó mà chúng ta đã thấy trước đây từ Microsoft và Google.

Một bài báo mà tôi đã viết về từ Yahoo trong bài của tôi nghiên cứu của Yahoo sẽ tìm Templates và Công cụ Tìm kiếm chỉ mục tìm hiểu làm thế nào Yahoo có thể nhìn vào các tính năng được tìm thấy trên một trang để xem trang đó đã được sử dụng một mẫu, và để phân biệt các “nội dung chính” trên trang đó từ các tính năng kiểu mẫu, chẳng hạn như “liên kết trang web chuyển hướng, sidebars, thông báo bản quyền, và thời gian.”

Các tính năng khác mà có thể được coi là “nhiễu”, là các tính năng thương mại điện tử như “người mua XXXXX cũng mua YYYYYY” phần của trang, và nội dung tương tự mà không thực sự tập trung vào các nội dung chính của một trang.

Tôi cũng đã viết về một việc khác nộp đơn sáng chế Yahoo đề thảo luận về tự động phân đoạn của các trang web trong bài của tôi Breaking Pages Ngoài: Điều gì tự động phân khúc của các trang web Might bình để thiết kế và SEO.

Hai ứng dụng bằng sáng chế từ Yahoo, công bố hồi đầu tháng này, lấy ý tưởng của phân đoạn nội dung trên một trang web hơn nữa, để cung cấp cho chúng tôi biết thêm thông tin về cách mà Yahoo có thể sử dụng phân khúc trang web.

Người đầu tiên thảo luận về một số chủ đề, bao gồm cách nhiều trang vào một trang web có thể được so sánh, để xem nếu một số phân khúc có xu hướng hiển thị trên nhiều trang, mà có thể là một dấu hiệu cho thấy những phân đoạn được soạn sẵn – nội dung mà có thể không có tập trung thông tin chính của mỗi trang cá nhân.

Site-cụ thể Thông tin-Type Phương pháp phát hiện và hệ thống
Được phát minh bởi Rupesh R. Mehta và Amit Madaan
Giao cho Yahoo
US Patent Application 20090248707
Đăng ngày 01 Tháng mười 2009
Nộp: 25 tháng ba năm 2008

Trừu tượng

Các phương pháp và hệ thống được cung cấp trong tài liệu này có thể cho phép thích hợp thông tin kiểu (s) của dữ liệu được đặt hoặc nếu không xác định trong vòng một hoặc nhiều tài liệu, chẳng hạn như, ví dụ, tài liệu trang web liên kết với một hoặc nhiều website. Ví dụ, phương pháp mẫu mực và hệ thống được cung cấp có thể được sử dụng để xác định xem thông tin có thể có nhiều khả năng là của một loại “thông tin” của thông tin hoặc có thể nhiều khả năng là của một “tiếng ồn” loại thông tin.

Các ứng dụng bằng sáng chế thứ hai có vẻ cho các kết nối giữa các nút nội dung (phần nào giống như “khối” của Microsoft) để xem những phần của một trang nên được chứa trong các phân đoạn tương tự.

Phương pháp phân đoạn trang web
Được phát minh bởi Shanmugasundaram Ravikumar, Deepayan Chakrabarti và Kunal Punera
Giao cho Yahoo
US Patent Application 20090248608
Đăng ngày 01 Tháng mười 2009
Nộp ngày 28 tháng 3 năm 2008

Trừu tượng

Một phương pháp phân chia một trang web thành thị và ngữ nghĩa miếng dính sử dụng một vấn đề tối ưu hóa trên một đồ thị có trọng số, trong đó các trọng phản ánh cho dù hai nút trong cây DOM của trang dịch vụ seo web nên được đặt lại với nhau hoặc cách nhau trong các phân khúc; các trọng số được thông báo bởi các dữ liệu được dán nhãn bằng tay.

Phần kết luận

Đó là khả năng mà Google, Yahoo và Microsoft đều cho trọng lượng khác nhau với giá trị của các liên kết trong các phân đoạn khác nhau của trang, vì vậy mà một liên kết từ một vùng nội dung chính có lẽ quan trọng hơn so với một liên kết từ một bên hoặc một phần chân trang trang.

Nó cũng có khả năng rằng các công cụ tìm kiếm đang cố gắng để bỏ qua đoạn soạn sẵn của các trang khi họ cố gắng để xác định xem các trang chứa nội dung trùng lặp trùng lặp hoặc gần, do đó quyết định của mình để lọc một số trang trong kết quả tìm kiếm được dựa trên nội dung chính của trang chứ không phải hơn là nội dung trùng lặp có thể xuất hiện ở những nơi như tiêu đề cuối trang hoặc sidebars.

Nó có thể là từ trên một trang, chứa đựng trong vùng nội dung chính của một trang sẽ được coi là quan trọng hơn lời nói đó xuất hiện ở một bên hoặc footer hoặc danh sách các sản phẩm tương tự được đề nghị bởi các công cụ tìm kiếm?

Chúng tôi đã nhìn thấy đủ thông tin về trang web chia nhỏ gói trong giấy trắng và bằng sáng chế và các cuộc phỏng vấn từ các công cụ tìm kiếm trong vòng năm hoặc sáu năm qua để nó nên được coi là một trong những vấn đề cơ bản của SEO tại thời điểm này, mặc dù chủ đề thường doesn ‘ t hiển thị trong danh sách phổ biến của các yếu tố xếp hạng công cụ tìm kiếm được công bố bởi một số trang web. Có lẽ đó là thời gian mà nó nên được.

Share this post