Khi mọi người trong mideastern Hoa Kỳ không nghe thấy một cái gì đó mà ai đó nói rằng, họ có thể nói “excuse me”, yêu cầu người mà họ đang có một cuộc trò chuyện với lặp lại những gì họ vừa nói. Nếu bạn đang có một cuộc trò chuyện tại Hoa Kỳ Nam và bạn nói “excuse me” để một người nào đó để lặp lại chính mình, nó có thể gợi lên một cái nhìn trống rỗng (Tôi đã nhìn thấy nó).

Giao tiếp không lời mà dường như không phù hợp với thông điệp gửi đi với lời này cũng có thể gây ra sự nhầm lẫn và hiểu lầm (đã ở đó, quá).

Nhiều trang web được thiết lập không chính xác, trong một cách mà khi một người truy cập hoặc một chương trình tìm kiếm thu thập dữ liệu động cơ cố gắng để đạt được một URL không tồn tại trên trang web và được chuyển hướng từ URL đó không thể truy cập vào một trang báo lỗi chuyên dụng hiển thị người truy cập 404 (không tìm thấy) hoặc 403 (bị cấm) hay 5xx (lỗi server) tin nhắn trên màn hình của họ, thông điệp trong tiêu đề từ máy chủ của trang web có thể là một “200” tin nhắn ok, mà chỉ ra rằng đó không phải là một vấn đề – dù có. Một số trang chỉ có thể truy cập tạm thời, giống như khi một cơ sở dữ liệu có thể xuống. Khi một lỗi máy chủ cho thấy đối với những người, những tin nhắn đó được gửi từ máy chủ không phải là một (ok) nhắn 200 hoặc.

Đôi khi du khách được chuyển hướng từ các URL không thể truy cập vào trang web chính của một trang web là tốt.

Đó là loại truyền thông sai lệch tạo ra sự nhầm lẫn và có thể có nghĩa rằng trang không tồn tại ở các URL hoặc các trang đã vô tình đánh sai hoặc miswritten có thể đã được lấy ra từ một trang web có thể được thêm vào hoặc lưu giữ trong một chỉ số cụ tìm kiếm, mặc dù những trang không nên được bao gồm hoặc cần được loại bỏ. Và có thể sẽ được gỡ bỏ nếu đúng 404 hay 403 hay 5xx nhắn được gửi trở lại một công cụ tìm kiếm.

Một số liên kết khác có thể được tìm thấy trên dịch vụ seo website có thể trỏ đến các trang là không acccessible trừ khi ai đó đăng nhập vào một trang web, và nếu họ không phải là, một chuyển hướng có thể đưa họ đến một trang đăng nhập hoặc đến một trang mà nói chúng cho phép đó là cần thiết để xem các trang. Và những trang ở phía bên kia của sự chuyển hướng cũng có thể gửi 200 (ok) thông báo trở lại vào một công cụ tìm kiếm không thể đăng nhập. Các liên kết trỏ đến trang mà cũng không nên được bao gồm trong chỉ số công cụ tìm kiếm của.

Bởi vì một công cụ tìm kiếm nhận được 200 (ok) tin nhắn, nó có thể điều trị những trang như thể họ là các trang web sống thực tế.

Khi một khách truy cập xem một trang đó nói với họ đã có một lỗi 404, nhưng thông điệp tiêu đề gửi từ máy chủ chỉ ra một 200 (ok) trang, những lỗi đã được gọi là “mềm 404” trang.

Một ứng dụng bằng sáng chế mới của Yahoo cho chúng ta biết mềm 404 trang lỗi tồn tại với số lượng lớn trên Web:

Theo một bài báo, “gloria Sic quá cảnh telae: hướng tới một sự hiểu biết sâu của web”, bởi Z Bar-Yossef et al. (2004), người ta ước tính rằng tài khoản 404s mềm cho hơn hai mươi lăm phần trăm của các liên kết chết trên web. Các bài viết Z Bar-Yossef đề xuất một phương pháp để phát hiện xem một trang web cụ thể là một phần mềm 404 trang.

Trong một thế giới lý tưởng Wide Web, các thông báo lỗi bên phải nên được gửi thông qua một thông báo lỗi máy chủ, và hiểu lầm nên tránh. Chủ sở hữu trang web cần kiểm tra để chắc chắn rằng loại này của sự hiểu lầm không xảy ra. Nhưng, như các báo ở trên cho thấy, loại mềm 404 vấn đề xảy ra thường xuyên. Đó là vì lợi ích của chủ sở hữu trang web và các công cụ tìm kiếm để tránh những vấn đề như thế.

Các ứng dụng bằng sáng chế sẽ cố gắng để xác định lỗi soft 404, chuyển hướng để đăng nhập trang, và các vấn đề tương tự khác bằng cách phân nhóm với nhau các trang web từ một trang web chia sẻ nhiều điểm tương đồng dựa trên “đặc điểm về nội dung của các trang web” trong mỗi của những cụm.

Sau khi các trang được nhóm với nhau như thế dựa trên nội dung của họ, quá trình được mô tả trong việc nộp bằng sáng chế cho chúng ta biết rằng nó sẽ cho một số liệu liên quan đến một sự giống nhau giữa các URL Đối với mỗi trang trong mỗi cụm, và những điểm tương đồng dựa trên nội dung và cấu trúc URL có thể được sử dụng để xác định “các lớp học tương tự” cho các URL của các trang trên một trang dịch vụ seo web. Ví dụ, một lớp học như vậy có thể là một “mềm lớp 404 tương tự”

Các ứng dụng bằng sáng chế là:

Phát hiện không có giám sát của trang Web Tương ứng với một Class Similarity
Được phát minh bởi Mahesh Tiyyagura
Giao cho Yahoo
US Patent Application 20090157607
Xuất bản ngày 18 tháng 6 năm 2009
Nộp 12 tháng 12 năm 2007

Ngoài một lớp học cho mềm 404 trang báo lỗi, các lớp học khác cũng có thể được xác định, chẳng hạn như các trang mà chỉ ra:

Hết hàng
Chương trình ngoại lệ
Quyền bị từ chối và
Cần đăng nhập
Việc thu thập dữ liệu các trang web thường xảy ra độc lập với việc lập chỉ mục của nội dung trên các trang này. Trước khi các trang được lập chỉ mục, một số phân tích về nội dung và URL được tìm thấy trên một trang web có thể diễn ra, bao gồm cả một quá trình như một trong những mô tả trong đơn sáng chế này, trong đó có thể xác định các lớp học tương tự của các trang web.

Tại sao Công cụ Tìm kiếm có thể muốn để Xác định 404s mềm

Một số trong những lý do tại sao một công cụ tìm kiếm có thể muốn xác định xem có mềm 404 trang trên các trang web có thể bao gồm:

1) Sự nhận ra rằng mềm 404 trang và URL của họ không liên quan đến thông tin hữu ích, có nghĩa là một công cụ tìm kiếm sẽ không cần phải index những trang đó.

2) Giảm (hoặc mục nát) một “tươi mát” giá trị cho các trang liên kết với những phần mềm 404 trang, trong đó các trang này có thể đã đạt được dựa trên một thuật toán xếp hạng dựa trên liên kết. Nói cách khác, các trang có liên kết chết có thể xếp hạng cao hơn trong điều khoản của “tươi mát”. Nếu một công cụ tìm kiếm không nhận ra rằng một hoặc nhiều liên kết trên một trang điểm để mềm 404 trang, nó có thể xếp hạng mà trang cao hơn dựa trên một yếu tố mới mẻ. Xác định 404s mềm có nghĩa là một công cụ tìm kiếm sẽ không đưa ra một trang xếp hạng cao dựa trên sự tươi mát.

3) Đối với các trang trên các trang web có thể hiển thị quảng cáo từ các công cụ tìm kiếm, nơi một mềm 404 được hiển thị hoặc một yêu cầu để đăng nhập, hoặc một lớp học tương tự mà không cung cấp thông tin hữu ích, việc nộp bằng sáng chế cho chúng ta biết rằng nó được giả định rằng khách truy cập được khả năng muốn để điều hướng nhanh chóng đi từ các trang như vậy. Chúng tôi cũng biết rằng quảng cáo chung chung hơn có thể được hiển thị trên các trang, hoặc quảng cáo mà chiếm màn hình rộng hơn so với các trang khác trên trang web.

Việc nộp đơn sáng chế cung cấp một số chi tiết về cách trang có thể được nhóm lại với nhau dựa trên nội dung của họ, và làm thế nào các URL có thể được xác định là tương tự. Các giấy cú pháp Clustering của Web được nhắc đến như một ví dụ của một nhóm và shingling kỹ thuật mà có thể được sử dụng, như là quá trình được mô tả trong bằng sáng chế cho phương pháp Clustering chặt chẽ Giống như DataObjects.

Phần kết luận

Ứng dụng bằng sáng chế này từ Yahoo mô tả một quá trình mà có thể được sử dụng khi một trang web không được thiết lập đúng cách để giao tiếp những thứ như một 404 (không tìm thấy) thông báo máy chủ thích hợp khi một người truy cập có thể thấy một thông báo 404 trên một trang mà họ xem, nhưng các chương trình trình duyệt và công cụ tìm kiếm thu thập dữ liệu của họ có được một (ok) nhắn 200 để thay thế.

Đó là khuyến cáo rằng các chủ sở hữu trang web sửa chữa các vấn đề như 404s mềm hơn là dựa vào các quá trình như những mô tả trong đơn sáng chế này. Đó là vì lợi ích của các công cụ tìm kiếm và các trang web chủ sở hữu để reecognize khi miscommunications như 404s mềm xảy ra, nhưng nó thậm chí còn tốt hơn nếu các thông điệp sai lầm không được gửi ở nơi đầu tiên.