Công cụ tìm kiếm Robot chia sẻ cookies

Có một chút công viên trải dài Delaware và Maryland trong đó có một tượng đài đánh dấu ranh giới giữa các tiểu bang. Khắc trên đầu trang của các marker đá là một dòng mà chỉ ra sự tách biệt giữa các quốc gia, và cho thấy những điểm mà một vòng cung bắt đầu, tách từ Delaware Pennsylvania. Nếu bạn nhìn vào bản đồ về biên giới, bạn sẽ thấy rằng phần đầu của tiểu bang Delaware là một hình vòng cung mà các biện pháp 12 dặm từ một vòm trên đỉnh của một tòa án ở New Castle lịch sử, Delaware. Các hồ quang giữa Delaware và Pennsylvania đã được xác định trong một chứng thư để William Penn từ Duke of York 1682. lãnh thổ của Maryland cũng đã tham gia vào việc thiết lập các biên giới.

Bạn có thể nhảy trên đỉnh đánh dấu và ngồi trên dòng trạng thái nếu bạn muốn. Tượng đài được bao quanh bởi rừng cây, và bạn phải đi xuống một con đường trong công viên để đạt được nó.

Chúng tôi có những khảo sát của đường như vậy, giữa các quốc gia, giữa các quốc gia, thị xã, thành phố và các quận cho các cấp, cũng như việc thăm dò và phát hiện ra những nơi mà chúng ta đang sống xung quanh. Các chương trình mà công cụ tìm kiếm sử dụng để khám phá các trang mới trên dịch vụ seo Website và vào lại trang cũ là một chút như những nhà thám hiểm và khảo sát – tìm kiếm tài liệu trực tuyến để thêm vào chỉ mục của họ để chúng ta có thể khám phá những chỉ số và tìm kiếm các thông tin và các trang được lưu trữ trên máy chủ nằm rải rác trên toàn cầu.

Những chương trình này thường được gọi là crawlers hay nhện hoặc robot hoặc bots, và có rất nhiều hạn chế hạn chế như thế nào họ có thể có thể tìm hiểu và xác định các trang mà chúng tôi tìm thấy trực tuyến.

Crawlers từ các công cụ tìm kiếm lớn có xu hướng khá đơn giản, và không xem các trang như chúng tôi làm với các trình duyệt. Họ thường không chạy các kịch bản java mà chúng ta làm khi chúng tôi ghé thăm các trang, hoặc giải quyết các hình ảnh và xem bất kỳ văn bản mà chúng ta có thể nhìn thấy trên những hình ảnh đó.

Chương Trình Crawling đơn giản và phức tạp

Trong tháng tư, IBM đã được cấp bằng sáng chế (ban đầu nộp vào 30 tháng 6 năm 2000) mô tả một chương trình Web bò đó sẽ thấy các trang trên Web một cách rất giống với những gì chúng ta nhìn thấy khi chúng tôi duyệt Web. Các bằng sáng chế, hệ thống và phương pháp để nâng cao dựa trên trình duyệt web crawling, nhìn vào “inline-khung, khung, hình ảnh, applet, âm thanh, video, hoặc tương đương” trên các trang web, và làm cho những người để có được một sự hiểu biết về HTML thức đánh dấu cho thấy tại một URL khi ai đó có thể truy cập vào một trang. Nó thậm chí còn mô tả cách sử dụng Optical Character Recognition (OCR) phần mềm đọc văn bản mà có thể xuất hiện trong hình ảnh.

Nếu một công cụ tìm kiếm được thực hiện theo các quy trình thăm dò chi tiết mô tả trong bằng sáng chế của IBM, nó có lẽ sẽ là một quá trình khá đắt tiền để sử dụng, và có khả năng sẽ mất một số tiền hợp lý của thời gian và công sức để chỉ số nhiều trang. Việc thu thập thông mà các công cụ tìm kiếm thương mại lớn sử dụng dường như đơn giản hơn nhiều, và không khám phá các trang trên Web ở độ sâu hơn nhiều. Nguyên tắc Webmaster của Google mô tả sự đơn giản của chương trình thu thập dữ liệu mà họ sử dụng với câu lệnh:

Sử dụng trình duyệt văn bản như Lynx để kiểm tra trang web của bạn, bởi vì hầu hết nhện công cụ tìm kiếm nhìn thấy site của bạn giống như Lynx. Nếu các tính năng như JavaScript, cookies, session IDs, frame, DHTML, hoặc Flash khiến cho bạn thấy tất cả các trang web của bạn trong một trình duyệt văn bản, sau đó tìm kiếm nhện động cơ có thể gặp khó khăn khi thu thập dữ liệu trang web của bạn.

Lynx là một trong những chương trình duyệt web rất sớm, và là một trong rất đơn giản, cho phép bạn xem các văn bản trên trang.

Xem ra cho Cookies

Một trong những nỗ lực mà một người nào đó thực hiện tối ưu hóa công cụ tìm kiếm có thể và nên có một trang web là để xem làm thế nào công cụ tìm kiếm thân thiện với các trang của trang web đó có thể được. Phần của cuộc điều tra là đảm bảo rằng các chương trình công cụ tìm kiếm thu thập dữ liệu có thể truy cập tất cả các trang của một trang web mà các chủ sở hữu trang web muốn lập chỉ mục, và rằng thông tin có ý nghĩa từ các trang thu thập thông tin có thể được lập chỉ mục của công cụ tìm kiếm. Một vướng mắc để lập chỉ mục một trang web là khi một chương trình công cụ tìm kiếm thu thập dữ liệu là cần thiết để có một “cookie” để xem các trang.

Một cookie là một chuỗi nhỏ của văn bản có thể được gửi qua một trang web được lưu trữ trên máy tính của người truy cập. Một cookie thường bao gồm các cặp tên-giá trị lưu trữ thông tin về một du khách đi trên các trang web, bao gồm các thông tin như các nội dung của giỏ mua hàng, sở thích của người sử dụng cho các trang web, và thông tin có thể giúp theo dõi những trang mà khách đi trên một trang dịch vụ seo web. Một cookie có thể giúp một trang web cá nhân hoá những kinh nghiệm mà một người truy cập có trên trang của nó. Crawlers không thường mất cookies, và thu thập thông tin có thể không có khả năng truy cập vào các trang có lấy một cookie là cần thiết.

Cookie Bật Search Crawlers

A nộp bằng sáng chế mới được xuất bản từ Google mô tả làm thế nào nó có thể cho phép các chương trình thu thập dữ liệu để chấp nhận cookie khi quý khách đến thăm trang của một trang web. Một trong những thách thức sau một trình thu thập chấp nhận cookie là một công cụ tìm kiếm có thể có nhiều hơn một trình thu thập hoặc nhện hay con robot thăm các trang của một trang web trong khi trườn ḅò các trang đó, và nó sẽ là lý tưởng nếu họ “chia sẻ” một cookie. Đó là trọng tâm của việc nộp bằng sáng chế:

Công cụ tìm kiếm với nhiều crawlers chia sẻ các tập tin cookie
Được phát minh bởi Anurag Acharya, Michal Louz-On, Alexander C. Roetter
Gán cho Google)
US Patent 7.546.370
Cấp ngày 09 tháng 6 năm 2009
Nộp: 18 Tháng tám 2004

Các bằng sáng chế xác định những vấn đề mà tìm kiếm crawlers có với các trang web yêu cầu cookie như sau:

Trình thu thập mạng thông thường không có cơ sở cho việc thu thập các tập tin cookie như vậy, cũng không phải để xử lý các điều kiện lỗi cookie sẽ khác nhau. Kết quả là, trình thu thập web thông thường là không thể thu thập một tập hợp đầy đủ các trang hoặc tài liệu trong trang web yêu cầu cookie, do đó làm giảm số lượng thông tin có sẵn thông qua việc sử dụng các công cụ tìm kiếm như vậy.

Ngoài ra, trình thu thập mạng thông thường không có cơ sở để phối hợp các nỗ lực của một tập song song của trình thu thập mạng đối với bò một bộ đầy đủ các trang hoặc tài liệu trong trang web đó có yêu cầu các cookie. Có một nhu cầu, do đó, đối với một công cụ tìm kiếm được cải thiện mà sử dụng nhiều trình thu thập để truy cập các trang web yêu cầu cookie.

Việc nộp đơn sáng chế đi vào một số lượng lớn các chi tiết về tập tin cookie, và làm thế nào tìm kiếm thu thập dữ liệu chương trình có thể chia sẻ chúng. Không có dấu hiệu cho thấy Google đã bắt đầu thu thập trang mà chỉ có thể được truy cập bằng cách chấp nhận cookie, nhưng nó có thể trong tương lai.

Cho đến lúc đó, nếu bạn sở hữu hoặc làm việc trên một trang web, và bạn yêu cầu khách tham cookie để xem các trang nhất định và muốn những trang được lập chỉ mục, hãy chắc chắn rằng công cụ tìm kiếm không bắt buộc phải chấp nhận cookie để xem những trang đó.

Tại một số điểm, chúng tôi thậm chí có thể bắt đầu nhìn thấy các chương trình thu thập dữ liệu như một trong những mô tả trong bằng sáng chế của IBM mà nhìn vào văn bản trong hình ảnh, thông tin mà xuất hiện trong khung và khung nội tuyến, và các bộ phận khác của trang được kích hoạt bởi script java và applet khác.

Khi họ làm, chỉ số công cụ tìm kiếm có thể giống như các bản đồ chúng ta có ngày hôm nay so với các cuộc điều tra của biên giới địa lý của điều tra viên từ năm trôi qua.

Share this post