2012-08-30 32 views
15

Tôi muốn các trang web dàn dựng của mình không được các công cụ tìm kiếm lập chỉ mục (Google là trang đầu tiên).cách ngăn chặn phân trang được lập chỉ mục trong các công cụ tìm kiếm

Tôi đã nghe Wordpress thực hiện tốt việc này nhưng tôi muốn trở thành công nghệ bất khả tri.

Tệp robots.txt có đủ không? Chúng tôi muốn giữ quyền truy cập ẩn danh để cho khách hàng xem trang web của mình mà không phải đăng nhập.

Tôi có phải thêm nofollow vào mọi trang không?

Trả lời

26

tôi thường chống lại phơi bày các máy chủ dàn lên web công cộng, nhưng nếu đó là giải pháp tốt nhất cho công việc của bạn, sau đây là một vài điều bạn có thể xem xét:

Minimal Cách tiếp cận

  • Tạo miền mới cho máy chủ dàn dựng (ví dụ: example-stage.com)
  • Thêm robots.txt =>Disallow: /
  • Xác minh miền trong Google & Công cụ quản trị trang web Bing

Cách tiếp cận tối thiểu là rất cơ bản để đảm bảo bạn không tự chụp mình khi có nội dung trùng lặp ở khắp mọi nơi. Bằng cách đăng ký một tên miền riêng biệt, đó là một bộ phận rõ ràng cho người dùng của giai đoạn là gì và những gì không phải là. Nó cũng là một chút sạch hơn khi bạn cần phải di chuyển môi trường xung quanh, nhưng đó là hoạt động nhiều hơn nữa. CNAME cũng sẽ hoạt động, nhưng hãy nhớ đăng ký từng CNAME bằng Google và Công cụ quản trị trang web Bing. Bằng cách này, bạn có thể sử dụng công cụ xóa miền nếu cần.

khuyên tiếp cận

  • Thêm Authentication (HTTP hay cách khác) trước mặt yêu cầu
  • đáp ứng với mã phản hồi thích hợp nếu không được phép (ví dụ như 401 trái phép)
  • Mọi thứ khác trong phương pháp tiếp cận cơ bản trên

Bằng cách thêm robots.txt, nó ngăn công cụ tìm kiếm truy cập và lập chỉ mục nội dung . Tuy nhiên, điều đó không có nghĩa là họ sẽ không lập chỉ mục URL. Nếu công cụ tìm kiếm biết về một URL nhất định, công cụ tìm kiếm có thể thêm nó vào chỉ mục kết quả tìm kiếm. Đôi khi, bạn sẽ thấy các kết quả này trong kết quả tìm kiếm. Tiêu đề có xu hướng là URL không có mô tả. Để ngăn điều này xảy ra, các công cụ tìm kiếm cần được thông báo không hiển thị nội dung hoặc URL. Bằng cách thêm thông tin xác thực vào mặt trước và không đáp ứng với mã trạng thái OK 200, đó là tín hiệu mạnh mẽ cho các công cụ không thêm các URL này vào chỉ mục của chúng. Theo kinh nghiệm của tôi, tôi chưa bao giờ thấy trang mã phản hồi 401 được liệt kê trong chỉ mục công cụ tìm kiếm.

Cách tiếp cận Preferred

  • trang Đặt dàn đằng sau bảng IP (ví dụchỉ có thể từ một loạt IP nhất định)
  • Thêm meta hoặc x-robot lệnh để mỗi trang với giá trị noindex, NOFOLLOW
  • Mọi thứ khác trong phương pháp tiếp cận khuyên

Bằng cách đặt các trang web dàn đằng sau một Bộ lọc IP đảm bảo rằng chỉ khách hàng của bạn mới có thể truy cập trang web. Điều này có thể là một vấn đề nếu họ muốn truy cập nó từ các máy tính khác, và đôi khi là một nhức đầu bảo trì nhưng đó là cách tiếp cận tốt nhất nếu bạn không muốn lập chỉ mục môi trường dàn dựng của bạn. Một lời cảnh cáo, bạn sẽ muốn đảm bảo rằng tất cả các yêu cầu khác (ví dụ: công cụ tìm kiếm và không phải khách hàng), không phục vụ bất cứ điều gì trở lại. Họ sẽ nhận được phản hồi hết thời gian chờ và không bao giờ phục vụ 200 OK. Bằng cách phục vụ thông tin khác, có thể nhầm lẫn với việc che giấu mà bạn không muốn. Ngoài ra để an toàn hơn, tôi cũng sẽ thêm một lệnh meta robot hoặc lệnh x-robot-header vào mỗi trang để NOINDEX, NOFOLLOW chỉ trong trường hợp các bảng IP bị lỗi do định cấu hình sai hoặc nếu Chứng thực không thành công ... thì hiếm nhưng điều đó xảy ra khi có người chạm vào cấu hình vì các lý do khác. Giống như tệp robots.txt, bạn có thể thực sự tự chụp mình bằng các lệnh robot cấp trang này nếu chúng bị đẩy ra ngoài sản xuất. Vì vậy, chỉ cần đảm bảo môi trường dev/dàn dựng của bạn đang ở trong một cấu hình được phân tách rõ ràng. Nếu không, hãy đẩy ra một NOINDEX, NOFOLLOW hoặc Disallow: / sẽ là thảm họa cho trang web sản xuất của bạn.

+0

"Thêm lệnh meta hoặc x-robot vào mỗi trang có giá trị NOINDEX, NOFOLLOW" có vẻ là điểm tốt với "Thêm robots.txt => Không cho phép: /". Phần còn lại của câu trả lời của bạn là một khu vực bị hạn chế quá nhiều đối với tôi: "Chúng tôi muốn giữ quyền truy cập ẩn danh". Tôi sẽ cố gắng xem điều gì xảy ra. Cảm ơn câu trả lời của bạn. – toutpt

+0

Không vấn đề gì :) Chúc may mắn! – eywu

+0

Nếu đó là tất cả cùng một cơ sở mã, sẽ không sửa đổi tệp robots.txt gây ra bất kỳ máy chủ nào bị bỏ qua, không chỉ dàn dựng? –

0

tôi đã thêm mã này vào trang web của tôi (mã hóa trong php):

if($_SERVER['HTTP_HOST'] == 'test.ate.io') { 
    header("X-Robots-Tag: noindex, nofollow", true);  
} 

Bằng cách đó, ngay cả khi tập tin cấu hình của tôi từ dàn dựng vô tình bị đẩy lên máy chủ sản xuất của tôi sẽ không có bất kỳ vấn đề.

0

TLDR; Tạo một tệp robots.txt trong thư mục web gốc của bạn. Tệp này phải chứa một dòng:

Disallow:/

Điều này đủ để ngăn chương trình Google và Bing lập chỉ mục trang web của bạn và xuất hiện trong kết quả tìm kiếm.

1

Bạn có thể vô hiệu hóa máy chủ này bằng cách thêm cài đặt bên dưới vào toàn cầu trong conf apache hoặc các thông số tương tự có thể được sử dụng trong vhost để vô hiệu hóa nó chỉ dành riêng cho vhost.

Tiêu đề tập X-Robots-Tag "noindex, nofollow"

Một khi điều này được thực hiện, bạn có thể kiểm tra nó bằng cách kiểm tra tiêu đề apache trả lại.

curl -I staging.mywebsite.com HTTP/1.1 302 Found Date: Sat, 26 Nov 2016 22:36:33 GMT Server: Apache/2.4.18 (Ubuntu) Location: /pages/ X-Robots-Tag: noindex, nofollow Content-Type: text/html; charset=UTF-8