tôi thường chống lại phơi bày các máy chủ dàn lên web công cộng, nhưng nếu đó là giải pháp tốt nhất cho công việc của bạn, sau đây là một vài điều bạn có thể xem xét:
Minimal Cách tiếp cận
- Tạo miền mới cho máy chủ dàn dựng (ví dụ: example-stage.com)
- Thêm robots.txt =>
Disallow: /
- Xác minh miền trong Google & Công cụ quản trị trang web Bing
Cách tiếp cận tối thiểu là rất cơ bản để đảm bảo bạn không tự chụp mình khi có nội dung trùng lặp ở khắp mọi nơi. Bằng cách đăng ký một tên miền riêng biệt, đó là một bộ phận rõ ràng cho người dùng của giai đoạn là gì và những gì không phải là. Nó cũng là một chút sạch hơn khi bạn cần phải di chuyển môi trường xung quanh, nhưng đó là hoạt động nhiều hơn nữa. CNAME cũng sẽ hoạt động, nhưng hãy nhớ đăng ký từng CNAME bằng Google và Công cụ quản trị trang web Bing. Bằng cách này, bạn có thể sử dụng công cụ xóa miền nếu cần.
khuyên tiếp cận
- Thêm Authentication (HTTP hay cách khác) trước mặt yêu cầu
- đáp ứng với mã phản hồi thích hợp nếu không được phép (ví dụ như 401 trái phép)
- Mọi thứ khác trong phương pháp tiếp cận cơ bản trên
Bằng cách thêm robots.txt, nó ngăn công cụ tìm kiếm truy cập và lập chỉ mục nội dung . Tuy nhiên, điều đó không có nghĩa là họ sẽ không lập chỉ mục URL. Nếu công cụ tìm kiếm biết về một URL nhất định, công cụ tìm kiếm có thể thêm nó vào chỉ mục kết quả tìm kiếm. Đôi khi, bạn sẽ thấy các kết quả này trong kết quả tìm kiếm. Tiêu đề có xu hướng là URL không có mô tả. Để ngăn điều này xảy ra, các công cụ tìm kiếm cần được thông báo không hiển thị nội dung hoặc URL. Bằng cách thêm thông tin xác thực vào mặt trước và không đáp ứng với mã trạng thái OK 200, đó là tín hiệu mạnh mẽ cho các công cụ không thêm các URL này vào chỉ mục của chúng. Theo kinh nghiệm của tôi, tôi chưa bao giờ thấy trang mã phản hồi 401 được liệt kê trong chỉ mục công cụ tìm kiếm.
Cách tiếp cận Preferred
- trang Đặt dàn đằng sau bảng IP (ví dụchỉ có thể từ một loạt IP nhất định)
- Thêm meta hoặc x-robot lệnh để mỗi trang với giá trị noindex, NOFOLLOW
- Mọi thứ khác trong phương pháp tiếp cận khuyên
Bằng cách đặt các trang web dàn đằng sau một Bộ lọc IP đảm bảo rằng chỉ khách hàng của bạn mới có thể truy cập trang web. Điều này có thể là một vấn đề nếu họ muốn truy cập nó từ các máy tính khác, và đôi khi là một nhức đầu bảo trì nhưng đó là cách tiếp cận tốt nhất nếu bạn không muốn lập chỉ mục môi trường dàn dựng của bạn. Một lời cảnh cáo, bạn sẽ muốn đảm bảo rằng tất cả các yêu cầu khác (ví dụ: công cụ tìm kiếm và không phải khách hàng), không phục vụ bất cứ điều gì trở lại. Họ sẽ nhận được phản hồi hết thời gian chờ và không bao giờ phục vụ 200 OK. Bằng cách phục vụ thông tin khác, có thể nhầm lẫn với việc che giấu mà bạn không muốn. Ngoài ra để an toàn hơn, tôi cũng sẽ thêm một lệnh meta robot hoặc lệnh x-robot-header vào mỗi trang để NOINDEX, NOFOLLOW chỉ trong trường hợp các bảng IP bị lỗi do định cấu hình sai hoặc nếu Chứng thực không thành công ... thì hiếm nhưng điều đó xảy ra khi có người chạm vào cấu hình vì các lý do khác. Giống như tệp robots.txt, bạn có thể thực sự tự chụp mình bằng các lệnh robot cấp trang này nếu chúng bị đẩy ra ngoài sản xuất. Vì vậy, chỉ cần đảm bảo môi trường dev/dàn dựng của bạn đang ở trong một cấu hình được phân tách rõ ràng. Nếu không, hãy đẩy ra một NOINDEX, NOFOLLOW hoặc Disallow: /
sẽ là thảm họa cho trang web sản xuất của bạn.
"Thêm lệnh meta hoặc x-robot vào mỗi trang có giá trị NOINDEX, NOFOLLOW" có vẻ là điểm tốt với "Thêm robots.txt => Không cho phép: /". Phần còn lại của câu trả lời của bạn là một khu vực bị hạn chế quá nhiều đối với tôi: "Chúng tôi muốn giữ quyền truy cập ẩn danh". Tôi sẽ cố gắng xem điều gì xảy ra. Cảm ơn câu trả lời của bạn. – toutpt
Không vấn đề gì :) Chúc may mắn! – eywu
Nếu đó là tất cả cùng một cơ sở mã, sẽ không sửa đổi tệp robots.txt gây ra bất kỳ máy chủ nào bị bỏ qua, không chỉ dàn dựng? –