2010-07-27 15 views
19
  1. Bạn nên sử dụng thẻ meta * hoặc tệp robots.txt để thông báo cho trình thu thập thông tin/trình thu thập thông tin để bao gồm hoặc loại trừ một trang?Thẻ meta và robots.txt

  2. Có vấn đề gì trong việc sử dụng cả thẻ meta và robots.txt không?

* Ví dụ: <#META name="robots" content="index, follow">

+11

Đây là câu hỏi liên quan đến lập trình về phát triển web. – Tom

Trả lời

4

Robots.txt IMHO.

Tùy chọn thẻ meta cho biết các bot không lập chỉ mục các tệp riêng lẻ, trong khi Robots.txt có thể được sử dụng để hạn chế quyền truy cập vào toàn bộ thư mục. Chắc chắn, sử dụng thẻ Meta nếu bạn có trang lẻ trong các thư mục được lập chỉ mục mà bạn muốn bỏ qua, nhưng nói chung, tôi khuyên bạn nên sử dụng hầu hết nội dung không được lập chỉ mục của bạn trong một hoặc nhiều thư mục và sử dụng robots.txt để bỏ qua rất nhiều.

Không, đó không phải là một vấn đề trong việc sử dụng cả hai - nếu có một cuộc đụng độ, một cách chung chung, một chối sẽ bác bỏ một phép.

+1

Mặc dù tôi cũng có xu hướng tự mình sử dụng Robots.txt, không phải là các rô-bốt có thể sử dụng tập tin đó để có danh sách thư mục mới thuận tiện mà nó có thể là nhện không? Trong khi với thẻ META, họ sẽ không có cách nào để tìm một trang không được liên kết ngay từ đầu ... Chỉ là một ý nghĩ! – Codecraft

+1

@Codecraft Điều đó có thể đúng, nhưng đó là cách bạn không nên hiển thị thông tin nhạy cảm cho người dùng trái phép. 'robots.txt' được sử dụng để chỉ dẫn cho trình thu thập thông tin những thông tin không đáng giá trong khi thay vì riêng tư và không được truy cập. – cpburnz

0

tôi có lẽ sẽ sử dụng robots.txt qua thẻ meta. Robots.txt đã lâu hơn và có thể được hỗ trợ rộng rãi hơn (Nhưng tôi không chắc chắn 100% về điều đó).

Đối với phần thứ hai, tôi nghĩ hầu hết các trình thu thập thông tin sẽ lấy bất kỳ cài đặt hạn chế nào nhất cho trang - nếu có sự khác biệt giữa robots.txt và thẻ meta.

4

Cả hai đều được hỗ trợ bởi tất cả trình thu thập dữ liệu tôn trọng mong muốn của quản trị viên web. Không phải tất cả đều làm, nhưng chống lại họ, không kỹ thuật nào là đủ.

Bạn có thể sử dụng quy tắc robots.txt cho những thứ chung, như không cho phép toàn bộ các phần của trang web của bạn. Nếu bạn nói Disallow: /family thì tất cả các liên kết bắt đầu bằng /family sẽ không được lập chỉ mục bởi trình thu thập thông tin.

Thẻ meta có thể được sử dụng để không cho phép một trang duy nhất. Các trang không được phép bằng thẻ meta không ảnh hưởng đến các trang con trong phân cấp trang. Nếu bạn có thẻ meta không cho phép trên /work, nó không ngăn trình thu thập thông tin truy cập /work/my-publications nếu có liên kết đến thẻ đó trên trang được cho phép.

22

Có một sự khác biệt đáng kể. Theo google https://support.google.com/webmasters/answer/6062608?hl=en, họ sẽ vẫn lập chỉ mục một trang đằng sau robots.txt DENY, nếu trang được liên kết đến thông qua một trang web khác.

Tuy nhiên, họ sẽ không nếu họ nhìn thấy thẻ meta:

Trong khi Google sẽ không thu thập hoặc chỉ mục nội dung bị chặn bởi robots.txt, chúng ta vẫn có thể tìm thấy và chỉ số URL không được phép từ những nơi khác trên Trang web. Do đó, địa chỉ URL và, có khả năng, các thông tin có sẵn công khai khác như văn bản liên kết trong liên kết đến trang web vẫn có thể xuất hiện trong kết quả tìm kiếm của Google. Bạn có thể ngăn URL hoàn toàn xuất hiện trong kết quả của Google Tìm kiếm bằng cách sử dụng các phương pháp chặn URL khác, chẳng hạn như bảo vệ bằng mật khẩu các tệp trên máy chủ của bạn hoặc bằng thẻ meta noindex hoặc tiêu đề phản hồi.

+3

Và theo những [1] (http://evolvedigitallabs.com/blog/robots-txt-vs-noindex-differences), [2] (http://etechdiary.com/robots-txt-vs-noindex- các trang deindex-your-site-the-right-way), [3] (http://moz.com/learn/seo/robotstxt) của bạn, nó không chỉ là google. Nói chung, thẻ meta được sử dụng để không cho phép lập chỉ mục, trong khi robots.txt được sử dụng để không cho phép thu thập thông tin. – zrisher

+0

+1 và tôi đã tự do cập nhật bài đăng của bạn với trích dẫn từ trang được liên kết, nội dung của nó sẽ thay đổi! – Benjamin

-1

Bạn có thể có bất kỳ trang nào nhưng nếu trang web của bạn có nhiều trang web thì rô bốt.txt rất dễ dàng và giảm độ phức tạp về thời gian

-1

Robots.txt phù hợp cho các trang sử dụng nhiều ngân sách thu thập thông tin của bạn như tìm kiếm nội bộ hoặc bộ lọc có kết hợp vô hạn. Nếu bạn cho phép Google lập chỉ mục yoursite.com/search=lalalala, nó sẽ lãng phí bạn thu thập ngân sách.

+0

Bạn vẫn có thể không cho phép sử dụng thẻ meta, phải không? Nhưng câu hỏi đặt ra là sự khác biệt giữa cách tiếp cận này và robots.txt là gì. – FazoM

+0

Tôi không nghĩ nó giống nhau. Nếu các quy tắc của bạn nằm trong robots.txt, trình thu thập thông tin sẽ chỉ phải tải định kỳ robots.txt để có chế độ xem cập nhật về nội dung được phép thu thập thông tin. Nếu các quy tắc của bạn nằm trong các thẻ meta, nó sẽ phải tải từng trang được gắn thẻ định kỳ để có chế độ xem cập nhật các quy tắc. – Keith

0

meta vượt trội.

Để loại trừ các trang riêng lẻ khỏi chỉ mục của công cụ tìm kiếm, thẻ meta ngăn lập chỉ mục thực sự vượt trội hơn robots.txt.

1

Có sự khác biệt rất lớn giữa rô bốt và robots.txt.

Trong robots.txt, chúng tôi hỏi các trình thu thập thông tin mà bạn phải thu thập dữ liệu và trang nào bạn phải loại trừ nhưng chúng tôi không yêu cầu trình thu thập không lập chỉ mục các trang bị loại trừ khỏi thu thập dữ liệu.

Nhưng nếu chúng ta sử dụng robot meta tag, chúng tôi có thể yêu cầu trình thu thập công cụ tìm kiếm không phải chỉ số thẻ này page.The sẽ được sử dụng cho điều này là:

< tên #meta = "tên robot", content = " noindex "> (loại bỏ #)

HOẶC

< #meta name = "tên robot", content = "làm theo, noindex"> (loại bỏ #)

Trong thẻ meta thứ hai, tôi có đã yêu cầu rô bốt theo dõi URL đó nhưng không được lập chỉ mục trong tìm kiếm động cơ.

0

Bạn muốn sử dụng 'noindex, theo' trong một robots meta tag, thay vì robots.txt, bởi vì nó sẽ cho phép nước liên kết đi qua. Nó là tốt hơn từ một quan điểm SEO.