2012-06-22 21 views
6

Tôi đã bắt đầu sử dụng Nutch và mọi thứ vẫn ổn cho đến khi tôi gặp phải một ngoại lệ IOException,Crawling sử dụng Nutch ... Cho thấy một IOException

$ ./nutch crawl urls -dir myCrawl -depth 2 -topN 4 
cygpath: can't convert empty path 
solrUrl is not set, indexing will be skipped... 
crawl started in: myCrawl 
rootUrlDir = urls 
threads = 10 
depth = 2 
solrUrl=null 
topN = 4 
Injector: starting at 2012-06-23 03:37:51 
Injector: crawlDb: myCrawl/crawldb 
Injector: urlDir: urls 
Injector: Converting injected urls to crawl db entries. 
Exception in thread "main" java.io.IOException: Failed to set permissions of path: \tmp\hadoop-Rahul\mapred\staging\Rahul255889423\.staging to 0700 
    at org.apache.hadoop.fs.FileUtil.checkReturnValue(FileUtil.java:682) 
    at org.apache.hadoop.fs.FileUtil.setPermission(FileUtil.java:655) 
    at  org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:509) 
    at org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:344) 
    at org.apache.hadoop.fs.FilterFileSystem.mkdirs(FilterFileSystem.java:189) 
    at org.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir(JobSubmissionFiles.java:116) 
    at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:856) 
    at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:850) 
    at java.security.AccessController.doPrivileged(Native Method) 
    at javax.security.auth.Subject.doAs(Subject.java:415) 
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1083) 
    at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:850) 
    at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:824) 
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1261) 
    at org.apache.nutch.crawl.Injector.inject(Injector.java:217) 
    at org.apache.nutch.crawl.Crawl.run(Crawl.java:127) 
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 
    at org.apache.nutch.crawl.Crawl.main(Crawl.java:55) 

@jeffery --- i hạ cấp phiên bản Nutch n của tôi gặp phải vấn đề mới, nằm ngoài phạm vi của tôi để hiểu .... Trợ giúp Plzz ....

$ ./nutch crawl urls -dir myCrawl -depth 4 -topN 5 
cygpath: can't convert empty path 
solrUrl is not set, indexing will be skipped... 
crawl started in: myCrawl 
root UrlDir = urls 
threads = 10 
depth = 4 
solrUrl=null 
topN = 5 
Injector: starting at 2012-06-23 22:30:28 
Injector: crawlDb: myCrawl/crawldb 
Injector: urlDir: urls 
Injector: Converting injected urls to crawl db entries. 
Exception in thread "main" java.io.IOException: Job failed! 
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252) 
    at org.apache.nutch.crawl.Injector.inject(Injector.java:217) 
    at org.apache.nutch.crawl.Crawl.run(Crawl.java:127) 
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 
    at org.apache.nutch.crawl.Crawl.main(Crawl.java:55) 

Vấn đề này là gì?

+0

Bạn đang sử dụng phiên bản Nutch/Hadoop nào? – Jeffrey

+0

Nutch-1.5 Solr-3.5 –

+0

không biết abt hadoop. Tôi là một noob hoàn chỉnh khi sử dụng Nutch. :( –

Trả lời

0

Tôi cũng đã gặp sự cố này vài ngày trước. Các phiên bản mới hơn của Hadoop gặp sự cố khi tương tác với Windows. Bạn có thể chuyển sang một nền tảng * nix (mà bạn có lẽ nên làm, hầu như tất cả các hỗ trợ cho Nutch là nhằm vào người dùng * nix) hoặc hạ cấp phiên bản Nutch của bạn. Phiên bản mới nhất của Nutch mà tôi tìm thấy để làm việc trên Windows Server 2008 là 1.2.

+0

thnx cho các thông tin .... nếu tôi hạ cấp phiên bản xuống 1.2 dưới cửa sổ, nó sẽ hv bất kỳ loại hạn chế so với làm việc trong môi trường Linux bằng cách sử dụng phiên bản mới nhất của nutch ??? –

+0

@prafulbagai Bạn sẽ không có bất kỳ tính năng mới nào. Tất cả các hướng dẫn chính thức đều hướng tới 1.5, do đó có thể có một số khác biệt. Bạn vẫn có thể thu thập dữ liệu, phân tích cú pháp và lập chỉ mục, do đó, tùy thuộc vào bản chất chính xác nhu cầu của bạn, điều đó có thể tốt. – Jeffrey

+0

Thnx Jeffery !!!! Gonna cố gắng wat u đề nghị !!! 1 câu hỏi cuối .. Điều này nghe có vẻ ngu ngốc nhưng nếu tôi muốn xem lại mã nguồn của Nutch n tùy chỉnh nó, nơi tôi có thể hv nó từ ??? –