Trước tiên, tôi mới sử dụng hadoop :)Chạy công việc Map-Reduce trên các tệp/khối cụ thể trong HDFS
Tôi có một tập dữ liệu lớn các tệp được nén (TB của tài liệu trong các tệp được nén xung quanh kích thước của 100-500mb mỗi cái).
Về cơ bản, tôi cần một số loại lọc đầu vào của mình cho công việc giảm bản đồ.
Tôi muốn phân tích các tệp này theo nhiều cách khác nhau. Nhiều công việc này chỉ cần phân tích các tệp của một định dạng nhất định (có độ dài nhất định, chứa các từ nhất định, v.v. - tất cả các loại chỉ mục tùy ý) và phải mất quá nhiều thời gian để xử lý toàn bộ tập dữ liệu cho mỗi công việc. Vì vậy, tôi muốn tạo các chỉ mục trỏ đến các khối/tệp cụ thể trong HDFS.
Tôi có thể tạo chỉ mục bắt buộc theo cách thủ công, nhưng làm cách nào để chỉ định chính xác (hàng nghìn) tệp/khối cụ thể nào tôi muốn xử lý làm đầu vào cho người lập bản đồ? Tôi có thể làm điều này mà không cần đọc dữ liệu nguồn không, ví dụ: HBase? Tôi có muốn không? Hoặc tôi giải quyết vấn đề này hoàn toàn sai?
Vì vậy, nếu tôi hiểu chính xác, bạn đang tìm cách xử lý chỉ một tập con của các tệp trong đường dẫn nhập? Bạn bắt đầu công việc như thế nào, lập trình? – climbage
Làm cách nào để nhắm mục tiêu chặn HDFS thay vì chạy các công việc khác nhau cho các định dạng khác nhau (tệp) giúp bạn thực hiện tác vụ nhanh hơn? Bạn có thể xây dựng câu hỏi của mình nhiều hơn không? –
Xin lỗi vì đã quá mơ hồ. Tôi chưa cảm thấy như ở nhà trong ngăn xếp hadoop, vì vậy tôi biết thuật ngữ của tôi và cách suy nghĩ là hơi tắt. Ví dụ sau có thể giúp giải thích những gì tôi đang cố gắng đạt được: Với 1.000.000 tệp và chỉ mục cho biết chính xác 5.000 tệp của tôi chứa từ * ánh nắng *, chạy một công việc giảm bản đồ phân tích tất cả các tài liệu chứa từ * ánh nắng * . – jkgeyti