(Thậm chí cơ bản hơn Difference between Pig and Hive? Why have both?)Sử dụng Pig/Hive để xử lý dữ liệu thay vì giảm mã trực tiếp bản đồ java?
Tôi có một đường ống xử lý dữ liệu bằng văn bản trong một số Java bản đồ giảm nhiệm vụ trên Hadoop (mã tùy chỉnh của riêng tôi, có nguồn gốc từ Mapper và Giảm Hadoop của). Đó là một loạt các hoạt động cơ bản như tham gia, nghịch đảo, sắp xếp và nhóm theo. Mã của tôi là tham gia và không phải là rất chung chung.
Ưu điểm và nhược điểm của việc tiếp tục phương pháp thừa nhận được phát triển này là gì trước khi di chuyển mọi thứ sang Pig/Hive với một số UDF? Tôi sẽ không thể thực hiện công việc nào? Tôi sẽ bị suy thoái hiệu suất (làm việc với 100 của bệnh lao)? sao tôi sẽ mất khả năng tinh chỉnh và gỡ lỗi mã khi duy trì? tôi sẽ có thể phân phối một phần công việc như bản đồ Java-giảm và sử dụng đầu vào-đầu ra của họ với công việc Pig/Hive của tôi?
(Tôi làm việc trên Pig tại Twitter): Số 110-150% có phần tùy ý. Thông thường, Pig sẽ nhanh hơn mã của bạn vì nó thực hiện rất nhiều tối ưu hóa. Về cơ bản, nó dịch những thứ sang MR, vì vậy nó không thể nhanh hơn MR. Tuy nhiên, mã MR mới bắt đầu từ trung cấp đến thường sẽ thua Pig. – SquareCog
Thnx cho thông tin chi tiết. –