Sử dụng lợn apache và văn bảnbiểu thức chính quy tương ứng trong lợn
hahahah. my brother just didnt do anything wrong. He cheated on a test? no way!
Tôi đang cố gắng để phù hợp với "người anh em của tôi chỉ didnt làm bất cứ điều gì sai trái."
Lý tưởng nhất, tôi muốn kết hợp mọi thứ bắt đầu bằng "anh tôi chỉ" và kết thúc bằng dấu chấm câu (kết thúc câu) hoặc EOL.
Nhìn vào các tài liệu lợn, rồi làm theo các liên kết đến java.util.regex.Pattern, tôi con tôi sẽ có thể sử dụng
extrctd = FOREACH fltr GENERATE FLATTEN(EXTRACT(txt,'(my brother just .*\\p{Punct})')) as (txt:chararray);
Nhưng điều đó dường như để phù hợp cho đến cuối dòng . Bất kỳ đề xuất nào để thực hiện trận đấu này? Tôi sẵn sàng để kéo tóc của tôi ra, và bởi kéo tóc của tôi ra, tôi có nghĩa là chuyển sang python luồng
Bạn có thể giải thích phần tham lam không? Tôi nghĩ rằng tôi sẽ chỉ được kết hợp từ từ chỉ, bất kỳ văn bản sau đây, lên đến trường hợp đầu tiên của dấu chấm câu. –
Nếu không tham lam, nó không khớp với ví dụ đầu tiên của dấu chấm câu, thay vì nó khớp với dấu câu _last_. – Wrikken
@Neil Kodner: Tôi đã cập nhật câu trả lời. –