2011-08-17 15 views
5

Vì vậy, đây là vấn đề của tôi. Tôi có hai đoạn văn bản và tôi cần xem chúng có giống nhau hay không. Không theo ý nghĩa của các số liệu chuỗi nhưng theo ý nghĩa. Hai đoạn văn sau đây có liên quan nhưng tôi cần tìm hiểu xem chúng có đề cập đến chủ đề 'giống nhau' hay không. Bất kỳ trợ giúp hoặc hướng nào để giải quyết vấn đề này sẽ được đánh giá cao.So sánh hai chuỗi tiếng Anh cho các điểm tương đồng

Nhiên liệu hóa thạch là nhiên liệu được hình thành bởi các quá trình tự nhiên như kỵ khí phân hủy sinh vật chết bị chôn vùi. Tuổi của các sinh vật và nhiên liệu hóa thạch kết quả của chúng thường là hàng triệu năm, và đôi khi vượt quá 650 triệu năm. Nhiên liệu hóa thạch, chứa tỷ lệ phần trăm carbon cao, bao gồm than đá, dầu mỏ và khí tự nhiên. Phạm vi nhiên liệu hóa thạch từ các vật liệu dễ bay hơi với carbon thấp: hydro các tỷ lệ như mêtan, dầu mỏ lỏng cho vật liệu không bay hơi bao gồm cácbon gần như tinh khiết, như than antraxit. Mêtan có thể là được tìm thấy trong các lĩnh vực hydrocarbon, một mình, kết hợp với dầu, hoặc ở dạng của clanrates mêtan. Nó thường được chấp nhận rằng họ hình thành từ các hóa thạch còn lại của cây chết bằng cách tiếp xúc với nhiệt và áp lực trong lớp vỏ trái đất qua hàng triệu năm. Lý thuyết này sinh học lần đầu tiên được giới thiệu bởi Georg Agricola năm 1556 và sau đó là Mikhail Lomonosov trong thế kỷ 18.

Thứ hai:

Fossil nhiên liệu cải cách là một phương pháp sản xuất hydro hoặc sản phẩm hữu ích khác từ nhiên liệu hóa thạch như khí thiên nhiên. Đây là đạt được trong một thiết bị chế biến được gọi là một nhà cải cách phản ứng hơi nước ở nhiệt độ cao với nhiên liệu hóa thạch. Các nhà cải cách methane hơi nước được sử dụng rộng rãi trong công nghiệp để tạo ra hydro. Cũng có quan tâm đến việc phát triển các đơn vị nhỏ hơn nhiều dựa trên công nghệ tương tự để sản xuất hydro làm nguyên liệu cho các tế bào nhiên liệu. Hơi nước quy mô nhỏ các đơn vị cải tạo để cung cấp pin nhiên liệu hiện đang là đối tượng của nghiên cứu và phát triển, thường liên quan đến cải cách methanol hoặc khí tự nhiên nhưng các nhiên liệu khác cũng được xem là như propane, xăng, autogas, diesel và ethanol.

Trả lời

3

Nói chung, tôi tin rằng đây vẫn là vấn đề mở. Xử lý ngôn ngữ tự nhiên vẫn là một lĩnh vực mới sinh và trong khi chúng ta có thể làm một vài điều thực sự tốt, nó vẫn còn vô cùng khó khăn để làm loại phân loại và phân loại này.

Tôi không phải là chuyên gia trong NLP, nhưng bạn có thể muốn xem these lecture slides thảo luận về phân tích tình cảm và phát hiện quyền tác giả. Các kỹ thuật bạn có thể sử dụng để thực hiện so sánh văn bản mà bạn đã đề xuất có liên quan đến các kỹ thuật bạn sẽ sử dụng cho các phân tích nói trên và bạn có thể thấy đây là điểm bắt đầu tốt.

Hy vọng điều này sẽ hữu ích!

5

Đó là một thứ tự cao. Nếu tôi là bạn, tôi sẽ bắt đầu đọc về Xử lý ngôn ngữ tự nhiên. NLP là một lĩnh vực khá lớn - tôi khuyên bạn nên xem xét cụ thể những điều được đề cập trong bài viết "Processes" section của Wikipedia Text Analytics.

Tôi nghĩ rằng nếu bạn sử dụng số information retrieval, named entity recognitionsentiment analysis, bạn cũng nên thực hiện theo cách của mình.

2

Bạn cũng có thể xem qua mô hình Cấp phát Dirichlet (LDA) trong học máy. Ý tưởng có để tìm thấy một đại diện thấp của mỗi tài liệu (hoặc đoạn văn), đơn giản như là một phân phối trên một số 'chủ đề'. Mô hình được đào tạo theo kiểu không giám sát bằng cách sử dụng một bộ sưu tập tài liệu/đoạn văn.

Nếu bạn chạy LDA trên tập hợp các đoạn văn, sau đó bằng cách nhìn vào sự giống nhau của vectơ chủ đề ẩn, bạn có thể tìm thấy liệu hai đoạn văn có liên quan hay không.

Tất nhiên, đường cơ sở không sử dụng LDA và thay vào đó sử dụng tần suất cụm từ (tăng cường với tf/idf) để đo tương đồng (mô hình khoảng trắng).