说明:现在连接/数据处理器
数据服务器应用程序,它收集URL或URL列表并将这些数据传递给数据处理引擎。
服务器应用程序从网页上提取主要内容,分析内容以发现其他元数据,然后将最终数据传递给索引引擎。 该应用程序使用三种类型的消息队列来形成执行上述任务的顺序3步骤管道。 这三个消息队列是:
extractor :从网页中提取主要内容。
analyzer :使用elasticsearch NLP功能分析内容以发现其他元数据。
dispatcher :将最终数据(网页的主要内容和其他元数据)传递给索
<weixin_42168265> 上传 | 大小:91kb