【摘要】

本文介绍了商业情报平台的设计和实现方面最重要和最有趣的主题。从业务目标的定义(选择使用开源组件以尽可能低的总成本),到需求的正规化,最后到使用离岸开发团队的实现,整个项目经验都得到了报告。特别注意了团队的组织以及客户、分析师、项目经理和开发人员之间的沟通,实现了特定的元语言,以保证整个分析过程中信息的完整性。以下是解决的问题、取得的成果、取得的创新成果、遇到的问题、工作的现状以及未来可能的发展。

1、问题

数字基础架构越来越多地基于互联网(,2011)组或资源的状态不是执行请求操作的正确状态,这是一种不安全的环境。在这些系统的安全方面没有取得太大进展,或者它们的构建或运行方式没有显著变化的情况下,组织如何保护自己免受日益增长的网络犯罪威胁的可能性正受到质疑。意大利也不能幸免于这个问题,事实上,数字基础设施存在漏洞,使犯罪分子能够侵犯系统及其包含的信息(,2012-2013)。目前,人们的注意力正转向关键的基础设施威胁(,2010)。国家情报的新方法促进了经济情报文化的发展。商业情报(BI)强调了咨询需求组或资源的状态不是执行请求操作的正确状态,需要将研究过程系统化、分析、OSINT报告、最终以节省成本、提高响应的及时性、增加报告的总体可靠性以及减少由于缺乏咨询或现有数据的增强而导致的信息偏差。

2、商业情报平台”项目

该项目旨在通过回应具体的功能规格,为咨询业务创造技术支持:通过使用“关键字”和适当的其他搜索参数查找和保存OSINT信息;通过使用分析工具丰富找到的信息;转换、分析找到的数据和信息,应用分类算法、分类和回归;用动态和互动的报告和仪表盘显示数据和信息;提高开展业务的存储能力。

2.1项目要求

为了迅速、可靠地做出响应,该平台的设计涵盖了所有与重大商业情报相关的场景,如安全、网络声誉、经济和旅行安全情报。为了将其视为辅助工具,该平台必须是专有和开源资源的集成系统,并且整个过程可以由人类智能进行监控和监督。该工具必须设计为从分析师的角度促进和解决问题。

该架构必须倾向于使用开源技术,并且必须拥有所有虚拟化技术组件,以便它能够采用云计算的范例,从而具有可伸缩性,以响应对大量资源的使用需求,这些资源足够且与运营需求相称。

2.2项目组内的沟通和互动

项目组成员主要通过使用在线交流工具进行远程互动。在图1中,它们代表了参与项目实现的小组中的各个成员之间的物理接近关系。团队负责人提供业务需求;项目经理协调主要由分析师和离岸开发人员组成的本地工作组,同时保持对项目工作进度的责任和管理。

为了管理远程协作,选择的是实现“临时”通信协议的类云协作环境,下面将对此进行简要介绍。首先,以“用户故事”的形式展现项目需求。“用户故事”是对最终用户(分析师)在创建后希望能够使用的单个功能的描述。“用户故事”已分为相关操作的组,例如搜索表单或显示从搜索中获得的结果。

每个“用户故事”都有一个特定的ID和一些描述性属性,以便更好地限定和管理它。此外,还添加了团队在实施过程中使用的特定属性。这些属性中的第一个是验证,分析人员和项目经理使用该验证为开发人员提供指导。“待办事项”状态是指等待创建的“用户故事”;一旦正确实施,状态将变为“ OK”;不正确时,将状态设置为“ KO”;状态“?” 意味着需要分析人员对定义进行审查,以得到更好的描述和/或形式化。

第二个属性是,优先级/严重性也被分析人员和项目经理用来引导开发活动朝一个方向而不是另一个方向发展。“分析师”和“开发人员评论”属性是相互交流的空间,它创造了有用的上下文信息通道,使每个人都能以各自的特权进行工作。在图2中,您可以看到“用户故事”的摘录。协作云平台的使用提供了签名和带有时间戳的注释以及文档版本控制功能等工具,以确保所采用协议的安全性和灵活性。

3、取得的成果,问题和可能的发展

团队的组成和组织对于平台的架构设计和数据集成复杂性的管理至关重要,可确保系统的可扩展性。在这方面,已经研究了分析人员和开发人员之间的特定通信协议,并将其用于定义必须从通用站点(论坛,博客等)的网页中提取的相关信息的过程。该过程从分析师提供给开发人员的指示开始,例如,页面中哪些信息相关以及它们属于哪些属性。当此过程是自动的时,盎格鲁-撒克逊人将其称为“卷材刮擦”。该过程以后验验证结束,即开发人员实际实现的内容与分析人员想要的内容相对应。在图3中,可以识别用于此知识传递的技术。

该界面为网络类型,是一个完全设计和创建的“临时”模块。

信息分析和管理过程已详细细分,显示了处理信息以获得商业智能所需的每个重要步骤。

图4突出显示了构成“知识库”的聚合元素以及诸如专有数据库之类的补充信息源。

项目的创新部分与技术组件无关,而与数据处理过程的设计部分(从源头开始)相关。

对考虑到的每个来源的数据执行业务智能操作所需的所有属性进行了“映射”,以便在信息存储阶段保留并确保来源的相似字段之间的语义一致性。不同。在图5中,可以通过在列中标识分析的源来查看此结果。每行显示认为满足业务目标集所必需的属性。当可以检测到该属性的存在时,在每个单元格中对应于行和列之间的交点处显示一个“ x”,而当该属性不可用时,则显示值“ Null”。

3.1项目的问题和关键方面

尽管已设想并因此在IMP平台研究模块中实现了功能可伸缩性要求,但为了快速适应OSINT环境引起的突然变化,仍需要不断处理从中获取相应数据的来源的不可预测的变化。实际上,这些变化是不可控制的。我们报告了遇到的两种不同类型。

在可能的情况下,向单个来源提供的本地API在没有使用任何“变通办法”的情况下被使用,以检索文本形式的数据,并将数据库中的此类信息与其各自的属性相对应,然而,API在可用时不断演变和/或演变维护,并且在短时间内经常需要调整部分编写的代码,以适应来源本身的供应商/所有者所做的更改。

在绝大多数情况下,数据的获取是通过对互联网页面的单一读取和存储来完成的。Web抓取抯的使用对页面结构的变化更加敏感,而且这种频率变化比API中的变化更大。事实上,认为即使是简单的图形类型更新(如更改布局)也可以通过确定数据采集功能相对于相关信号源的中断来确定用于提取感兴趣信息的代码的中断。此外,使用图3中的技术进行的知识传递与使用的技术无关,并且总是受到可能导致真正困难的妥协的影响。

测试和核查过程对于确保完全控制项目的进展方向是必不可少的,也是实质性的。此任务必须在发布第一个版本时开始,并且每次发布新版本时都必须从头开始重复。为了保证最高的质量,集团的所有成员(客户、分析师和项目经理)都以各种方式参与到测试和验证阶段。随着新版本发布速度的加快,可能会出现批评,因为这一阶段会让整个团队参与到需要协调的长时间工作会议中。

3.2最新技术和可能的发展

这项研究目前是根据国内和国际媒体通过综合聚合器进行的新闻进行的,这些聚合器保证了无与伦比的性价比--这是经济资源稀缺的项目所需的绩效。

与参考资料来源的链接(图6)保证了每天在大约7000个国家、地方和国际报纸的精选网站上以大约70种不同的语言发布大约22万条新新闻的可能性。其他信息来源是社交网络和搜索引擎。通过将这些信息与和整合,您可以收集和准备大量非常重要的信息,然后执行分析阶段。未来的发展是多种多样的。

在第一种情况下,为了完全覆盖商业情报平台预览的使用场景,在任何情况下都必须完成功能需求,以便能够脱离上下文\协议抯使用该平台。通过提供保证其安全运行和具有足够服务水平所需的大量硬件资源,不可能从调整其体系结构的事实中推断出这一点。此外,还可以根据具体需求对它们进行集成,还可以对其他类型的数据源进行集成和进一步分析。最后,信息来源和信息评估系统的实施是提高信息发布平台本身质量和可靠性的必要因素。

4、附录:演示

可以查看的路线如下所示。“功能”段列出了演示中可用的主要功能,而“用例”段说明了系统预期的操作和行为。

4.1功能

IMP应用程序界面为网络类型,可以访问平台本身的三个主要模块。它由“搜索管理”模块,“分析管理”模块以及最后的“报告管理”模块组成。从经典情报周期已经提到的有意的非常简单且线性的导航菜单中可以轻松访问所有三个模块。在图7中可以看到它。

4.2用例

1.逻辑容器中搜索结果的组织和管理

第一个用例使您可以欣赏所获得的结果以及平台的运行。情报过程的第一步是计划信息搜索。要在平台上运行它,可以访问当前以名称“搜索管理”指示的菜单的第一部分。搜索结果的汇总是通过逻辑容器中的分组进行的:“集群”定义最高的汇总级别;“ DB”设置一个中间级别;最后一个“查询”允许您设置并执行搜索查询。对于每个逻辑容器,可以以聚合形式导出其中包含的所有搜索查询结果。设置要插入结果的“逻辑容器”(图8)之后的主要目标是执行搜索。当前,由于图形级别的限制,不可能在多个逻辑容器中显示相同的查询,但是在体系结构级别,已经适当提供了多对多关系,以便将来能够做到这一点。

2.搜索OSINT来源

填写表单并使用“查询表单”屏幕中显示的相应“提交”命令按钮确认搜索后,系统将接受请求,并且根据搜索参数设置,查询将立即执行或发送 处于“待处理”状态,直到执行完毕为止。特别是,值得注意的是,在与平台连接的所有源上的搜索是并行执行的,从而使搜索过程非常快速和高效。

在这方面,请参见图9)。在表格中,您可以指定各种搜索设置。对于进行的每个研究,都可以访问获得的结果的管理部分,称为“结果管理”。在这里,您可以浏览适当的结果子集,以进行查询和/或查看详细信息。可以通过参考原始新闻的链接以及新闻来源来立即获得表征单个结果的主要信息。

3.导出搜索结果

为了进行搜索管理,有(图10)“查询管理”部分。这样,您可以管理所有搜索,并通过适当使用搜索过滤器来快速查找彼此之间的交互关系,从而可以找到感兴趣的查询。在屏幕上,您可以通过单击查询生成的结果数来转到查询结果。与每个查询相对应,具有“导出CSV”功能,该功能允许自动创建CSV文件(逗号分隔值)以执行分析过程,进而使用被认为最合适/最适合此目的的工具 。

4.分析过程的模拟

在第二部分“分析管理”中,您可以访问今天可用的工具,以导入对从搜索获得的数据执行的分析结果。如前所述,搜索结果以CSV格式导出到数据文件。导出数据后,将使用适当的工具(例如套件或Weka和R应用程序)对其进行分析。一旦分析过程完成,就可以导入先前导出的所有记录,然后通过分析过程的操作进行分析和更新。导入过程完成后,将可以使用“报告管理”模块查看信息。在演示阶段尚不可用,将通过导入先前适当准备的文件来模拟分析模块。

5.查看信息报告

“报告管理”部分是可以看到数据可视化的部分,也可以创建各种自定义的交互式仪表板。仪表板也是从开源项目开始制作的,该项目的技术详细信息可以在参考站点上轻松获得,可以免费从上获得。显示的数据直接从索引引擎获取,而索引引擎又借助“ Mongo ”集成组件,实际上从IMP 数据库实时获取了它们。

应用程序的信息数据库和索引群集之间的这种紧密集成允许对可视化报告工具的充分利用。同时,可以通过参考图11中所示的屏幕快照来产生想法。

在图中,先前已经准备了两个不同的仪表板,每个仪表板都代表数据的特定视图。每个仪表板都允许用户查看感兴趣的某些参数,根据需要更改分析范围的值。通过显示适当的图表,分析人员和数据之间的直接交互作用使分析人员能够识别重大事件和/或感兴趣的事件。通过预先设置图10-IMP:查询管理240适当地出现在摘要仪表板中的视图和度量,可以随时在视觉上立即确认通过“搜索管理”模块执行的搜索。


限时特惠:
本站持续每日更新海量各大内部创业课程,一年会员仅需要98元,全站资源免费下载
点击查看详情

站长微信:Jiucxh

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注