2020年度作品

C500(二等奖)图讯News Map

作品编号:C500(二等奖)

作品名称:图讯News Map

作者单位:武汉大学资源与环境科学学院

小组成员:罗运,胡宏伟,余思佳

指导老师:苏世亮

一、需求分析

开发背景

在大数据时代,新闻资讯作为获取信息的有效途径,存在信息冗杂、分类不清、表达不直观等问题。而地图作为一类重要的信息载体,有其特殊的语言系统,并且在信息展示方面具有直观、多维的特点。

表1.1-1 用户痛点及解决方案

用户痛点

解决方案

新闻分类不清、表达不直观,用户难以进行高效信息筛选并快速理解新闻

以地图为向导、地理位置为线索对新闻事件进行分类展示,并提供可视化交互服务,弥补传统新闻在空间描述不清、方位抽象化等方面的不足,使用户能够直观、清晰地知晓每一条新闻的发生地,随时随地了解周围的实时新闻,从而满足用户对新闻直观呈现、个性化新闻地图等信息需求

新闻信息与用户关联性较弱,用户难以高效获取有用信息

根据用户搜索记录以及兴趣管理进行用户分析,从而实现信息精准推送,高效实现供需匹配及活动与受众的匹配

缺少新闻信息间的关联性以及新闻与时空结合的数据分析,用户难以对兴趣区域的新闻形成清晰认知并高效利用数据

建立新闻信息抽取系统,对收集的新闻文本进行多维度深入分析,并提供多样化的分析成果展示

新闻信息冗杂、真假难辨,面对海量资讯,用户难以分辨信息真伪

利用多个权威新闻网站作为数据源,保证为用户提供权威真实的新闻资讯

目标用户

目标用户主要分为三种类型,分别是普通群众、新闻工作者以及政府部门。各类型目标用户特征介绍如下:

l  普通群众:适用于习惯利用新闻渠道获取信息,对信息多维呈现需求较大的普通群众。他们可以直观地了解到新闻发生的地理位置及其分布,也可以基于兴趣区域或兴趣主题进行信息筛选和查询,有助于拓宽新闻传播视野,而个性化的精准新闻推送也有助于用户高效获取有用信息。

l  新闻工作者:权威新闻网的新闻工作者可直接通过本网站进行新闻发布与编辑,随时获取用户反馈并进行内容调整、运营方向调整,也可以通过数据分析增加对区域内新闻的整体认知。

l  政府部门:政府部门能从新闻时空信息角度了解新闻内容,并通过时空热点分析、情感分析、舆情导向功能,迅速把握目标区域内大事件以及民众情感倾向,从而及时采取相关措施。

用户角色

本产品为保证新闻内容权威真实,设计了用户角色权限区分机制,具体描述如下。

表1.3-1 用户角色及描述

用户角色

用户描述

普通用户

可搜索、评论、收藏并分享新闻,接受资讯推送,查看新闻分析

发布者

除以上基本功能外还有权限发布、编辑新闻

主要功能

以地理维度为基础,时间维度为变量对新闻信息进行聚合,制作出一款以地理维度为基础的新闻时空地图交互产品。通过多样化的统计图表对不同时段的新闻进行可视化展示,并基于已有数据进行多维度深入分析,实现了文本相似度地点的关联分析、聚集分析、情感分析、舆情导向分析等多种功能,具体功能结构图如下:

图1.4-1 产品功能结构图

二、总体设计

图2.1 总体结构设计图

作品总体上可分为:数据层、应用支撑层、业务逻辑层、表现层共四层。

其中,数据层包括用Python爬虫编写的数据获取部分,定时运行的数据处理脚本部分,MongoDB、Redis、PostgreSQL数据库构成的数据存储部分。

应用支撑层包括,以NodeJS Express为框架的用户信息管理服务、新闻数据管理服务、新闻数据分析服务,以Python Flask为框架的新闻智能解析服务、自然语言处理服务,以ArcGIS Server为框架的地理处理服务、结果地图服务。

业务逻辑层包括,新闻推荐、新闻展示、新闻编辑、新闻分析、用户管理。

表现层包括,Chrome浏览器、360浏览器、Edge浏览器在内的现代浏览器。

功能设计


2.2.1总体结构

按照新闻的获取、编辑、展示、分析四大流程,本作品可以按照新闻数据的流动过程分为:新闻源爬取解析、新闻编辑发布、新闻分析处理、新闻可视化四大模块。而新闻分析,包含自然语言处理与推荐模块,空间分析模块两个部分。

图3.1.1-1 总体结构设计

其中,新闻源爬取模块主要涉及从新闻网站上爬取新闻数据;对新闻数据进行提取;对提取后的新闻数据进行初步处理,得到地理、尺度等数据;将初步处理的新闻数据存入数据库。

本模块使用Python分布式爬虫Scrapy对长江新闻网上的数据进行爬取,参考论文《基于文本及符号密度的网页正文提取方法》进行新闻属性的智能,并构造新闻数据对象,利用MongoDB对数据进行持久化存储。随后,利用深度学习技术中的BERT模型,对新闻文本进行命名实体识别,得到新闻中的地点名、机构名。再综合高德、百度所提供的在线地理编码服务编写规则算法,得到地点的经纬度,并利用PostGIS提供的地理数据运算服务,计算地点的尺度、跨度,最后将得到的信息存入MongoDB数据进行存储。

图3.1.2-新闻爬取解析

2.2.3 新闻编辑发布模块

新闻编辑发布模块主要涉及新闻富文本、新闻地理属性、新闻标签的编辑与发布,以及新闻地点的自动识别提取与编码。

本模块使用了前后端分离的涉及方式,后端通过API接口提供数据访问、编辑服务,前端通过访问API接口,得到数据并进行数据的展示、编辑、回传。其中,后端业务逻辑采用NodeJS的Express作为Web框架,提供用户注册、登录,新闻获取、编辑等功能;智能运算逻辑采用Python的Flask作为Web框架,提供实体识别、智能解析等功能。前端使用Vue、Vuex、Vue Router框架,并配合MapBox、高德实现地图功能,结合TinyMCE、Mavon实现富文本编辑、Markdown文本编辑功能,利用ElementUI组件框架进行整体页面构建。

图3.1.3-1 新闻编辑发布

2.2.4 新闻自然语言处理与推荐模块

新闻分析处理模块主要运用深度学习技术、自然语言处理技术,对新闻文本进行分析处理,得到新闻的潜在文本联系,并结合地理信息数据,挖掘新闻的内在关系、潜在价值与含义。

本模块使用了北京大学语言计算与机器学习研究组的pkuseg分词工具进行分词与词性分析,使用了TF-IDF、LDA、Doc2Vec、Cosine Similarity算法进行文本的分析,并利用生成器进行大数据文本的流式处理。

图3.1.4-1 新闻分析处理

2.2.5 新闻可视化模块

新闻可视化模块主要用到了前端热门的多个可视化组件,将上述三个模块所得到的数据、信息以清晰、简介的方式进行展示,呈现给用户。

本模块使用了ECharts、MapBox、AMap Loac实现包括柱状图、折线图、词云、路径图、区块图、3D热力图的数据可视化展示。

图3.1.5-1 新闻可视化

2.2.6 新闻空间统计分析模块

空间统计分析模块主要涉及应用ArcGIS进行空间分析、统计任务的执行。

在空间统计分析模块中,我们通过模型构建器,发布地理处理服务器至ArcGIS Server,从而实现客户端的动态空间统计。

图3.2.6-1 新闻统计分析

三、作品亮点

目前市面上大部分的新闻网站并没有配备地图,即使有少部分配有地图,也仅是单一的报道时间或新闻发生的位置,并没有形成时空上的多维呈现,缺少关联性的同时,也缺少对新闻的深度剖析,无法满足人们对新闻时空概念、个性化地图等信息的需求。本作品紧紧抓住市场关于新闻地图的需求,从新闻时空特征的可视化呈现出发,延伸出更多创新性功能,旨在满足时空大数据时代背景下新闻融媒体的创新发展。本作品具体亮点如下:

3.1反映新闻的时空特征

本系统最显著的创新便是实现了新闻与地图的结合,反映了新闻的时间、空间特征。通过地图的可视化表达,用户能够直观、清晰地知晓每一条新闻的发生地,同时可以随时随地了解周围的实时新闻,使传统地图成为一个媒体入口,不再只满足简单的导航需求,而是可以将每一个具有地方属性的资讯内容直接呈现于其上,帮助用户发现身边有价值的信息,实现了多种信息的融合。

3.2数据来源权威

基于长江新闻网、新华网、人民网等权威新闻网站,对用户实现精准兴趣和需求的内容投放,让用户发现身边有价值的新闻内容,满足其在本地的内容交互需求,从而助力扩大新闻的覆盖面、同时也推动了主旋律价值观的高效传播。

3.3强大的新闻分析功能

具备强大的新闻分析功能,包括常规分析、主题分析、根据文本相似度的关联模型、情感分析、聚类分析、智能提取解析等。在权威新闻网站收集不同类别、不同影响范围(尺度)的新闻文本并将其分类、分级,按照不同的类别、尺度、特征等存储新闻数据库。建立新闻信息抽取系统,对收集的新闻文本进行文本结构分析,并建立关键词表完成特征选择及信息分类。

3.4分析结果呈现方式的多样化

在新闻地图可视化呈现的过程中,运用丰富的图表、网络实现了对地图深度分析,改变了新闻“以文为主,图片为辅”的传统模式。分析结果的呈现方式包括树状图、饼状图、折线图、直方图、聚类图等。