河南省政府门户网站内容格式规范(V1.0)
一、制定背景
河南省政府门户网站的内容主要来源于省政府各部门和各省辖市政府。省政府门户网站整合各级子网站内容的手段主要是网上抓取、信息报送和网站链接等方式,其中网上抓取是省政府门户网站从各级子网站获取内容的主要方式之一。
网上抓取所面临的问题是,各级政府网站及省政府部门网站缺乏统一的内容格式,网站内容的变动缺少统一格式的索引,不利于采集工具自动抓取和分析,部分属性缺少或不易准确提取。为了更准确地采集和分析下属子网站的信息,需要规范网站的页面内容格式。各级政府网站及省政府部门网站按照统一要求经过规范化修改后,省政府门户网站可以通过内容整合系统准确地实现网上信息自动抓取。
二、名词解释
网站内容整合:本规范所指的网站内容整合,仅限于对省政府门户网站发布的基本网页内容的抓取,不包含对各类网上办事、网上申报、数据查询等应用服务系统中数据内容的整合。
RSS标准:RSS(“Rich Site Summary”或“Really Simple Syndication”的首字母缩写)中文称作“简易信息聚合”,是站点用来和其他站点之间共享内容的一种简易方式,是一种用来分发和汇集网页内容的XML格式。
全网检索:省政府门户网站提供的全文检索功能,指系统能够检索省内各级政府网站及省政府部门网站的所有内容,并将各网站检索内容的结果统一合并处理后返回给查询用户。这样,用户得到的检索结果是全省各级政府网站及省政府部门网站检索结果的集合。
三、制定目标
本规范围绕信息采集和网页分析功能,在保持现有网站建设模式、不增加信息通道的前提下,使符合规范的网站发布的网页内容可被省政
府门户网站内容整合系统自动识别、采集,并实现网页属性信息和内容字段信息的自动引用,最大限度减少人工介入。
本规范配合省政府门户网站内容整合系统,实现以下目标: 及时发现并收集网站的信息变更情况,准确分析网页属性信息,准确定位内容信息,实现省政府门户网站与子网站之间内容的自动同步,实现政府网站群全网检索、RSS订阅等附加功能。
为了实现上述目标,本规范制定的规范条款包括四个方面,具体含义和作用说明如下:
(一)内容字段信息规范:明确每一类信息内容必须包含的字段,以及各字段所定义的各项内容的书写规范,确保内容完整和格式统一。
(二)页面属性及内容字段标注规范:对信息内容按规定的字段进行标注,通过制定统一的格式规范,可以实现网页属性信息的准确提取,能将各字段下的信息准确定位到省政府门户网站对应网页页面的对应区域,并为分类检索打下基础。
(三)内容变更索引文件发布规范:用于标记网站单位时间内信息变更情况,通过对索引文件的分析,可以使内容整合系统程序判断哪些内容需要抓取,并获得这些内容的链接地址。
(四)检索系统规范:用于实现政府网站群联合检索,使各网站实现一套统一的检索接口,并返回统一格式要求的检索结果页面。
四、适用对象
本规范适用于河南省行政区域内各省辖市政府门户网站、省政府各部门网站发布的基本信息内容,河南省政府门户网站内容整合系统将全面支持本标准,实现对符合标准的政府网站的数据准确采集。
具体类别及内容界定如下: 政府领导:本级政府或本部门领导姓名、职务、分管工作、简历等;
政府机构:本部门机构名称、工作职能、办公地址、公开电话、网站网址等;
1
内设机构:本部门内设机构名称、职责、联系方式等;
法规文件:本级政府或本系统有关法律、法规、规章、规范性文件;
政务动态:本级政府或本系统的重要动态信息;
公告公示:本级政府或本部门公开发布的公告或公示信息; 人事任免:本级政府发布的人事任免信息;
办事指南:本级政府或本部门的行政许可审批项目、政务大厅及其他办事服务项目的办理指南;
网上服务:本级政府或本部门提供的网上服务系统信息; 主页信息: 本级政府或本部门提供的网站的主页(包括栏目主页)信息,给出网站名称、URL、地区、栏目等属性;
其他网页信息: 本级政府或本部门网站内不属于上列的其他内容页面信息,需要标注标题、日期、正文、来源、地区、网站、栏目等信息。
五、制定原理和原则
(一) 规范制定原理
本规范结合了RSS标准的基本规则和河南省政府门户网站信息内容的特性。实现本规范的基本方法是,在网页html中嵌入特定意义的标识信息,用于标注各项有意义的内容,嵌入的标识信息采用html的meta和特殊注释语句置标,在实现属性标注功能的同时,不影响网页的显示效果。
构成网页的html文件逻辑上可以分为内容(Content)和页面展示(Style)两部分。内容部分包括网页的标题、日期、正文、来源等数据元素,决定了网页所包含的信息;页面展示部分包括每个元素的位置、字体、大小、颜色等,决定了网页在浏览器中的显示效果。html文件能够将内容和页面展示有机地结合为一体。
本规范的制定主要从网页内容标注入手,从内容层面对网页进行标注。具体方法是,利用html文件的特性,在不影响网页展示效果的前提
2
下,加入各类属性置标,规定网站发布内容必须包含的信息。例如,在网页中标注网站信息、栏目信息、标题、日期、正文、来源等数据内容,从根本上保证其他应用对该网页属性的准确识别和提取。
(二)规范制定原则
为尽量减少各省辖市政府网站及省政府各部门网站的改动,在本规范制定过程中充分考虑了全省政府系统网站建设的实际情况,并参考中央政府门户网站内容格式规范的要求,尽可能提供可行的操作规范。
六、规范条款
(一)内容字段信息规范
说明:本条款为第四部分“适用对象”中规定的信息定义基本的内容字段和信息填写格式,各子网站发布的相应内容,必须包含该类别的基本字段,并按规范格式填写。
用途:保证子网站与河南省政府门户网站内容的一致性,保证被整合的各类内容包含了门户网站所需的基本信息,且内容格式统一。
各信息类别包含的基本字段名称及填写规范如下: 1.政府领导
姓名:填写领导姓名;
职务:填写领导职务,不保留单位名称;
分管工作:填写领导分管工作范围;
简历:填写领导个人简历;
照片:上传领导个人相片的网址。 2.政府机构
名 称:填写本部门的全称;
职 能:填写本部门的职能介绍;
地 址:填写本部门办公地址和邮政编码,格式为:办公地址(邮政编码);
公开电话:填写本部门的公开电话,保留区号,格式为:(区号)电话号码;
3
电子邮件:填写本部门的公开电子邮件;
网 址:填写本部门网站主页网址;必须包含http://。 3.内设机构
名 称:填写本部门内设机构名称;
工作职责:填写本部门内设机构的职责范围; 负 责 人:填写本部门内设机构的负责人;
电 话:填写本部门内设机构公开电话,保留区号,格式为:(区号)电话号码;
电子邮件:填写本部门内设机构工作电子邮件。
4.法规文件
标题:填写法规或文件的标题,不保留发文单位;
文种:填写文件的文种;
文号:填写文件的文号;
正文:填写文件正文全文、附件,附件应在正文中展开或在附件标题上做超链接,超链接必须是绝对地址;
发文机构:填写文件所有发文机构的全称;
发文时间:填写文件发布日期,格式为:yyyy-mm-dd;
主题词:填写文件主题词。 5.政务动态
标 题:填写信息标题;
发布日期:填写信息发布日期,格式为:yyyy-mm-dd;
正 文:填写信息正文,附件应在正文中展开或在附件标题上做超链接,超链接必须是绝对地址;
来源:填写信息的原始发布单位。 6.公告公示
标题:填写公告或公示标题;
发布机构:填写公告或公示发布机构全称;
发布日期:填写公告或公示发布日期,格式为:yyyy-mm-dd;
4
正文:填写公告或公示正文,附件应在正文中展开或在附件标题上做超链接,超链接必须是绝对地址。 7.人事任免
标 题:填写人员任免信息标题;
发布机构:填写人员任免信息发布单位全称;
发布日期:填写人员任免信息发布日期,格式为:yyyy-mm-dd;
正 文:填写人员任免信息正文。 8.办事指南
项目名称:填写办事项目名称;
办理机构:填写该办理机构全称,如属下属机构办事项目,填写下属机构全称;
受理地址:填写受理该项目的责任部门的联系地址;
联 系 人:填写受理该项目的责任部门和责任人,格式为:(责任部门)责任人;
联系电话:保留区号,格式为:(区号)电话号码;
项目类型:在“行政许可事项”、“非行政许可审批事项”、“其他项目”三个分类中选择一个填写;
受理条件:填写该项目的详细受理条件,对需要进一步说明的内容应做超链接,超链接必须是绝对地址;
材料明细:填写办理该项目需提交的材料清单,对需要进一步说明的内容应做超链接,超链接必须是绝对地址;材料清单中涉及的所有规范性表格可以提供下载的,填写完整的中文名称,并在名称处做下载网址的超链接,超链接必须是绝对地址;
办理程序:填写该项目的详细办理流程,对需要进一步说明的内容应做超链接,超链接必须是绝对地址;
办理时限:填写该项目的规定办理时限和承诺办理时限;
收费情况:填写该项目的收费情况。应注明收费依据、标准或列出收费依据文件并提供链接;
5
服务对象:在“个人”、“企业”、“个人和企业”三个分类中选一个填写;
网上受理:如有,填写网上办事网页的准确网址,必须包含http://;
结果查询:如有,填写办事结果查询网页的准确网址,必须包含http://;
监管措施:填写对办事过程、结果的监督措施和投诉渠道。 9.网上服务
网站名称:填写网站的正式名称;
项目名称:填写网上服务项目的名称;
服务网址:填写服务项目的网址,必须包含http://;
地 区:填写网站所属政府部门所在地,省级部门网站填:河南。 10.主页信息
网站名称:填写网站的正式名称;
栏 目:填写网站的栏目名称;
URL地址:填写本主页的UTL地址,必须包含http://;
地 区:填写网站所属政府部门所在地,省级部门网站填:河南。 11.网页信息
网站名称:填写网站的正式名称;
栏 目:填写本网页所属的网站栏目名称;
地 区:填写网站所属政府部门所在地,省级部门网站填:河南;
标 题:本网页文章标题;
来 源:本网页信息的来源;
发布日期:本网页发布日期;
正 文:本网页信息正文。
(二)网页属性及内容字段标注规范
说明:在网页内容中,使用特殊定义的置标对上述规范的各内容字段信息进行标注。
6
用途:使内容整合系统在抓取信息后,能将各字段内容准确定位到河南省政府门户网站对应网页的对应区域,实现信息的自动同步。
在有关内容页面html代码的head中对内容字段信息作如下置标: 在有关内容页面html代码的body中对内容字段信息作如下置标: begin--> ……字段信息…… end--> 下面以范例形式给出各类别内容的字段信息标注格式:
1.政府领导
姓名 …… …… …… ……
职务:
begin-->XXXXXXXXXXXXXXXend--> 分管工作: begin--> XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX。
end-->
7
领导简介: begin--> XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX。
end--> 领导照片: begin-->
end--> …… ……