基于DOM的维普文献信息智能提取系统设计与实现 下载本文

3.2.2. 数据库设计

本文在设计数据库时可能会带有外键,但在系统实际开发应用中,为提高效率及性能没有使用物理外键,而是使用逻辑外键。

为达到不同配置,且不同数据结构的存储,系统在使用中会根据不同的配置动态产生不同的表,所以以下描述的数据库设计并非最终在使用时的全部表结构,而是在系统开发以及部署阶段使用的。 1) 数据库模型图

图 3-13数据库模型图

2) 数据库模型详细

表3-1 crawler_config(配置表)

序列名 号 数据类型 长度 标识 主键 外键 允许默认说明 空 值 22

1 2 3 Id Name SubmitUrl KeyWordField int 11 是 是 否 否 否 auto_increment 配置名 提交URL varchar 55 varchar 225 4 varchar 255 否 关键字标识符 5 PageField varchar 255 否 翻页标识符 分页大小,0表示6 PageSize int 11 否 0 自动 7 8 Fields FieldsNote AllRowConfig varchar 512 varchar 512 4096 int 3 否 否 字段 字段说明 9 varchar 否 记录列表正则 10 MaxPage StopPageCount 否 100 最大翻页数量 局部失败重试次11 int 11 否 5 数 12 13 TableName AddTime varchar 255 int 11 11 否 否 0 对应表名 添加时间 14 AddUID int 否 0 添加人 15 16 UpdateTime int Status int 11 11 否 否 0 0 更新时间 状态 表3-2 crawler_regex(正则配置表)

23

序列名 号 数据类长型 度 标识 主键 外键 允许默认说明 空 值 auto_increment 配置Id 列名(字段) 列注释 正则表达式 1 Id int 11 是 是 否 2 3 4 5 ConfigId ColName ColNote Regex DefaultValue int varchar varchar varchar 11 255 255 255 否 否 是 否 6 varchar 255 否 默认值 7 8 9 Prdfix Suffix Status varchar varchar int 255 255 11 否 否 否 附加前缀 附加后缀 状态 表3-3 crawler_task(任务表)

序列名 号 数据类长型 度 标识 主键 外键 允许默认说明 空 值 auto_increm1 Id int 11 是 是 否 ent 关键字 配置Id 单次请求数2 3 KeyWords ConfigId SingleCounvarchar int 255 11 否 否 4 t int 11 否 量 24

5 Cycle ExpireTime int 11 否 周期 6 int 11 否 过期时间 7 AddTime UpdateTime int 11 否 添加时间 8 int 11 否 更新时间 9 10 Note Status varchar int 255 11 是 否 备注 状态 表3-4 global_type(全局类型表)

序列名 号 数据类长型 度 标主外键 允许默认说明 空 值 auto_increm识 键 1 Id int 11 是 是 否 ent 类型键 备注 状态 2 3 4 Key Note Status varchar varchar int 255 255 11 否 是 否 1 表3-5 log (日志表)

序列名 号 数据类长型 度 标识 主键 外键 允许默认说明 空 值 auto_increment 1 Id int 11 是 是 否 25