社科网首页|客户端|官方微博|报刊投稿|邮箱 中国社会科学网
  国史网首页 - 加入收藏 - 网站地图
 
重要新闻 | 影像记录 |  国史教育
中国概况 | 人物长廊 | 大事年表
国史珍闻 | 图说国史 | 国史辨析
专题研究 | 理论指导 | 政治史 | 经济史 | 征文启事 | 学 者
学术争鸣 | 学科建设 | 文化史 | 国防史 | 地方史志 | 学 会
论点荟萃 | 人物研究 | 社会史 | 外交史 | 海外观察 | 境 外
特别推荐 | 文 献 | 统计资料
口述史料 | 图 书 | 政府白皮书
档案指南 | 期 刊 |  领导人著作
   您所在的位置:首页 >> 学科建设 >> 国史研究方法
李二苓:数字技术带来历史研究新发展
发布时间: 2021-12-15    作者:李二苓    来源:中国社会科学网 2021-11-08
  字体:(     ) 关闭窗口

  随着数字技术的发展,人们对历史类数据库提出了新的要求。历史资料如何以数字化的形式呈现以便服务于科研等问题亟待解决,而问题解决的可行途径之一是建立一个可持续扩展的历史研究共享平台。

  把握学界与社会需求 

  在大数据背景下,数据库带来了资料获取方式的变革,学者们希望借助技术手段实现多维的数据分析,发现资料间的关系。数据库不仅能够为研究提供论据,还可以使新的知识涌现出来。以大数据为支撑,通过技术手段用数据发现新知识的学术研究,或可称为“数字学术”,主要体现出以下需求。

  1.资料互证。比较研究是判别资料真实性的有效方法之一。将不同视角的人所留下的资料对比阅读,才能更为全面、真实、深刻地反映时代发展样貌,学术研究方可推陈出新。资料主要分为两类:一是档案、报刊、田野调查、日记、书信等原始资料;二是著作、论文、报告等研究成果。目前,能够实现同主题文献比对互证功能的数据库,有人民出版社的“人民金典语义查询系统”等。

  2.知识关联。知识关联有两层含义:一是指将读者想要了解的事物与其他相关事物关联;二是指知识与资料关联,即每一条知识信息或知识关联信息都要有据可依,方便读者快速查阅原始资料。目前,在历史学界影响较大的人物资料库“中国历代人物传记资料库”(CBDB),采用了地理信息系统(GIS)、亲属关系、社会关系等作为勾连人物知识的脉络。

  3.自定义标引、归类、统计和可视化呈现。学界有一种提法叫“量化数据库”,这一概念强调“可适用于统计分析软件”进行量化研究,因此能够带来研究方法的变革,使新技术“真正介入研究的核心”,从数据分析中发现问题。在全文检索基础上的文本分析和数据可视化工具的开发,是目前数据库发展的趋势。现有的一些数据库,在文本分析、数据处理功能上有所推进。比如,台湾历史数位图书馆(THDL)提供词频分析、契约文书买卖角色分析、人物相关性分析、契约空间分布展示等功能;Gale Scholar整合了国外常用的第三方数据挖掘和数据分析软件,为读者提供词库、词频分析工具和可视化展示。

  4.学界对人文知识的把关和社会观念的引领。各类人文网络社区不断出现,已自发形成了公共史学的新场域。但民众往往难以辨别野史、谣传等内容,这给学界赋予了更多的社会责任。然而,目前学界与社会多处于疏离状态。我们亟须正视在网络环境下人文知识的传播问题,探寻一条适合人文学科发展的新路。

  数据库主要是资料的集聚,而平台则更强调交互功能。历史类数据库应向历史研究共享平台转变,以不断满足学术研究和社会发展的要求。

  关注数据库建设制约因素 

  目前,我国的历史类数据库建设在智能化、共享性方面尚无法满足学界与社会需求。发展掣肘的原因主要在以下方面。

  1.版权壁垒,难以打通知识生产与知识保存,实现资料的汇集和共享。建设数据统一共享开放平台是学界广泛呼吁并持续推进的,但是目前“数据孤岛”、重复建设现象仍较为严重。国内较大型的数据库主要限于期刊、图书等资料类型。除营利性数据库外,大多数据库仅限于原创机构内部使用。造成这种现状的主要原因是版权壁垒,档案、图书、报刊、调研资料等各有所属,未来需要在整合图书馆、档案馆、博物馆、出版单位、调研机构等方面有所突破。

  2.缺乏知识服务意识,难以打通资料搜集与学术研究,实现研究过程的积累。基于研究而建设的结构性数据库往往缺乏共享机制,很多功能和成果只能在论文中体现,导致在信息搬运、组织标引等方面造成了不少重复劳动。其主要原因是学界偏重研究成果的获得,而缺乏知识服务意识。所谓知识服务,即以领域知识体系建设为基础,融合相关技术,构建领域知识汇聚机制,对领域知识进行采集与沉淀,开展知识组织,设计并生产知识产品,以知识产品为纽带与连接器,连接知识创造与知识应用,并提供多样化服务模式,促进知识创新与再创造。

  3.平台运营规则和标准制定滞后,难以打通学术研究与公共文化,实现学术引领作用。鉴于目前各数据库著录标引规则不统一的情况,以及对元数据多元化的需求,需要制定一套基本的著录标引体系编辑框架以方便学者操作。鉴于知识传播渠道的拓宽,可能导致大众认知的片面与混乱。网络伦理和道德引领意义重大,应制定一套学科培训、优质资源推荐和资源上传的审核、发布的通用标准。这些规则的制定不仅需要学界的参与,还需要有关政府部门强有力的支持。

  4.跨学科合作尚未形成有效的驱动链条。历史共享平台需要有跨学科的合作,甚至可能形成跨产业的新业态。资料的搜集需要法学对著作权等各项权益的保障。资料整理需要图书馆学、档案学参与规则的制定。在多媒体的环境下,音视频剪辑的艺术性凸显。各基础学科需要与计算机技术结合,才能开发出便利学术研究的平台功能。平台的建设和运营维护需要持续的技术和资金支持,目前尚未形成有效的驱动链条。

  建设历史研究共享平台 

  在数字人文飞速发展的背景下,平台建设已具备了学科基础、社会基础、技术基础。建议以下面几点为抓手,推动数字技术与学术研究深度融合,在资源、知识关联、知识服务三个方面实现可持续扩展,推进人文基础学科向应用学科的思维转变。

  1.立体资料库。数据库是“大数据”的产物,其首要条件是资料浩繁,主要包含两层含义。一是资料类型、来源多样化,以满足“上下左右”论证的需要。二是资料链接立体化,方便追根溯源,主要实现如下功能。(1)全文数字化是增加功能的一个基础要素。相较于扫描,全文数字化成本较高,因此有些大型公益型数据库往往做不到全文数字化。(2)信息整理的规范化是保证资料学术价值和资源共享的要点。要充分尊重资源原有的保存形式和形成环境,形成一套资源整理、上传的国家规范。(3)多维度检索功能、知识关联及其关联信息可追溯到来源资料的功能。只有功能与资料密切勾连,才能切实对历史研究有所帮助。(4)文献比对功能。其难点在于历代用语各有不同,自然语言处理的难度较大。

  2.编辑后台前台化。开拓新领域和学术深耕越发成为研究的发展趋势。面对多样、复杂的学术研究,如何精准满足用户需求,成为越来越难做的工作。数字学术不断崛起,但并非每位学者都具备统计学等知识和计算机技能,因此需要借助软件工具处理海量资料。元数据的著录标引不能仅限于国家标准所规定的范围,而是要将数据库著录标引的后台提供给使用者去自定义处理,使人文学科研究者由其自身研究需要引导数据库开发,实现在研究中不断生长、互惠共赢的平台发展模式。

  3.扩大公众参与,注重教育和协商,引导人文研究健康发展。支持公众参与平台建设,线上公开征集资料、开展网络调研、开放纠错和评论窗口等,都是可行的方法。前提是做好协商和教育。一是建构法律保障的预防性机制。平台应向受众做好必要的说明,尊重受众的有关权利和自主性,通过充分协商,签署版权法律文件。不过,限制不宜过度扩张,不应影响学术研究的创新性。二是注重学术引导。增强审核机制,有利于校正公众讨论的盲目性。将文献资料、调查资料和学术研究三者结合起来,形成人文研究的闭环,打造研究主题社区。人文研究或将成为提高民众文化素养、深化爱国主义教育的引擎。

  4.精准推送,实质性推动学术进步。如何向读者推送数据库中个人感兴趣的优质资料,如何挖掘出普遍关心的问题从而促进学术探讨,数据库内容可能引发哪些新的研究点,或可通过分析平台访问日志实现。目前,在电商、检索平台已获得广泛运用的用户行为分析算法,也适用于学术平台,可以使知识生产更有针对性、引导性。一是平台服务质量全面提升,用户的忠诚度也能随之提高,方可形成新的业态。二是聚集兴趣点相近的人群,可以减少资料搜集和学术研究的个别性和零散性,从而对推动学术发展发挥实质性作用。

  在数字人文飞速发展的背景下,将知识生产与知识保存打通,将资料搜集与学术研究打通,将学术研究与学术引领作用打通,将文化传承与公共文化打通等,是未来的发展趋势。历史研究数据库也应从史料型数据库向量化数据库,再向可持续扩展的历史研究共享平台发展,推动数字学术化和学术数字化,推动数字技术与学术研究深度融合。可持续扩展性通过共享、互通、交互来实现,主要体现在三个方面:一是资源不断充实,二是知识关联不断丰富,三是知识服务功能不断优化。目前,平台建设已具备学科基础、社会基础、技术基础,亟须社会各界共同推进。未来或可融合学术研究和公共文化领域,发动各界突破壁垒,集中解决资金和技术问题,激发知识经济和文化创意产业,加快历史学为社会服务的步伐,实现历史学从基础学科向应用学科的转型。

  (作者单位:中国社会科学院当代中国研究所)

  (文章来源:中国社会科学网)

    相关链接 - 当代中国研究所 - 中国社会科学院网 - 中国社会科学网 - 人民网 - 新华网 - 全国人大网 - 中国政府网 - 全国政协网 - 中国网  - 中国军网 - 中共中央党史和文献研究院
    关于我们 - 版权声明
    当代中国研究所 版权所有   备案序号:京ICP备20023317号-2
    地址:北京西城区地安门西大街旌勇里8号
    邮编:100009