WarcDB是一种SQLite基于文件格式的文件格式,使网络爬取数据更易于共享和查询。

它基于 Web 存档器使用的标准化Web 存档格式。

运行:单个.warc文件被读取和解析,它们的数据被插入到 SQLite 数据库中,关系模式如图所示。

Github | wiki
 
 
Back to Top