sphinx索引部分源码续——过程:连接到CSphSource对应的sql数据源,通过fetch row取其中一行,然后解析出field,分词,获得wordhit,最后再加入到CSphSource的Hits里

简介:

后面就是初始化一些存储结构,其中重点说下缓存出来的几个临时文件分别的作用。结尾时tmp0的存储的是被上锁的Index,有些Index正在被查询使用 故上锁。tmp1,即对应将来生成的spp文件,存储词汇的位置信息,包含该词所在的文档ID,该词所在词典对应的ID,以及该词在本文档中的位置信息。 tmp2,即对应将来生成的spa文件存储的是文档信息,包含了DocID以及DocInfo信息。tmp7对应的是多值查询,感兴趣的可以度娘,这是一 种查询方式,这里不做过多解释

1
2
3
4
5
6
7
// create temp files
     CSphAutofile fdLock ( GetIndexFileName( "tmp0" ), SPH_O_NEW, m_sLastError,  true  );
     CSphAutofile fdHits ( GetIndexFileName ( m_bInplaceSettings ?  "spp"  "tmp1"  ), SPH_O_NEW, m_sLastError, !m_bInplaceSettings );
     CSphAutofile fdDocinfos ( GetIndexFileName ( m_bInplaceSettings ?  "spa"  "tmp2"  ), SPH_O_NEW, m_sLastError, !m_bInplaceSettings );
     CSphAutofile fdTmpFieldMVAs ( GetIndexFileName( "tmp7" ), SPH_O_NEW, m_sLastError,  true  );
     CSphWriter tOrdWriter;
     CSphString sRawOrdinalsFile = GetIndexFileName( "tmp4" );

下面具体处理每一个Source取出的每一个文档,主要是通过这个IterateHitsNext实现的

具体到该函数可以看到,该函数主要是有两部分组成,即提取索引列(NextDocument),针对该索引列构建索引(BuildHits)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
bool  CSphSource_Document::IterateHitsNext ( CSphString & sError )
{
     assert  ( m_pTokenizer );
     PROFILE ( src_document );
     BYTE ** dFields = NextDocument ( sError );//从数据源中提取需要构建索引的列
     if  ( m_tDocInfo.m_iDocID==0 )
         return  true ;
     if  ( !dFields )
         return  false ;
     m_tStats.m_iTotalDocuments++;
     m_dHits.Reserve ( 1024 );
     m_dHits.Resize ( 0 );
     BuildHits ( dFields, -1, 0 );//针对提取出的需要索引的列构建索引
     return  true ;
}

具体看一下NexDocument的操作,通过Sql.h中的API——sqlFetchRow,取出一条记录,验证该记录是否合法

 

将条记录按照Schema分成Feild部分,即需要构建索引的部分,以及Attribute部分,即排序需要用到的属性部分

 

提取出相关数据后,针对每一条需要索引的item开始构建索引,进入BuildHit函数,首先先初始化相关参数,准备分词器缓存

然后开始分词,分词的过程在这里不具体讲了,这不属于Sphinx的主要涉足领域,当我们把iField即要索引的字段放入分词器中依次解析,然后将分出的词赋值给sWord,将sWord的位置计算后赋值给ipos

将分词后的sWord去词典中查找它对应的词ID,这样我们就收集全了这个词的所有详细信息,创建一个类型为CSphWordHit类型的tHit,其中存储了该sWord所在的DocID,在词典中对应的词ID,以及在文档中词的位置信息Pos

1
2
3
4
5
6
7
8
9
10
11
SphWordID_t iWord = m_pDict->GetWordID ( sWord );
                 if  ( iWord )
                 {
                     CSphWordHit & tHit = m_dHits.Add ();//将tHit放入dHit中去
                     tHit.m_iDocID = m_tDocInfo.m_iDocID;
                     tHit.m_iWordID = iWord;
                     tHit.m_iWordPos = iPos;
                 else
                 {
                     iLastStep = m_iStopwordStep;
                 }

处 理完该词后,如果是中文的话还会进一步去判断其是否有近义词出现,。。。,最后将所有的sWord的信息tHit都放入到m_dHits中去,形成我们的词 索引spp索引.

当该iField索引字段全部都索引完成后,在dHit中添加结束标记!

 

摘自:http://frankiewb.blog.51cto.com/8202664/1359897


















本文转自张昺华-sky博客园博客,原文链接:http://www.cnblogs.com/bonelee/p/6668015.html,如需转载请自行联系原作者

相关文章
|
5天前
|
SQL 关系型数据库 MySQL
数据库开发之SQL简介以及DDL的详细解析
数据库开发之SQL简介以及DDL的详细解析
32 0
|
5天前
|
XML Java 数据库
【后台开发】TinyWebser学习笔记(3)HTTP连接与解析
【后台开发】TinyWebser学习笔记(3)HTTP连接与解析
14 4
|
5天前
|
SQL 自然语言处理 搜索推荐
SQL Server 索引和视图
SQL Server 索引和视图
|
5天前
|
SQL 关系型数据库 MySQL
[AIGC] MySQL连接查询全面解析
[AIGC] MySQL连接查询全面解析
|
5天前
|
SQL 分布式计算 资源调度
一文解析 ODPS SQL 任务优化方法原理
本文重点尝试从ODPS SQL的逻辑执行计划和Logview中的执行计划出发,分析日常数据研发过程中各种优化方法背后的原理,覆盖了部分调优方法的分析,从知道怎么优化,到为什么这样优化,以及还能怎样优化。
103490 1
|
5天前
|
SQL 数据库
数据库开发之内连接和外连接的详细解析
数据库开发之内连接和外连接的详细解析
13 0
|
5天前
|
SQL 人工智能 编解码
NL2SQL实践系列(1):深入解析Prompt工程在text2sql中的应用技巧
NL2SQL实践系列(1):深入解析Prompt工程在text2sql中的应用技巧
NL2SQL实践系列(1):深入解析Prompt工程在text2sql中的应用技巧
|
2天前
|
SQL API 流计算
实时计算 Flink版产品使用合集之在Mac M1下的Docker环境中开启SQL Server代理的操作步骤是什么
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
18 1
|
2天前
|
SQL 数据处理 API
实时计算 Flink版产品使用合集之遇到SQL Server锁表问题如何解决
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
8 0
|
3天前
|
SQL 关系型数据库 MySQL
实时计算 Flink版产品使用合集之当 SQL Server 源数据库中的数据更新后,CDC 吐出的操作(op)是怎样的
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
14 0

热门文章

最新文章

推荐镜像

更多