mongo-connector导入数据到Elasticsearch

2017-05-25 3010

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

检索分析服务 Elasticsearch 版，2核4GB开发者规格 1个月

云数据库 MongoDB，通用型 2核4GB

简介： 当前测试环境下Elasticsearch版本为2.3。不同版本的mongo-connector、elastic-doc-manager/elastic2-doc-manager所支持的Elasticsearch版本不同，安装时注意版本的选择。安装mongo-connector测试机上Python的默认版本为2.6，由于我采用anonacoda作为Python开发环境，Python默认版

当前测试环境下Elasticsearch版本为2.3。不同版本的mongo-connector、elastic-doc-manager/elastic2-doc-manager所支持的Elasticsearch版本不同，安装时注意版本的选择。

安装mongo-connector

测试机上Python的默认版本为2.6，由于我采用anonacoda作为Python开发环境，Python默认版本2.7。故使用pip2.7而不是pip命令。

# 安装mongo-connector（当前版本为2.3）
./CONDA-HOME/bin/pip2.7 install mongo-connector

# elastic2-doc-manager （当前版本为0.1.0）
./CONDA-HOME/bin/pip2.7 install elastic2-doc-manager

导入mongodb中的数据到Elasticsearch集群

在安装了monog-connector的机子的命令行中执行下面的命令（该命令为测试时的真实命令）。

mongo-connector --auto-commit-interval=0 -m ip_addr1:27018 -t ip_addr2:9200 -d elastic2_doc_manager -n db.collection

mongo-connector命令主要参数解析：

-m   mongodb_host:port    —— 数据源地址，mongodb数据库地址。
-t   target_host:port     —— 数据目的地地址，elasticsearch/solr/mongodb集群地址。建议为集群中的协调节点的地址。
-d   xxx_doc_manager      —— 数据目的地的document类型。例如：
                               将mongodb中的数据同步到elasticsearch，使用elastic_doc_manager或elastic2_doc_manager。 
                               将mongodb中的数据同步到solr，使用solr_doc_manager。
                               将mongodb中数据同步到其他mongodb，使用mongo_doc_manager。
-n   db.collection ...    —— 待同步的数据库及其collection。默认同步所有数据库。
-i   filed_name ...       —— 待同步的字段。默认同步所有字段。
-o   mongodb_oplog_position.oplog  —— mongo-connector的oplog。默认在mongo-connector命令执行目录下创建oplog.timestamp文件。
                               建议重新分配存储位置（也可重新分配存储文件名），例如 /opt/mongo-connector.oplog。
--auto-commit-interval    —— 数据同步间隔。默认在不同系统上有不同的值。设置为0表示mongodb中的任何操作立即同步到数据目的地。
--continue-on-error       —— 一条数据同步失败，日志记录该失败操作，继续后续同步操作。默认为中止后续同步操作。

其他参数包括设置日志输出行为（时间、间隔、路径等）、设置mongodb登录账户和密码、设置（数据目的地）Http连接的证书等、设置mongo-connector的配置文件

。

使用mongo-connector同步数据注意事项

1. mongodb必须开启副本集（Replica Set）。开启副本集才会产生oplog，副本拷贝主分片的oplog并通过oplog与主分片进行同步。
   mongo-connector也是通过oplog进行数据同步，故必须开启副本集。

2. 使用mongo-connector命令同步数据时，-m参数中的mongodb地址应该是主/从分片的地址，
   从该地址登录可以看见并操作local数据库（oplog存储在local.oplog.rs）；不能使用mongoos地址。

3. 使用mongo-connector命令同步数据时 ，mongo-connector的oplog（参照-o参数）不能随便删除，
   否则会引起重新同步所有数据的问题。该问题可以通过--no-dump选项关闭。

4. 生产环境下建议将mongo-connector配置为系统服务，运行mongo-connector时采用配置文件的方式。

踩过的坑

1. 数据库A中有多个集合(A1, A2, A3)，且已开启了副本集（Replica Set），但是集合A1可以同步，集合A2不能同步.
    原因：oplog中有A1的操作记录，没有A2的操作记录。
    结论：开启副本集（Replica Set）并不能保证一定能同步，oplog中必须包含待同步集合的操作记录，才能通过mongo-connector同步到Elasticsearch集群。

2. mongodb3.x版本加强了安全机制，导致了在只拥有某个库的权限时不能同步数据的问题。
    原因：拥有某个库的权限，并不能拥有oplog的读取权限，而mongo-connector需要读取oplog的权限。 
    结论：同步数据至少需要能够读取oplog的权限，确保当前mongodb用户的权限能够操作oplog，或者直接使用mongodb的管理员权限。

mongo-connector导入数据到Elasticsearch

安装mongo-connector

导入mongodb中的数据到Elasticsearch集群

使用mongo-connector同步数据注意事项

踩过的坑

热门文章

最新文章

相关课程

相关电子书

相关实验场景