vector是什么?
以下描绘翻译自vector官网: Vector 是一种高功能的可调查性数据管道 能够搜集、转化一切日志、目标和盯梢信息( logs, metrics, and traces),并将其写到想要的存储傍边; Vector 能够完成显着的成本下降、丰厚的数据处理和数据安全; 开源,比一切替代方案快 10 倍。
相似logstash,但比logstash强悍太多的功能、简单明了的装备文件、强大的数据处理函数、智能均衡kafka分区消费等;在这些特性中,功能直接关乎成本
vector官网 vector.dev
GitHub地址 github.com/vectordotde…
基准功能测试
Test | Vector | Filebeat | FluentBit | FluentD | Logstash | SplunkUF | SplunkHF |
---|---|---|---|---|---|---|---|
TCP to Blackhole | 86mib/s | n/a | 64.4mib/s | 27.7mib/s | 40.6mib/s | n/a | n/a |
File to TCP | 76.7mib/s | 7.8mib/s | 35mib/s | 26.1mib/s | 3.1mib/s | 40.1mib/s | 39mib/s |
Regex Parsing | 13.2mib/s | n/a | 20.5mib/s | 2.6mib/s | 4.6mib/s | n/a | 7.8mib/s |
TCP to HTTP | 26.7mib/s | n/a | 19.6mib/s | <1mib/s | 2.7mib/s | n/a | n/a |
TCP to TCP | 69.9mib/s | 5mib/s | 67.1mib/s | 3.9mib/s | 10mib/s | 70.4mib/s | 7.6mib/s |
Vector 的首要优势:
- 高效的内存/CPU消耗和高数据吞吐量。
- 良好的可靠性,正确性和交给方面有确保。
- 包括自定义 DSL,以一种安全、高功能的方法动态转化数据。
- 支撑根据目标和日志的有用负载。
- 大量的输入和输出集成。
- 能够布置为署理或聚合器。
支撑广泛的布置选项、一起支撑目标和日志以及可用集成的数量。 Vector 用 Rust 编写,供给内存安全和效率确保。Vector 引入了单元测试结构,能够更轻松地维护复杂的日志搜集工具拓扑。
概念
Sources
来历 input
Transforms
改换 filter
Sinks
接收器 output
自适应恳求并发 (ARC)
自适应并发,会根据恳求的往复时刻 (RTT) 和 HTTP 呼应代码(失利与成功),然后决策出一个最佳的速率! 终究结果是进步整个可调查性根底架构的功能和可靠性。 恳求的往复时刻 (RTT) 和 HTTP 呼应码(失利与成功)。
- 假如 RTT 下降/稳定和/或呼应代码为 (200-299), 并线性添加吞吐量。 AIMD “和性添加”。
- 假如 RTT 正在添加和/或呼应代码始终指示失利 – 代码429 Too Many Requests和503 Service Unavailable- 并以指数方法下降并发性。AIMD “乘性下降”。
和性添加/乘性下降(additive-increase/multiplicative-decrease、AIMD)算法是一个反应操控算法,最多的用处是在TCP拥塞操控。AIMD将拥塞窗口的线性添加与监测到拥塞时的指数下降相结合。运用AIMD拥塞操控的多个流将终究收敛到运用等量的共享链路。
vector的主动均衡kafka消费
布置人物
看护进程
看护程序人物旨在搜集单个主机上的一切数据。
Sidecar
Sidecar 人物将 Vector 与每个服务结合起来,只专心于该单个服务的数据搜集
聚合器
聚合器用于处理从多个上游源搜集数据并履行跨主机聚合和分析。 Vector 既能够用作署理,也能够用作聚合器。
拓扑
装置布置
vector.dev/docs/setup/… 官方供给了装置包、docker等多种装置方法,这儿运用二进制的方法装置
### Linux (x86_64)
# 下载并解压存档:
# Latest (version 0.24.2)
mkdir -p vector && \
curl -sSfL --proto '=https' --tlsv1.2 https://packages.timber.io/vector/0.24.2/vector-0.24.2-x86_64-unknown-linux-musl.tar.gz | \
tar xzf - -C vector --strip-components=2
# 切换到 vector 目录:
cd vector
# 添加到 $PATH 中
echo "export PATH=\"$(pwd)/vector/bin:\$PATH\"" >> $HOME/.profile
source $HOME/.profile
# Vector 装备文件坐落:
config/vector.toml
> 示例装备坐落config/vector/examples/*
# 将 Vector 装置到 Systemd 中
cat /usr/lib/systemd/system/vector.service
[Unit]
Description="Vector - An observability pipelines tool"
Documentation=https://vector.dev/
Wants=network-online.target
After=network-online.target
[Service]
LimitNOFILE=1000000
#LimitCORE=infinity
LimitSTACK=10485760
User=root
ExecStart=/data/ops/vector/bin/vector -t 128 --config-dir=/data/ops/vector/config/
Restart=always
AmbientCapabilities=CAP_NET_BIND_SERVICE
[Install]
WantedBy=multi-user.target
# 启动
systemctl status vector.service
systemctl enable vector.service
systemctl start vector.service
vector装备文件
来历(sources)
即vector的数据来历,支撑文件、kafka、http、各类metrics等等数据源 各类数据源均可在文档中找到装备方法 vector.dev/docs/refere… 运用kafka数据来历
[sources.kafka-nginx-error] # "数据源"称号
type = "kafka" # 类型
bootstrap_servers = "10.xxx.xxx.xxx:9092,10.xxx.xxx.xxx:9092,10.xxx.xxx.xxx:9092" # kafka链接地址
group_id = "consumer-group-name" # 消费组id
topics = [ "^(topic1|topic2)-.+" ] # topic,支撑正则
改换[可选](transforms)
假如原始日志不需要处理,能够忽略 vector.dev/docs/refere…
remap
remap在vector中运用VRL 用于解析和转化 Vector 中的数据。Vector Remap Language,一种面向表达式的语言,旨在以安全和高功能的方法处理可调查性数据(日志和目标) vector处理nginx过错日志的装备:
[transforms.remap-nginx-error] # "改换"称号
type = "remap" # 类型
inputs = ["kafka-nginx-error"] # 输入,这儿的输入自然是上一层的"来历"
source = ''' # 正式开端处理
. = parse_json!(.message) # 将每一条过错日志解析成json,message的值便是从kafka中读取到的原始值
del(.@metadata) # 删去主动带着的一些信息
.parse = parse_nginx_log!(.message, "error") # 解析nginx过错日志
'''
VRL 功能参阅
vector.dev/docs/refere… VRL 程序作用于单个可调查性事情,可用于:
- 转化可调查性事情
- 指定路由和过滤事情的条件
parse_nginx_log
解析 Nginx 访问和过错日志行。行能够是combined, 或error格局。
# combined
parse_nginx_log!(
s'172.17.0.1 - alice [01/Apr/2021:12:02:31 +0000] "POST /not-found HTTP/1.1" 404 153 "http://localhost/somewhere" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36" "2.75"',
"combined",
)
{
"agent": "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36",
"client": "172.17.0.1",
"compression": "2.75",
"method": "POST",
"path": "/not-found",
"protocol": "HTTP/1.1",
"referer": "http://localhost/somewhere",
"request": "POST /not-found HTTP/1.1",
"size": 153,
"status": 404,
"timestamp": "2021-04-01T12:02:31Z",
"user": "alice"
}
# error
parse_nginx_log!(
s'2021/04/01 13:02:31 [error] 31#31: *1 open() "/usr/share/nginx/html/not-found" failed (2: No such file or directory), client: 172.17.0.1, server: localhost, request: "POST /not-found HTTP/1.1", host: "localhost:8081"',
"error"
)
{
"cid": 1,
"client": "172.17.0.1",
"host": "localhost:8081",
"message": "open() \"/usr/share/nginx/html/not-found\" failed (2: No such file or directory)",
"pid": 31,
"request": "POST /not-found HTTP/1.1",
"server": "localhost",
"severity": "error",
"tid": 31,
"timestamp": "2021-04-01T13:02:31Z"
}
parse_grok
value运用Grok格局解析. 支撑此处列出的一切模式 grokdebug.herokuapp.com/
parse_grok!(
"2020-10-02T23:22:12.223222Z info Hello world",
"%{TIMESTAMP_ISO8601:timestamp} %{LOGLEVEL:level} %{GREEDYDATA:message}"
)
{
"level": "info",
"message": "Hello world",
"timestamp": "2020-10-02T23:22:12.223222Z"
}
filter
筛选,根据一组条件过滤事情
[transforms.my_transform_id]
type = "filter"
inputs = [ "my-source-or-transform-id" ]
condition = '.level != "debug"'
接收器 (sinks)
支撑console、elasticsearch、kafka、vector、http 等 vector.dev/docs/refere…
elasticsearch
[sinks.my_sink_id] # 接收器称号
type = "elasticsearch" # 类型
inputs = [ "my-source-or-transform-id" ] # 输入,这儿的输入是上一层的"改换"称号
endpoint = "http://10.xxx.xxx.xxx:9200" # 输出的链接地址
bulk.index = "{{ project_name }}-%Y-%m-%d" # 索引称号,能够运用日志傍边的字段作为变量、以及日期来作为索引称号
clickhouse
[sinks.my_sink_id] # 接收器称号
type = "clickhouse" # 类型
inputs = [ "my-source-or-transform-id" ] # 输入,这儿的输入是上一层的"改换"称号
endpoint = "http://localhost:8123" # 输出的链接地址
database = "mydatabase"
table = "mytable"
auth.strategy = "basic"
auth.user = "ck_admin"
auth.password = "password"
compression = "gzip"
大局装备参数
data_dir
保存 Vector 状态的目录,例如磁盘缓冲区、文件检查点等。
"/var/local/lib/vector/"
扩充表 (enrichment_tables )
- CSV files
- MaxMind databases
加密密码 (secret)
实践
将结果输出到console
调试时运用
[sinks.my_sink_id] # 接收器称号
type = "console" # 类型
inputs = [ "my-source-or-transform-id" ] # 输入,这儿的输入是上一层的"改换"称号
encoding.codec = "json" # 可选json 或者 text
多装备文件启动
vector -c /etc/vector/*.toml -w /etc/vector/*.toml
-c, --config <装备>
从一个或多个文件中读取装备。支撑通配符路径
-C, --config-dir <装备目录>
-t, --threads <线程>
用于处理的线程数(默以为可用内核数)
-w, --watch 装备
监督装备文件的改变
多个装备文件,在同一个vector实例中各阶段的命名也不能重名
多topic运用正则匹配
统一过日志格局,能够在“来历”中指定消费同一类topic
topics = [ "^(prefix1|prefix2)-.+" ]
索引运用日志中的字段值作为索引称号
能够运用日志中的字段值作为变量称号,还能够运用%Y、%m、%d分别表示年、月、日,这是一种很好的日志索引管理方法
bulk.index = "{{ project_name }}-{{ env }}-%Y-%m-%d"
检查vector各任务的处理状况
以命令行的方法实时检查各任务的处理状况
[api]
enabled = true
address = "127.0.0.1:8686"
履行以下命令即可: vector top
vector更加详细的metrics目标
运用prometheus_exporter格局的输出
[sources.vector_metrics]
type = "internal_metrics"
namespace = "vector"
scrape_interval_secs = 30
[sinks.prometheus]
type = "prometheus_exporter"
inputs = [ "vector_metrics" ]
address = "0.0.0.0:9598"
default_namespace = "service"
Vector 命令行
# 生成包括组件列表的 Vector 装备
vector generate [OPTIONS] <EXPRESSION>
# 生成可视化的拓扑
vector graph [OPTIONS]
vector graph --config /etc/vector/vector.toml | dot -Tsvg > graph.svg
# 列出可用组件
vector list [FLAGS] [OPTIONS]
# 调查流入组件(转化、接收器)和流出组件(源、转化)的事情。以指定的时刻距离对事情进行采样。
vector tap [FLAGS] [OPTIONS] [ARGUMENTS]
# 装备单元测试
vector test [OPTIONS] [ARGUMENTS]
# 在操控台显示本地或远程 Vector 实例的拓扑和目标
vector top [FLAGS] [OPTIONS]
# 验证目标装备
vector validate [FLAGS] [OPTIONS] [ARGUMENTS]
# vrl CLI
vector vrl [FLAGS] [OPTIONS] [ARGUMENTS]