结合Packer与etcd构建可动态配置的PyTorch推理服务架构

MLOps

文章字数: 4.2k

阅读时长: 18 分

为多租户场景提供PyTorch模型推理服务时，一个棘手的矛盾在于基础设施的稳定性和模型迭代的敏捷性。使用Packer构建包含模型、依赖和代码的不可变镜像（Immutable Image）是保证环境一致性、简化部署和回滚的黄金标准。然而，这种模式的僵化之处也显而易见：任何微小的变更，无论是切换一个模型版本、调整推理批次大小，还是为新租户上线一个定制模型，都意味着一次完整的镜像构建、测试和部署流程。这个周期通常以小时计，完全无法满足业务快速实验和响应的需求。

将配置硬编码或打包在镜像内的做法，本质上是将动态策略与静态环境强行绑定。当推理节点扩展到数十上百个时，更新配置就成了一场灾难。我们需要的是一种机制，它既能保留不可变基础设施带来的稳定性，又能为上层的模型服务注入动态的、实时的控制能力。核心思路是将推理服务的“静态骨架”与“动态灵魂”解耦。骨架由Packer负责固化，而灵魂——即模型路由、版本选择、性能参数等——则必须由一个外部的、高可用的、支持实时通知的系统来管理。

这就是etcd的用武之地。它不仅仅是一个键值存储，其核心的watch机制，使其成为构建分布式系统控制平面的理想选择。我们的目标是构建一个架构：Packer负责烘焙一个包含通用推理代码和依赖的“标准”PyTorch推理镜像，而每个运行实例在启动后，会作为一个“哑”终端，主动连接到etcd集群，监听属于自己的配置指令，并根据指令动态拉取模型、调整行为。

架构设计与etcd数据模型

整个系统的核心是一个清晰的职责划分：

Packer (静态环境构建): 创建一个包含OS、NVIDIA驱动、CUDA、Python环境、PyTorch、通用推理服务代码以及一个核心的ConfigWatcher服务的虚拟机镜像。此镜像不包含任何特定的模型文件或租户配置。
PyTorch Inference Server (运行时): 一个轻量级的Web服务（如FastAPI），负责加载模型并提供推理API。它自身不持有任何硬编码的配置，而是依赖ConfigWatcher来告诉它应该加载哪个模型、使用什么参数。
etcd (动态控制平面): 存储所有动态信息，包括模型版本、租户到模型的映射、性能参数等。运营或MLOps工程师通过etcdctl或API与etcd交互，发布变更。
ConfigWatcher (变更感知与执行): 一个在每个推理节点上与Inference Server一同运行的后台守护进程。它负责连接etcd，watch相关的键前缀，并在检测到变更时执行相应的动作，如从对象存储下载新模型、通知Inference Server热加载模型等。

以下是这个架构的流程图：

graph TD
    subgraph "控制平面 (Control Plane)"
        MLOps_Engineer -- "etcdctl put ..." --> Etcd_Cluster[etcd Cluster]
    end

    subgraph "CI/CD Pipeline"
        Packer -- "构建" --> AMI[Immutable VM Image]
    end

    subgraph "运行时环境 (Runtime Environment)"
        Autoscaling_Group -- "启动实例" --> EC2_Instance_1 & EC2_Instance_2
    end

    subgraph EC2_Instance_1 [Inference Node 1]
        Systemd1[systemd] --> Watcher1(ConfigWatcher)
        Systemd1 --> Server1(PyTorch Server)
        Watcher1 -- "1. Watch /mlops/*" --> Etcd_Cluster
        Watcher1 -- "3. 更新模型/配置" --> Server1
    end

    subgraph EC2_Instance_2 [Inference Node 2]
        Systemd2[systemd] --> Watcher2(ConfigWatcher)
        Systemd2 --> Server2(PyTorch Server)
        Watcher2 -- "1. Watch /mlops/*" --> Etcd_Cluster
        Watcher2 -- "3. 更新模型/配置" --> Server2
    end

    API_Gateway[API Gateway / Load Balancer] -- "路由租户A的请求" --> EC2_Instance_1

    MLOps_Engineer -- "上传模型文件" --> S3_Bucket[S3 Bucket]
    Watcher1 -- "2. 下载新模型" --> S3_Bucket
    Watcher2 -- "2. 下载新模型" --> S3_Bucket

为了让这个控制平面有效工作，一个结构化的etcd键空间设计至关重要。在真实项目中，我们会使用一个统一的前缀，例如/mlops/inference，来隔离不同系统的配置。

etcd键空间设计:

模型注册表: 存储模型元数据，主要是其物理位置。
- /mlops/inference/models/{model_name}/{version} -> {"storage_type": "s3", "path": "s3://my-models-bucket/bert-sentiment/v1.2/model.pth"}
租户路由规则: 定义每个租户应该使用哪个模型。这是实现模型A/B测试或金丝雀发布的核心。
- /mlops/inference/tenants/{tenant_id}/assignment -> {"model_name": "bert-sentiment", "version": "v1.2"}
动态运行时配置: 允许实时调整服务行为，而无需重启或重新部署。
- /mlops/inference/config/global/log_level -> "INFO"
- /mlops/inference/config/models/{model_name}/batch_size -> "16"
服务发现 (可选): 推理节点可以注册自己，便于监控或服务发现。
- /mlops/inference/nodes/{node_id} -> {"ip": "10.0.1.23", "status": "active"} (使用etcd的lease特性实现心跳和自动摘除)

核心实现：`ConfigWatcher`服务

ConfigWatcher是连接etcd和PyTorch推理服务的桥梁。它必须健壮、容错，并且能够优雅地处理配置更新。下面是一个生产级的Python实现，使用python-etcd3库。

# watcher/main.py
import etcd3
import logging
import threading
import time
import os
import json
import sys
from queue import Queue, Empty

# --- 全局配置 ---
LOG_FORMAT = '%(asctime)s - %(levelname)s - %(message)s'
logging.basicConfig(level=logging.INFO, format=LOG_FORMAT)

ETCD_HOST = os.getenv("ETCD_HOST", "127.0.0.1")
ETCD_PORT = int(os.getenv("ETCD_PORT", 2379))

# 定义etcd中我们关心的键前缀
TENANT_PREFIX = "/mlops/inference/tenants/"
MODEL_CONFIG_PREFIX = "/mlops/inference/config/models/"

# 用于与推理服务主线程通信的队列
# 将etcd的变更事件转换为具体的动作指令
ACTION_QUEUE = Queue()

class EtcdWatcher:
    """
    负责连接etcd并监听关键配置变更。
    将原始的etcd事件转换为内部可执行的Action。
    """
    def __init__(self, host, port, queue):
        self.host = host
        self.port = port
        self.action_queue = queue
        self.client = None
        self._connect()

    def _connect(self):
        """建立到etcd的连接，并处理重试。"""
        while True:
            try:
                self.client = etcd3.client(host=self.host, port=self.port)
                # 验证连接是否成功
                self.client.status()
                logging.info(f"Successfully connected to etcd at {self.host}:{self.port}")
                break
            except Exception as e:
                logging.error(f"Failed to connect to etcd: {e}. Retrying in 5 seconds...")
                time.sleep(5)

    def watch_forever(self):
        """启动对多个前缀的持续监听。"""
        tenant_watch_thread = threading.Thread(
            target=self._watch_prefix,
            args=(TENANT_PREFIX, self._process_tenant_event),
            daemon=True
        )
        model_config_watch_thread = threading.Thread(
            target=self._watch_prefix,
            args=(MODEL_CONFIG_PREFIX, self._process_model_config_event),
            daemon=True
        )

        tenant_watch_thread.start()
        model_config_watch_thread.start()

        logging.info(f"Started watching prefixes: {TENANT_PREFIX}, {MODEL_CONFIG_PREFIX}")

        # 主线程保持运行
        tenant_watch_thread.join()
        model_config_watch_thread.join()


    def _watch_prefix(self, prefix, callback):
        """通用的前缀监听逻辑，包含断线重连。"""
        while True:
            try:
                events_iterator, cancel = self.client.watch_prefix(prefix)
                logging.info(f"Watching prefix '{prefix}'")
                for event in events_iterator:
                    callback(event)
            except etcd3.exceptions.ConnectionFailedError as e:
                logging.error(f"Etcd connection failed while watching {prefix}: {e}. Reconnecting...")
                self._connect()
            except Exception as e:
                logging.critical(f"Unhandled exception in watch loop for {prefix}: {e}. Restarting watch.")
                # 这里可能需要更复杂的错误处理，比如指数退避
                time.sleep(5)


    def _process_tenant_event(self, event):
        """
        处理租户分配的变更事件。
        key format: /mlops/inference/tenants/{tenant_id}/assignment
        value format: {"model_name": "...", "version": "..."}
        """
        try:
            # 我们只关心PUT事件（创建和更新）
            if not isinstance(event, etcd3.events.PutEvent):
                return
                
            key = event.key.decode('utf-8')
            value = event.value.decode('utf-8')
            
            parts = key.strip('/').split('/')
            if len(parts) == 5 and parts[3] == 'assignment':
                tenant_id = parts[2]
                model_info = json.loads(value)
                action = {
                    "type": "UPDATE_TENANT_MODEL",
                    "payload": {
                        "tenant_id": tenant_id,
                        "model_name": model_info["model_name"],
                        "model_version": model_info["version"]
                    }
                }
                logging.info(f"Queueing action for tenant '{tenant_id}': {action}")
                self.action_queue.put(action)
        except (json.JSONDecodeError, KeyError) as e:
            logging.error(f"Failed to parse tenant event. Key: {event.key}, Value: {event.value}, Error: {e}")
        except Exception as e:
            logging.error(f"Unexpected error processing tenant event: {e}")

    def _process_model_config_event(self, event):
        """
        处理模型运行时配置的变更。
        key format: /mlops/inference/config/models/{model_name}/{config_key}
        value format: "16" (string)
        """
        try:
            if not isinstance(event, etcd3.events.PutEvent):
                return

            key = event.key.decode('utf-8')
            value = event.value.decode('utf-8')
            
            parts = key.strip('/').split('/')
            if len(parts) == 6:
                model_name = parts[4]
                config_key = parts[5]
                action = {
                    "type": "UPDATE_MODEL_CONFIG",
                    "payload": {
                        "model_name": model_name,
                        "config_key": config_key,
                        "config_value": value
                    }
                }
                logging.info(f"Queueing action for model config '{model_name}': {action}")
                self.action_queue.put(action)
        except Exception as e:
            logging.error(f"Unexpected error processing model config event: {e}")


class ModelManager:
    """
    负责管理本地的模型加载、切换和配置更新。
    这是真正与PyTorch交互的部分。
    """
    def __init__(self, queue):
        self.action_queue = queue
        self.tenant_model_map = {} # tenant_id -> model_identifier
        self.loaded_models = {}    # model_identifier -> loaded_model_object
        self.model_configs = {}    # model_name -> {config_key: value}
        
        # 线程锁，用于保护对模型字典的并发访问
        self._lock = threading.Lock()

    def get_model_for_tenant(self, tenant_id):
        # 实际应用中，这里应该有默认模型或错误处理逻辑
        model_identifier = self.tenant_model_map.get(tenant_id)
        if not model_identifier:
            return None, None
        
        with self._lock:
            model = self.loaded_models.get(model_identifier)
            config = self.model_configs.get(model_identifier.split(':')[0], {})
            return model, config

    def process_actions(self):
        """
        从队列中取出动作并执行。这个函数应该在主线程中循环调用。
        """
        try:
            action = self.action_queue.get_nowait()
            logging.info(f"Processing action: {action}")

            action_type = action.get("type")
            payload = action.get("payload")

            if action_type == "UPDATE_TENANT_MODEL":
                self._handle_tenant_model_update(payload)
            elif action_type == "UPDATE_MODEL_CONFIG":
                self._handle_model_config_update(payload)

        except Empty:
            pass # 队列为空是正常情况
        except Exception as e:
            logging.error(f"Failed to process action {action}: {e}", exc_info=True)
            
    def _handle_tenant_model_update(self, payload):
        tenant_id = payload["tenant_id"]
        model_name = payload["model_name"]
        model_version = payload["model_version"]
        model_identifier = f"{model_name}:{model_version}"
        
        # 检查模型是否已加载
        if model_identifier not in self.loaded_models:
            logging.info(f"Model {model_identifier} not loaded. Initiating download and load.")
            # 在真实世界中，_load_model会非常复杂
            # 它需要从etcd中查询模型路径，然后从S3下载，最后用torch.load加载
            # 这里我们用一个占位符模拟
            new_model = self._load_model_placeholder(model_name, model_version)
            if new_model:
                with self._lock:
                    self.loaded_models[model_identifier] = new_model
                logging.info(f"Successfully loaded model {model_identifier}")
            else:
                logging.error(f"Failed to load model {model_identifier}")
                return
        
        # 更新租户映射
        self.tenant_model_map[tenant_id] = model_identifier
        logging.info(f"Updated tenant '{tenant_id}' to use model '{model_identifier}'")

    def _handle_model_config_update(self, payload):
        model_name = payload["model_name"]
        config_key = payload["config_key"]
        config_value = payload["config_value"]

        with self._lock:
            if model_name not in self.model_configs:
                self.model_configs[model_name] = {}
            self.model_configs[model_name][config_key] = config_value
        
        logging.info(f"Updated config for model '{model_name}': {config_key} = {config_value}")
        # 这里可以加入回调，通知正在使用该模型的服务线程配置已变更

    def _load_model_placeholder(self, model_name, version):
        """模拟模型加载过程。"""
        logging.info(f"Simulating download and load for {model_name}:{version}...")
        # 1. 查询etcd获取模型S3路径 (此处省略)
        # 2. 从S3下载 (此处省略)
        # 3. torch.load(path) (此处省略)
        time.sleep(2) # 模拟IO和加载耗时
        return f"FAKE_MODEL_OBJECT({model_name}:{version})"

def main_loop(model_manager):
    """主事件循环，模拟推理服务的运行。"""
    while True:
        model_manager.process_actions()
        # 在这里可以集成FastAPI等Web框架
        # app.state.model_manager = model_manager
        time.sleep(0.1)

if __name__ == "__main__":
    # 在一个独立的线程中启动etcd watcher
    watcher = EtcdWatcher(ETCD_HOST, ETCD_PORT, ACTION_QUEUE)
    watch_thread = threading.Thread(target=watcher.watch_forever, daemon=True)
    watch_thread.start()
    
    # 在主线程中创建ModelManager并处理动作队列
    model_manager = ModelManager(ACTION_QUEUE)
    
    logging.info("Model Manager and Watcher are running. Waiting for etcd events...")
    # 启动主循环
    main_loop(model_manager)

这个ConfigWatcher服务被设计为高可用。它包含了etcd的连接重试逻辑，并将watch循环放在一个独立的、可恢复的循环中。它将原始的etcd事件转化为定义清晰的Action放入队列，这是一种重要的解耦，使得主业务逻辑（ModelManager）无需关心etcd的细节。

使用Packer固化推理环境

现在，我们需要将上述Python服务和所有依赖打包到一个标准的虚拟机镜像中。Packer的HCL2格式模板清晰地描述了这一过程。

# pytorch-inference.pkr.hcl

variable "aws_region" {
  type    = string
  default = "us-east-1"
}

variable "source_ami" {
  type    = string
  default = "ami-0c55b159cbfafe1f0" # Ubuntu 20.04 LTS
}

source "amazon-ebs" "pytorch-server" {
  region      = var.aws_region
  source_ami  = var.source_ami
  instance_type = "g4dn.xlarge" # 需要GPU
  ssh_username  = "ubuntu"
  ami_name      = "pytorch-inference-server-{{timestamp}}"
  
  tags = {
    Name = "PyTorch Inference Server"
    Base = "Ubuntu 20.04"
  }
}

build {
  sources = ["source.amazon-ebs.pytorch-server"]

  provisioner "shell" {
    environment_vars = [
      "DEBIAN_FRONTEND=noninteractive",
    ]
    inline = [
      "sudo apt-get update",
      "sudo apt-get install -y python3-pip python3-venv",
      "sudo mkdir -p /opt/app",
      "sudo chown ubuntu:ubuntu /opt/app"
    ]
  }

  provisioner "file" {
    source      = "./watcher/"
    destination = "/opt/app/watcher/"
  }

  provisioner "file" {
    source      = "./requirements.txt"
    destination = "/opt/app/requirements.txt"
  }
  
  # requirements.txt 内容:
  # torch==1.13.1+cu117 --extra-index-url https://download.pytorch.org/whl/cu117
  # python-etcd3==0.13.0
  # fastapi==0.95.1
  # uvicorn==0.21.1
  # boto3 # 用于从S3下载模型

  provisioner "shell" {
    inline = [
      "python3 -m venv /opt/app/venv",
      "source /opt/app/venv/bin/activate && pip install -r /opt/app/requirements.txt",
    ]
  }

  provisioner "file" {
    source      = "./inference.service"
    destination = "/tmp/inference.service"
  }
  
  # inference.service 文件内容:
  # [Unit]
  # Description=PyTorch Inference Service with Dynamic Config
  # After=network.target
  #
  # [Service]
  # User=ubuntu
  # WorkingDirectory=/opt/app
  # EnvironmentFile=/etc/default/inference
  # ExecStart=/opt/app/venv/bin/python watcher/main.py
  # Restart=always
  #
  # [Install]
  # WantedBy=multi-user.target

  provisioner "shell" {
    inline = [
      "sudo mv /tmp/inference.service /etc/systemd/system/inference.service",
      "sudo touch /etc/default/inference", # 环境变量文件
      "sudo systemctl enable inference.service"
    ]
  }
}

这个Packer模板执行了以下关键步骤：

选择基础镜像: 从一个带有GPU驱动的Ubuntu AMI开始（或在provisioner中安装驱动）。
安装基础依赖: 安装Python环境。
拷贝应用代码: 将我们的watcher目录和requirements.txt拷贝到镜像的/opt/app目录。
创建虚拟环境: 创建一个独立的Python虚拟环境并安装所有依赖，这是生产实践中的最佳做法，避免污染系统Python。
设置systemd服务: 创建并启用一个systemd服务。这个服务会在机器启动时自动运行我们的watcher/main.py脚本。注意，EnvironmentFile=/etc/default/inference是一个关键点，它允许我们在启动实例时通过Cloud-Init或用户数据（User Data）动态注入ETCD_HOST等环境变量，从而使镜像本身保持环境无关。

实际操作与动态变更演示

当使用这个Packer构建的AMI启动一个新的EC2实例时，inference.service会自动启动。我们可以通过AWS User Data来配置etcd的地址：

#!/bin/bash
echo "ETCD_HOST=10.0.2.100" > /etc/default/inference
systemctl restart inference.service

实例启动后，我们可以通过etcdctl来指挥集群的行为：

注册模型版本:

etcdctl put /mlops/inference/models/bert-sentiment/v1.0 '{"storage_type": "s3", "path": "s3://..."}'
etcdctl put /mlops/inference/models/bert-sentiment/v1.2 '{"storage_type": "s3", "path": "s3://..."}'

为租户tenant-alpha分配初始模型:

etcdctl put /mlops/inference/tenants/tenant-alpha/assignment '{"model_name": "bert-sentiment", "version": "v1.0"}'

此时，查看任一推理节点的日志，会看到类似输出：

INFO - Queueing action for tenant 'tenant-alpha': {'type': 'UPDATE_TENANT_MODEL', ...}
INFO - Processing action: {'type': 'UPDATE_TENANT_MODEL', ...}
INFO - Model bert-sentiment:v1.0 not loaded. Initiating download and load.
INFO - Simulating download and load for bert-sentiment:v1.0...
INFO - Successfully loaded model bert-sentiment:v1.0
INFO - Updated tenant 'tenant-alpha' to use model 'bert-sentiment:v1.0'

无缝切换模型版本（金丝雀发布）:

etcdctl put /mlops/inference/tenants/tenant-alpha/assignment '{"model_name": "bert-sentiment", "version": "v1.2"}'

日志会立即响应：

INFO - Queueing action for tenant 'tenant-alpha': {'type': 'UPDATE_TENANT_MODEL', ...}
INFO - Processing action: {'type': 'UPDATE_TENANT_MODEL', ...}
INFO - Model bert-sentiment:v1.2 not loaded. Initiating download and load.
...
INFO - Successfully loaded model bert-sentiment:v1.2
INFO - Updated tenant 'tenant-alpha' to use model 'bert-sentiment:v1.2'

整个过程对API调用方是透明的，节点没有重启，服务没有中断。

实时调整推理批次大小:

etcdctl put /mlops/inference/config/models/bert-sentiment/batch_size '"32"'

日志输出：

INFO - Queueing action for model config 'bert-sentiment': {'type': 'UPDATE_MODEL_CONFIG', ...}
INFO - Processing action: {'type': 'UPDATE_MODEL_CONFIG', ...}
INFO - Updated config for model 'bert-sentiment': batch_size = "32"

推理服务内部逻辑现在可以使用这个新的批次大小进行批处理。