Coglet:开源 3D 打印机器人伴侣套件深度解析

Coglet:开源 3D 打印机器人伴侣套件深度解析

项目信息

  • 创始人:Will Cogley(NMRobotics)
  • 地点:伦敦,英国
  • 发起时间:2026 年 4 月(当前众筹中)
  • 融资状态:$84,492 / $13,207(640% 超额达成),409 位支持者
  • Kickstarter项目链接
  • GitHubwill-cogley/Coglet

一句话总结

Coglet 是一个面向创客的开源 3D 打印桌面机器人套件,通过精巧的机械设计将 9 个自由度、双眼视觉和云 AI 集成到 22cm 身高的机身中,让每个人都能拥有一个会动、会表情、会聊天的个性机器人伴侣。


背景与动机

创始人 Will Cogley 认为,现有的桌面机器人大多只是"极简外壳+单色屏幕",缺乏真正的生命力和表现力。Coglet 的灵感来自 WALL-E、R2-D2、大白等经典影视机器人——这些机器人通过动作、机械结构和个性来与人交流。

与基于屏幕的智能助手不同,Coglet 通过真正的机械运动做出反应,表现出生命和个性。该项目同时也是一个开放平台,允许创客将 LLM 等云应用与电机、音频、传感器结合,打造自己的机器人。

项目面向喜欢组装复杂系统的创客、爱好者和好奇的建造者,类似于一套精密的乐高机械组,但加上了电机、传感器和代码。


核心规格

参数 数值
身高 22cm
自由度(DoF) 9
齿轮数量 16 个
3D 打印零件 60 个
材料要求 PLA(任何现代 FDM 3D 打印机均可打印)

核心设计

1. 机械设计

Coglet 将大量运动、动画和个性塞进了 22cm 的身躯中。内部使用电机、连杆和齿轮系统创造流畅的、拟人化的动画。所有结构件都是 3D 可打印的,允许创客自行建造和实验修改。

所有动画由独立芯片控制,运行 Python。创客可以使用默认动画,也可以编写自定义模式和序列,可以独立运行,也可以与聊天机器人功能结合。

2. CogNog 主控板

项目中心是一块定制主板 CogNog,它将通常需要多个分离板子的功能整合在一起:

  • Wi-Fi 连接
  • 音频输入输出
  • 舵机控制
  • 实时/云图像处理
  • 电源输入
  • 传感器和配件扩展

设计目标是简洁。创客不需要将多个模块接线在一起,只需要一块紧凑、坚固的板子就能适配 Coglet 或你自己的机器人。可以通过 USB-C 编程,就像其他开发板一样。CogNog 完全开源,便于修改、扩展和集成到其他项目。

3. 双眼视觉系统

Coglet 在双眼中各装了一个独立摄像头,分工不同:

左眼(Grove Vision AI Module V2)
- 实时人脸/物体追踪
- 预训练模型可检测人脸、人体和其他物体
- 支持上传自定义模型(高级用户)
- 可通过 Web 工具配置

右眼(ESP32 连接)
- 连接云端进行复杂图像处理
- 可通过云服务进行精细图像识别、读取文字等

这种设计意味着一个摄像头持续跟踪目标(如人脸),另一个摄像头传输图像到 Wi-Fi 进行复杂处理。

4. AI 与个性

项目本身与软件无关,但官方版本使用开源的 XiaoZhi AI 平台——这是一个连接微控制器(如 ESP32)到云工具(LLM 和图像处理)的框架。

  • 可通过手机或 PC 快速设置
  • 在线仪表板可自定义语音、个性和语言模型
  • 高级用户可利用 Espressif 的语音控制功能,编程实现离线功能
  • 完全可以不连接互联网使用 Coglet

AI 政策声明:Coglet 支持可选 AI 功能,但不依赖单一 AI 提供商。项目围绕开源 Xiaozhi AI 平台构建,用户可自由使用它、连接其他 AI 系统、运行自己的模型,或者完全不使用 AI。如果用户选择使用 Xiaozhi AI 或其他服务,由用户自己创建账户管理连接,这意味着可用性、定价和性能由提供商或用户自己的设置控制,而非 Coglet 项目。核心硬件和固件在没有互联网或 AI 的情况下仍保持部分功能。

5. 可定制外壳

Coglet 的外观设计完全灵活。开源皮肤包括"友好版"和"暴躁版",你可以在这些基础上雕刻或 CAD 设计自己的皮肤。

  • 打印自己的设计
  • 修改现有皮肤
  • 与社区分享创作

项目计划提供 6 种以上颜色和 6 种以上眼睛设计,目前已有 3 种特殊设计(机甲、邪恶、猫咪),计划提供更多选项。


开源哲学

Coglet 建立在开源哲学之上。打印文件、固件、硬件文档都将开放,以便建造者从项目中学习,并将其改编用于自己的想法。原型版本已经可以在 GitHub 下载。

你完全可以用标准 hobbyist 零件从头构建机器人。套件只是让过程更方便。创始人表示:"开源项目教会了我几乎所有知识——我希望 Coglet 能够激励和教导年轻和年老的制造者!"


众筹档位

项目针对不同技能水平提供多种选择:

档位 价格(约 USD) 内容
Coglet Supporter $7 支持开源开发,获得独家特殊皮肤
CogNog Developer $34 仅 CogNog 主板+扬声器麦克风,用于自己的机器人项目开发
Coglet DIYer $133~$166 所有电子组件(自己打印结构件),包括 CogNog、麦克风、扬声器、摄像头、舵机
Coglet DIYer + 仿真眼睛 $185~$201 DIY 套餐加一对 WJP 技术仿真摄像头眼睛
Coglet Full Kit $331 所有零件,含打印好的结构件+说明书
Coglet Standard $397 预组装完成版,标准皮肤+仿真眼睛
Coglet Special $397~$496 预组装完成版,特殊皮肤(机甲/邪恶/猫咪等)
Coglet Custom $1,585 定制皮肤设计打印组装

预计交付时间:DIY 版 2026 年 8 月,全套/预组装版 2026 年 9 月。


开发历程与团队

  • 想法始于 2023 年
  • 第一个 Coglet 原型完成于 2025 年 9 月
  • Will Cogley 从 2017 年开始发布开源机器人设计
  • 2025 年初与 Yongji Zhou 成立 NMRobotics,已经完成了 1500+ 眼球机构项目订单

Stretch Goals(扩展目标)

资金目标 内容
£25,000 增加更多皮肤选项,包括透明/半透明基础皮肤和更多特殊皮肤
£100,000 开发自研 AI、图像处理和语音后端,完全控制 Coglet 使用的服务和 LLM,提供更多控制选项

项目意义与亮点

亮点

  • 表达性设计:摆脱屏幕,用纯机械运动表现个性,回归经典机器人设计美学
  • 高度集成:22cm 机身内容纳 9 自由度,双眼异构视觉设计,工艺精巧
  • 开放灵活:不绑定单一 AI 提供商,用户完全可控,可离线使用
  • 低门槛:所有结构件普通 FDM 打印机就能打,电子元件都是市售标准件
  • 完整生态:从 DIY 套件到预组装成品,满足不同技能水平用户

与同类项目对比

  • 相比 Loona 等商用桌面机器人,Coglet 完全开源,价格更低,可定制性更强
  • 相比纯机械臂项目(如 SO-ARM100),Coglet 是完整的移动(表达)+AI 伴侣机器人
  • 相比玩具级机器人,Coglet 使用现代电子元件,支持云端 LLM 集成

风险

创始人公开承认的风险:

  • 从原型到量产套件仍存在风险,CogNog 板功能已经完善,但预计还会进行几次设计改版以提高鲁棒性和简化装配
  • 电子元件供应波动,计划提前订购关键零件
  • 硬件项目在制造或采购阶段可能遇到延期,如果出现问题,将与支持者公开沟通并提供定期更新

GitHub 开源现状

所有设计文件已经开源在 will-cogley/Coglet,仓库结构如下:

Coglet/
├── 3D Printing Files/     # 3D 打印模型 STL
├── CogletESP/             # ESP32 固件(子模块)
├── PCB/                   # CogNog PCB 设计文件
├── Translated Docs/       # XiaoZhi AI 翻译文档
└── .gitmodules

完整零件清单

自行 DIY 构建需要准备以下零件:

零件 数量 说明
CogNog PCB 1 主控板
Grove Vision AI V2 1 左眼(实时目标检测)
ESP Camera (OV3660) 1 右眼(云图像识别)
舵机 9 9 个自由度驱动
麦克风 1 音频输入
扬声器 1 音频输出
电容、电阻、连接器 - 标准电子元件

CogNog V1.0 已知问题

目前 GitHub 上的 V1.0 版本存在一些已知设计问题,将在后续版本修复:

  • RP2040 USB 插座间距过紧
  • 部分元件间距设计紧凑
  • 电源压降问题需要优化
  • 摄像头引脚存在冲突
  • 摄像头图像输出翻转

机械设计已知问题

  • 舵机安装孔位较紧
  • 部分扣合设计不够优化
  • 低质量 PLA 打印可能导致舵机握力不足

构建指南

  • 官方推荐参考构建视频教程
  • 仓库中提供了翻译文档用于故障排除
  • 所有 STL 文件已开源,可自行 3D 打印
  • 需要 FDM 3D 打印机,PLA 耗材

附:CogletESP 固件代码分析 - 硬件模块深度解析

Coglet 使用 XiaoZhi AI (小智 AI) 作为其 ESP32 固件框架,CogletESP 是基于小智 AI 移植适配的分支。以下是对固件代码的深度分析,重点关注 Coglet 特定硬件模块:

1. 右眼 - OV3660 ESP Camera (ESP Cam Adaptor)

硬件规格

参数 规格
传感器型号 OmniVision OV3660
有效像素 300万像素 (2048 × 1536 QXGA)
像素尺寸 1.75µm × 1.75µm
光学格式 1/6.5"
最大帧率 30fps @ VGA (640×480), 15fps @ QXGA
输出格式 RAW RGB, RGB565, YUV422
接口 DVP 并行接口 (8位数据总线)
供电电压 3.3V DC
典型功耗 90~180mA @ 3.3V
工作温度 -30 ~ 70℃

尺寸与封装
- 典型模块尺寸:27 × 38 × 8 mm(不含镜头)
- 镜头接口:标准 M12 × 0.5 螺纹
- 重量:约 3 ~ 5 g(模块)+ 2~3 g(镜头)
- 安装方式:2个 M2 螺孔固定,支持嵌入式安装

接口与引脚(典型模块配置):

接口类型 数量 功能
DVP 数据总线 8 D0-D7 像素数据
像素时钟 1 XCLK 输入
行同步 1 HSYNC
场同步 1 VSYNC
SCCB/I²C 2 SDA/SCL 寄存器配置
复位 1 RST 传感器复位
掉电控制 1 PWDN
电源/地 4 2 × 3.3V, 2 × GND

I²C 地址固定为 0x3C,需要 ESP32 带有 PSRAM 缓存图像

功能特点
- 使用 ESP-IDF esp_camera 驱动框架原生支持 OV3660
- 捕获帧格式:RGB565
- 捕获后在 LCD 上显示预览图像
- 低照度性能优于 older OV2640 传感器
- AI 分析流程
1. Capture() → 获取最新帧,丢弃旧帧保证实时性
2. 字节序交换适配
3. LVGL 显示预览
4. Explain(question) → 异步 JPEG 编码 → HTTP multipart 上传云端 → 返回 AI 分析结果

2. 左眼 - Grove Vision AI Module V2

硬件规格

参数 规格
品牌 Seeed Studio
主控芯片 Himax HX6537
NPU 算力 1 TOPS (INT8)
内置内存 8MB SRAM, 16MB Flash
供电电压 3.3V / 5V DC
典型功耗 < 1W
接口 Grove I²C + USB-C + 15针 MIPI CSI
模块尺寸 24 × 45 × 8 mm
重量 ~5g
工作温度 0 ~ 60℃

尺寸与封装
- PCB 尺寸:24 × 45 × 8 mm(长×宽×高)
- 重量:约 5 g(不含摄像头排线)
- 外形规格:标准 Grove 模块尺寸
- 安装方式:4个 M2 螺孔固定,支持嵌入式安装

接口与引脚

接口类型 数量 规格说明
I²C 1 4针 Grove 接口(通信+供电),默认地址 0x63
MIPI CSI 1 15针 摄像头输入(本套件附赠转接头+柔性排线)
USB-C 1 固件升级和模型下载
GPIO/UART 4 排针引出,可配置IO和调试
LED 1 状态指示灯

Coglet 中通过 USB-UVC 连接到 ESP32-S3,输出检测结果和预览图像

功能特点
- Grove Vision AI Module V2 通过 USB-UVC 连接到 ESP32-S3
- 使用 Linux V4L2 视频设备框架,mmap 缓冲区管理
- 支持多种像素格式:RGB565, YUV422, RGB24, JPEG
- 支持硬件加速旋转(PPA for ESP32-P4,软件旋转 for 其他芯片)
- 预加载人脸/物体检测模型,离线推理不依赖云端
- 分工:Grove Vision AI V2 本身在模组上运行离线检测(人脸/物体追踪),结果通过 UVC 输出图像给 ESP32-S3

3. 关节驱动 - KPower M0090 9g 模拟金属齿轮舵机

框架支持main/boards/common/esp_video.{cc,h}

功能特点
- Grove Vision AI V2 通过 USB-UVC 连接到 ESP32-S3
- 使用 Linux V4L2 视频设备框架,mmap 缓冲区管理
- 支持多种像素格式:RGB565, YUV422, RGB24, JPEG
- 支持硬件加速旋转(PPA for ESP32-P4,软件旋转 for 其他芯片
- 分工:Grove Vision AI V2 本身在模组上运行离线检测(人脸/物体追踪),结果通过 UVC 输出图像给 ESP32-S3

规格参数

参数 规格
重量 9g
输出扭矩 1.3 kg·cm @ 4.8V, 1.5 kg·cm @ 6.0V
转动速度 0.10 sec/60° @ 4.8V, 0.08 sec/60° @ 6.0V
齿轮材质 全金属齿轮
最大转角 ~180°
信号类型 PWM 模拟信号
供电电压 4.8V ~ 6.0V DC
工作电流 100~150mA 保持,~600mA 堵转

尺寸与封装
- 本体尺寸:21.5 × 11.8 × 23.8 mm(含安装凸耳)
- 输出轴中心高度:约 14.5 mm
- 重量:9.0 g(不含线),含线约 12 g
- 外形规格:标准 9g 舵机尺寸,兼容 MG90S 等常见安装孔位
- 安装方式:2个 M2 十字螺丝固定,配橡胶减震圈

接口与引脚

接口类型 数量 颜色标准(通常)
PWM 信号 1 橙色/白色信号线
电源 1 红色 VCC (4.8~6V)
1 棕色/黑色 GND
  • 标准 JR/Futaba 3针杜邦接口,间距 2.54mm
  • 线缆长度约 150mm
  • 控制信号:标准 50Hz PWM,脉宽 500~2500µs 对应 0~180°

产品特点
- 金属齿轮相比塑料齿轮寿命提升 5~10 倍,耐冲击性能更好
- 标准 9g 尺寸兼容市面上绝大多数安装孔位(兼容 MG90S)
- 标准 JR/Futaba 3针杜邦接口,兼容所有舵机驱动板
- Coglet 官方套件指定使用该型号舵机

4. 9x 舵机控制

架构设计
- 基于 MCP 协议,大模型可以直接控制每个舵机和预定义动作
- FreeRTOS 队列异步处理动作,不阻塞主线程
- 支持增量平滑移动,每 10ms 更新一次位置

**Coglet 9 自由度分配:

部位 自由度 说明
左眼 2 PAN (左右) + TILT (上下)
右眼 2 PAN + TILT
左臂 2 俯仰 + 滚动
右臂 2 俯仰 + 滚动
身体 1 身体旋转
总计 9

暴露的 MCP 工具

self.coglet.eyes.look_at  - 控制双眼云台看向指定方向
self.coglet.hand_action   - 手部动作 (举手/放手/挥手/拍打)
self.coglet.body_turn     - 身体转向
self.coglet.head_move     - 头部运动
self.coglet.set_trim      - 舵机校准(永久保存到 NVS)
self.coglet.get_trims     - 获取当前校准值
self.coglet.get_status    - 获取动作状态 (idle/moving)
self.coglet.stop         - 停止当前动作,复位到休息位置

运动算法
- Oscillator 类实现正弦波振荡动画(适合连续摆动)
- MoveServos() 支持平滑移动,每 10ms 步进一次,避免舵机突然转动
- 支持参数范围检查(保护舵机不超出机械限位)
- 微调参数存储在 NVS 非易失性存储,掉电不丢失

4. 麦克风与扬声器

  • 麦克风:I2S 接口输入,adc_mic 驱动,OPUS 编码压缩 → 发送云端 ASR
  • 扬声器:I2S 接口输出,支持多种编解码器(ES8311, ES8374, ES8388, ES8389 等)
  • 离线唤醒:ESP-SR 提供唤醒词检测
  • VAD:语音活动检测,自动判断录音结束

5. MCP 协议集成 - 大模型直接控制硬件

核心设计:所有硬件都通过 Model Context Protocol 暴露给大模型:

大模型 ←→ MCP 协议 ←→ ESP32 ←→ 物理硬件

相机相关内置工具

self.camera.take_photo  - 拍照并让 AI 分析图片,用户提问后回答

核心数据流

[离线语音唤醒]
麦克风 → ESP-SR 唤醒词检测 → 触发开始监听 →
[录音] → OPUS 编码 → 网络 → 云端 ASR → LLM → TTS →
[网络] → OPUS 编码 → ESP32 解码 → 扬声器播放

[视觉 - 右眼]
OV3660 → Capture → JPEG 编码 → HTTP POST → 云 LLM →
返回分析结果 → MCP 协议 → 大模型 → 回答用户问题

[视觉 - 左眼]
Grove Vision AI V2 → 离线人脸/物体追踪 → USB → ESP32 →
显示追踪结果 → 舵机云台跟随 → 持续追踪

[动作]
LLM → MCP 工具调用 → ESP32 队列 → 后台任务 →
舵机按轨迹运动 → 完成 → idle

BOM 代码支持核对

器件 代码支持 说明
Grove Vision AI V2 ✅ 支持 (via EspVideo/USB-UVC) 左眼实时检测
ESP Camera OV3660 ✅ 支持 (via esp-camera) 右眼云分析
Microphone ✅ 集成在 audio 模块 语音输入
Speaker ✅ 多种 codec 驱动支持 TTS 输出
6 Pin PicoBlade 🔌 连接器 需要板级配置 GPIO
USB → JST XH (3A) 🔌 电源输入 电源管理已支持
9x Servos ✅ 框架已就绪,扩展到 9 很直接 MG90s 可替代
ESP Cam Ribbon Cable + Adaptor ✅ esp-camera 驱动已就绪 需要硬件连线
Realistic Camera-Compatible Eyes ✀ 机械结构,代码通过舵机控制 已在运动控制框架支持

项目已经具备了 Coglet 机器人所需的所有软件基础设施,可以直接映射硬件到 BOM。

设计亮点

  1. 分层抽象设计Camera 抽象基类,Esp32CameraEspVideo 两种实现,完美适配 Coglet 双摄像头设计

  2. MCP 原生集成:所有舵机动作直接作为 MCP 工具暴露给大模型,大模型可以自主组合动作

  3. 异步动作执行:动作队列在后台任务执行,不影响语音交互和 WiFi 连接

  4. 参数持久化:舵机校准参数存储在 NVS,用户可在线校准,无需重新编译

  5. 内存安全:大帧分配在 PSRAM,DRAM 保持充裕,适合 ESP32-S3 架构

  6. 硬件加速:支持 PPA 硬件旋转、硬件 JPEG 编码,充分利用 ESP32-S3/ESP32-P4 特性

上游框架总结

CogletESP 继承了小智 AI 底层框架的完整能力:
- 应用主控制器,单例模式,事件驱动主循环
-
MCP Server:Model Context Protocol 服务端,设备端工具调用
-
Protocol:抽象协议基类,支持 WebSocket / MQTT+UDP
-
Audio Service:音频采集、编码、唤醒检测、VAD 语音活动检测
-
Display:OLED/LCD/LVGL 显示驱动,支持表情显示
-
State Machine:有限状态机管理设备状态
-
OTA**:无线固件升级

Coglet 选择小智 AI 作为固件框架是一个很好的工程决策——小智已经解决了复杂的音频、网络、协议、OTA 等底层问题,让 Coglet 团队可以专注于机械设计和用户体验。


总结

Coglet 是一个精心设计的开源桌面机器人项目,它在机械设计和开放性上都下了很大功夫。在具身智能(Embodied AI)和个人机器人复兴的浪潮中,这样的开源项目尤为可贵——它为 AI 提供了一个真正有表现力的物理载体,又保持了完全开放和可定制,让创客社区能够在此基础上不断创新。

目前项目已经超额 640% 完成众筹目标,预计 2026 年 8-9 月开始交付,所有设计文件都会开源到 GitHub,即使不参与众筹,你也可以自行打印组装。


本文基于 Kickstarter 项目公开内容整理,2026 年 4 月

Comments (0)