ai.smithery/Artin0123-gemini-image-mcp-server
AI 与智能体by artin0123
使用 Gemini 分析图片与视频,快速获得可靠的视觉洞察,并处理来自 URL 等来源的内容。
什么是 ai.smithery/Artin0123-gemini-image-mcp-server?
使用 Gemini 分析图片与视频,快速获得可靠的视觉洞察,并处理来自 URL 等来源的内容。
README
image-mcp-server-gemini
This is remote server, use local version for local images and videos.
Features
- Analyze one or more image URLs with a single tool call.
- Analyze YouTube videos without downloading files locally.
- Supply an API key and optionally override the Gemini model via environment variables.
- File size limit: Images are limited to 16 MB to ensure fast processing.
- YouTube videos: No size limit as they are streamed directly by Gemini API.
Installation
Installing via Smithery
Install the server in Claude Desktop:
npx -y @smithery/cli install @Artin0123/gemini-image-mcp-server --client claude
Manual Installation
# Clone the repository
git clone https://github.com/Artin0123/gemini-vision-mcp.git
cd gemini-vision-mcp
# Install dependencies
npm install
# Compile TypeScript to dist/
npm run build
Configuration
Create a Gemini API key in Google AI Studio and provide GEMINI_API_KEY to the server.
{
"mcpServers": {
"gemini-media": {
"command": "node",
"args": ["/absolute/path/to/gemini-vision-mcp/dist/index.js"],
"env": {
"GEMINI_API_KEY": "your_api_key_here",
"GEMINI_MODEL": "models/gemini-flash-lite-latest"
}
}
}
}
If no key is supplied, the server can still start (handy for automated scans), but any tool invocation will return a configuration error until a valid API key is configured.
Model override
The server defaults to models/gemini-flash-lite-latest. Override it by either:
Setting the
GEMINI_MODELenvironment variable, or ProvidingmodelNamein the Smithery/SDK configuration schema.
Available tools
analyze_image: Analyze one or more image URLs. Maximum file size: 16 MB per image.analyze_youtube_video: Analyze a YouTube video from URL. No size limit.
Image URLs are downloaded and processed with a 16 MB size limit to ensure fast response times. Files exceeding this limit will result in an error message indicating the actual file size.
YouTube videos are streamed directly by Gemini API without downloading, so there is no size restriction.
Prompt examples
Please analyze this product photo: https://teimg-bgr.pages.dev/file/mvYT6KeF.webp
Extract the main talking points from this clip: https://www.youtube.com/watch?v=dQw4w9WgXcQ
Development
npm install
npm test
npm run build
The test suite exercises URL forwarding, MIME handling, and configuration fallbacks.
License
MIT
常见问题
ai.smithery/Artin0123-gemini-image-mcp-server 是什么?
使用 Gemini 分析图片与视频,快速获得可靠的视觉洞察,并处理来自 URL 等来源的内容。
相关 Skills
Claude接口
by anthropics
面向接入 Claude API、Anthropic SDK 或 Agent SDK 的开发场景,自动识别项目语言并给出对应示例与默认配置,快速搭建 LLM 应用。
✎ 想把Claude能力接进应用或智能体,用claude-api上手快、兼容Anthropic与Agent SDK,集成路径清晰又省心
RAG架构师
by alirezarezvani
聚焦生产级RAG系统设计与优化,覆盖文档切块、检索链路、索引构建、召回评估等关键环节,适合搭建可扩展、高准确率的知识库问答与检索增强应用。
✎ 面向RAG落地,把知识库、向量检索和生成链路系统串联起来,做架构设计时更清晰,也更少踩坑。
计算机视觉
by alirezarezvani
聚焦目标检测、图像分割与视觉系统落地,覆盖 YOLO、DETR、Mask R-CNN、SAM 等方案,适合定制数据集训练、推理优化及 ONNX/TensorRT 部署。
✎ 把目标检测、图像分割到推理部署串成完整工程链路,主流框架与 YOLO、DETR、SAM 等方案都覆盖,落地视觉 AI 会省心很多。
相关 MCP Server
顺序思维
编辑精选by Anthropic
Sequential Thinking 是让 AI 通过动态思维链解决复杂问题的参考服务器。
✎ 这个服务器展示了如何让 Claude 像人类一样逐步推理,适合开发者学习 MCP 的思维链实现。但注意它只是个参考示例,别指望直接用在生产环境里。
知识图谱记忆
编辑精选by Anthropic
Memory 是一个基于本地知识图谱的持久化记忆系统,让 AI 记住长期上下文。
✎ 帮 AI 和智能体补上“记不住”的短板,用本地知识图谱沉淀长期上下文,连续对话更聪明,数据也更可控。
PraisonAI
编辑精选by mervinpraison
PraisonAI 是一个支持自反思和多 LLM 的低代码 AI 智能体框架。
✎ 如果你需要快速搭建一个能 24/7 运行的 AI 智能体团队来处理复杂任务(比如自动研究或代码生成),PraisonAI 的低代码设计和多平台集成(如 Telegram)让它上手极快。但作为非官方项目,它的生态成熟度可能不如 LangChain 等主流框架,适合愿意尝鲜的开发者。