
如下是本期盘点的几个好玩有趣的开源项目,目录:
截图转代码
让 PDF 转换为 Markdown 的 OCR 利器
01. 截图转代码
截止发稿日在GitHub上斩获63.3K的Stars
Screenshot-to-Code 旨在将网页设计的屏幕截图自动转换为 HTML、CSS 和 JavaScript 代码。通过计算机视觉和深度学习技术,它能够分析设计图像,提取页面结构、布局和样式,生成可编辑的前端代码。
支持的堆栈
截图转代码支持多种技术栈,包括但不限于:
HTML + Tailwind
HTML + CSS
React + Tailwind
Vue + Tailwind
Ionic + Tailwind
SVG
支持的AI模型
这款工具支持以下AI模型:
• Claude Sonnet 3.5:最佳模型!
• GPT-4o:也推荐!
• DALL-E 3 或 Flux Schnell(使用 Replicate)用于图像生成
实验性支持
我们还添加了实验性支持,对网站运行时的视频/屏幕进行录制并将其转变为功能原型。
入门指南
截图转代码应用程序有一个React/Vite前端和一个FastAPI后端。以下是运行前后端的步骤:
1. 后端运行:
• 使用Poetry进行包管理,如果没有安装,请先安装Poetry。
• 设置环境变量,包括OpenAI API密钥和Anthropic API密钥。
• 使用
poetry install安装依赖,然后使用poetry run uvicorn main:app --reload --port 7001启动后端服务。
2. 前端运行:
• 进入前端目录,使用
yarn安装依赖,然后使用yarn dev启动前端服务。• 打开
http://localhost:5173即可使用该应用程序。
常见问题解答
• 如何获取OpenAI API密钥?:请访问这个链接获取详细指南。
• 如何配置OpenAI代理?:如果你无法直接访问OpenAI API,可以尝试使用VPN,或者配置OpenAI基本URL以使用代理。
• 如何更新前端连接到的后端主机?:在
front/.env.local中配置VITE_HTTP_BACKEND_URL和VITE_WS_BACKEND_URL。
项目地址
如果你对截图转代码感兴趣,可以访问他们的GitHub页面了解更多信息,或者直接开始你的代码生成之旅。
项目地址:
02. 让PDF转换Markdown的OCR利器
ZeroX 是一款基于视觉模型的 OCR(光学字符识别)工具,通过自动化处理文档图片、文字等元素,提供了一种简单高效的解决方案。它特别适用于具有复杂布局的文档,如表格、图表等,能够有效地提取其中的文本和数据,便于 AI 进行读取和分析。ZeroX 可以大幅提升文档处理效率,尤其在需要处理多种格式和复杂布局的场景中,表现出色。

项目亮点
① 多格式支持
Zerox支持多种文件格式,包括PDF、DOCX以及图片等,通过自动将文档拆分为图片并传递给GPT模型处理,实现精准的OCR识别。

② 高效的工作流程
Zerox的工作原理简单高效。用户上传文件后,系统将文件拆分为一系列图像,并利用GPT模型对每页图像进行识别处理,最终生成结构清晰的Markdown文档。对于图像内的复杂排版、表格内容,Zerox的视觉模型也能很好地应对。

③ 灵活的使用方式
Zerox提供了Node.js和Python两种SDK,便于开发者在不同环境下快速集成。用户可以通过简单的命令行方式安装,便捷地将其融入现有的文档处理系统。
④ 丰富的配置选项
用户可根据需求自定义Zerox的OCR过程,如调整并发数、选择页面方向校正、保留文档格式等,满足各种精细化需求。此外,Zerox支持指定页面转换,避免不必要的处理,提升效率。

自定义模型选择:目前支持使用 GPT-4o-mini 和 GPT-4o 模型,根据需求选择合适的模型平衡效果和处理速度。用户可以通过 Node 或 Python SDK 轻松调用 Zerox 功能。
项目地址
如果你对PDF转换Markdown感兴趣,可以访问他们的GitHub页面了解更多信息,或者直接开始你的代码生成之旅。
评论区