Skip to content

这是一个基于 scikit-learn 的自动化机器学习(AutoML)工具包。它能够自动化地进行机器学习模型选择、超参数优化和集成构建#1777

Open
chenziqi66 wants to merge 1 commit intoautoml:developmentfrom
chenziqi66:development
Open

这是一个基于 scikit-learn 的自动化机器学习(AutoML)工具包。它能够自动化地进行机器学习模型选择、超参数优化和集成构建#1777
chenziqi66 wants to merge 1 commit intoautoml:developmentfrom
chenziqi66:development

Conversation

@chenziqi66
Copy link
Copy Markdown

基于对项目的分析,我设计了一个 AutoML 工具包工程基建升级需求 。这个需求聚焦于现代化开发流程、提升开发效率和代码质量,同时保持与现有生态的兼容性。 工程基建升级需求:现代化 AutoML 开发平台
需求背景
当前 auto-sklearn 项目已经具备了基本的工程基建,但在以下方面仍有提升空间:
依赖管理采用传统的 requirements.txt + setup.py ,缺乏版本锁定和依赖解析能力 构建系统较为传统,缺乏现代化的打包和发布流程
开发环境配置复杂,新成员上手成本高
缺乏统一的任务执行和开发流程管理
核心目标

  1. 提升开发效率 - 简化环境配置、依赖管理和日常开发任务
  2. 增强代码质量 - 强化类型检查、代码规范和测试覆盖
  3. 加速交付流程 - 自动化构建、测试和发布流程
  4. 优化协作体验 - 统一开发环境和工具链配置 具体需求方案
  5. 现代化依赖管理系统 需求描述 :采用 Poetry 或 PDM 作为现代化的依赖管理工具,替代传统的 requirements.txt + setup.py 方案。
  6. 标准化开发任务流 需求描述 :使用 Makefile 或 pypyr 定义标准化的开发任务流。
  7. 增强型代码质量保障体系 需求描述 :在现有基础上增强代码质量保障,实施 四层质量门禁 :
  8. 容器化开发环境 需求描述 :提供基于 Docker + VS Code Remote-Containers 的标准化开发环境。 配置内容 :
    .devcontainer/Dockerfile - 开发环境镜像定义
    .devcontainer/devcontainer.json - VS Code 远程开发配置
    预装所有依赖、工具链和 VS Code 插件
    实现收益 :
    零配置上手:"打开 VS Code,点击 Reopen in Container"即可开始开发
    跨平台一致性:Windows/macOS/Linux 开发者获得完全相同的环境
    支持云开发:可直接在 GitHub Codespaces 中运行
  9. 智能文档生成系统 需求描述 :基于 pdoc 或 mkdocs-material 构建现代化文档系统。
    核心特性
    自动从代码注释生成 API 文档
    支持 Markdown 编写指南和教程
    内置搜索功能
    响应式设计,支持移动端浏览
    自动部署到 GitHub Pages
    高级功能 :
    文档中嵌入可运行的代码示例
    版本化文档管理(对应不同 release 版本)
    文档覆盖率统计(追踪哪些模块缺少文档) 6. 性能监控回归测试
    需求描述 :建立性能基准测试系统,防止代码变更导致性能退化。
    实现方案 :
    使用 pytest-benchmark 编写性能测试用例
    关键算法保存性能基线数据
    PR 自动对比性能变化,超出阈值时告警
    生成性能趋势报告 7. 模块化架构支撑
    需求描述 :实现插件化架构,支持:
    动态加载新的机器学习算法
    自定义超参数优化策略
    可扩展的评估指标
    第三方集成接口

基于对项目的分析,我设计了一个 AutoML 工具包工程基建升级需求 。这个需求聚焦于现代化开发流程、提升开发效率和代码质量,同时保持与现有生态的兼容性。
工程基建升级需求:现代化 AutoML 开发平台
需求背景
当前 auto-sklearn 项目已经具备了基本的工程基建,但在以下方面仍有提升空间:
依赖管理采用传统的 requirements.txt + setup.py ,缺乏版本锁定和依赖解析能力
构建系统较为传统,缺乏现代化的打包和发布流程
开发环境配置复杂,新成员上手成本高
缺乏统一的任务执行和开发流程管理
核心目标
1. 提升开发效率 - 简化环境配置、依赖管理和日常开发任务
2. 增强代码质量 - 强化类型检查、代码规范和测试覆盖
3. 加速交付流程 - 自动化构建、测试和发布流程
4. 优化协作体验 - 统一开发环境和工具链配置
具体需求方案
1. 现代化依赖管理系统
需求描述 :采用 Poetry 或 PDM 作为现代化的依赖管理工具,替代传统的 requirements.txt + setup.py 方案。
2. 标准化开发任务流
需求描述 :使用 Makefile 或 pypyr 定义标准化的开发任务流。
3. 增强型代码质量保障体系
需求描述 :在现有基础上增强代码质量保障,实施 四层质量门禁 :
4. 容器化开发环境
需求描述 :提供基于 Docker + VS Code Remote-Containers 的标准化开发环境。
配置内容 :
.devcontainer/Dockerfile - 开发环境镜像定义
.devcontainer/devcontainer.json - VS Code 远程开发配置
 预装所有依赖、工具链和 VS Code 插件
实现收益 :
零配置上手:"打开 VS Code,点击 Reopen in Container"即可开始开发
跨平台一致性:Windows/macOS/Linux 开发者获得完全相同的环境
支持云开发:可直接在 GitHub Codespaces 中运行
5. 智能文档生成系统
需求描述 :基于 pdoc 或 mkdocs-material 构建现代化文档系统。
核心特性
自动从代码注释生成 API 文档
支持 Markdown 编写指南和教程
内置搜索功能
响应式设计,支持移动端浏览
自动部署到 GitHub Pages
高级功能 :
文档中嵌入可运行的代码示例
版本化文档管理(对应不同 release 版本)
文档覆盖率统计(追踪哪些模块缺少文档) 6. 性能监控回归测试
需求描述 :建立性能基准测试系统,防止代码变更导致性能退化。
实现方案 :
使用 pytest-benchmark 编写性能测试用例
关键算法保存性能基线数据
PR 自动对比性能变化,超出阈值时告警
生成性能趋势报告 7. 模块化架构支撑
需求描述 :实现插件化架构,支持:
动态加载新的机器学习算法
自定义超参数优化策略
可扩展的评估指标
第三方集成接口
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant