人工智能中的项目流程

大家好我是木木，只从2022年11月30日发布ChatGPT后，大模型迅速火热起来，人工智能作为当下最火的行业之一，很多人对它充满了好奇，接下来由我通过房价预测项目为大家揭开人工智能中项目流程。

m0_50572459

319人浏览 · 2023-09-18 16:54:04

m0_50572459 · 2023-09-18 16:54:04 发布

案例：房价预测项目流程

第一步：分析问题，搞定输入输出

分析问题的本身，定义房价输入特征和输出的标签

输入特征：输入一套房子

特征：地段、价格、面积。。。

输出标签：返回房子的价格

标签：价格

第二步：根据输入、输出构建数据集

收集基础数据，将基础数据特征列进行数字化，用于后续训练使用。数据可以创建一张数据采集表：尤采集人员进行数据采集，并将采集数据根据规定范围进行填写。

例如：要预测北京房价，可以进行分层采样数据：二环内房价信息采集5000套、二-三环内房价信息采集5000套、三-四环内房价信息采集5000套、四环-五环内房价信息采集5000套。

将采集标中的数据进行数字化：连续量：直接使用原始数据即可；离散量：One-Hot Encoding编码。

One-Hot Encoding编码是什么可能不了解AI的同学不清楚，简单说就是将一串文字转成数字，用于给算法进行训练。

假设房价里面有一些特征：如二环内、房间类型（如一室一厅、两室一厅等）这些是离散的文字信息，在机器学习中算法无法直接使用这些离散特征中的数据进行算法训练，此时需要我们给这些特征转换成数字，转成什么数字需要我们自行在前期定义，如房间类型特征中的一室一厅，我们可以定义为11，两室一厅定义为21.

第三步：遴选模型

通过选取不同算法完成模型训练进行验证和评估，最终选择最优模型作为模型使用。

为什么要选取不同算法完成模型训练：主要的原因是不同的算法有不同的特色和优点，通过选取不同算法进行训练，选取最优的模型作为选择。

第四步：上线部署，做预测推理

服务端部署：通过客户端请求服务器，得到推理结果。

终端部署：边缘计算，部署在设备上，在本地进行算法推理。

第五步：模型优化

根据上线项目采集现场数据和实际情况，再对模型进行模型优化。

以上就是AI项目的整体流程，其中可能最难的就是数据的采集和需求

AI中没有数据就没有灵魂，想要训练一个好的模型数据是必不可少的，当然数据也是最难搞的，需要花费大量的人力和物力

需求听着简单，但是前期没有确定好需求，后期再做需求的调整，前期所有的工具基本白费，全部推翻重来，那时送你一个痛苦面具

最终提醒一句：人工智能不是万能的，它不能解决所有的问题，并且使用它的代价很高，所有从工程上的角度来说，能用简单的方法解决问题，坚决不用人工智能。

科普小知识：

服务器端部署：客户端请求服务器，服务器中进行算法的推理，将结果再返回给客户端。

边缘计算：将数据和目标的计算尽可能的靠近在终端设备，以提供更低的延迟、更高的带宽利用率与良好的用户体验。

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐

AIGC时代API设计范式重构：从数据管道到智能交互层的深度跃迁

天启AI社区

数字人心理咨询：AIGC在心理健康服务的探索

本文旨在全面解析数字人心理咨询的技术原理和应用实践，探讨AIGC如何赋能心理健康服务。我们将覆盖从基础技术到实际应用，再到伦理考量的完整知识链条。文章将从技术基础开始，逐步深入到应用场景和案例分析，最后探讨伦理挑战和未来发展方向。数字人心理咨询：基于人工智能技术构建的虚拟心理咨询师，能够模拟人类咨询师的对话方式和治疗技术。AIGC(人工智能生成内容)：利用AI技术自动生成文本、图像、音频等内容的技

天启AI社区

AIGC内容过滤中的多模态技术应用

随着ChatGPT、DALL·E、Sora等AIGC工具爆发，AI每天生成数十亿条图文、视频内容。但这些内容可能藏着“危险品”：比如AI生成的“儿童不宜”图片配“正常文字描述”，或“无害图片”配“煽动性文字”。传统单模态过滤（只查文字或只查图片）像“漏检的安检机”，多模态技术（同时分析文字+图片+声音）能补上漏洞。本文将覆盖多模态过滤的核心原理、实战方法及未来趋势。从“快递安检”的生活案例切入，拆