生成式AI和LLM应该怎么应用？

thegodra · 发表于 2025-9-8 14:31

有好些个疑问呢

1，目前在用火山引擎的，隔两天就要我登录，好烦。怎么避免？或者其他家？
2，Deepseek似乎不能输出图片，需要它解释一些电路上的东西就很麻烦。有能输出图片能力的吗？
3，有订阅POE，里面有些有可以语音对话的，但是我连接麦克风总是失败，是网络还是其他什么配置吗？
4，有看到有演示用人工智能对话纠正英文发音的，是哪家的服务？
5，有哪些口碑好的应用教程吗？各方面的都想看看

THX~

不少新技术自己每次都早早知道，然后赶了个大晚

越发感觉自己不是什么料，只是个普通人呢

hersi · 发表于 2025-9-8 14:46

这些问题你也可以问AI啊

库德里尔 · 发表于 2025-9-8 15:47

1. 这年头使用方式要么网页版（包含用官方软件）要么api。买个api往通用软件（比如cherry studio）里一接就能用。

2. 这年头的图生成完全不是你想的那样。生成图片文件就不论了，就算是生成流程图，也是依托于代码渲染出来的。

3.4. 语音不懂，不好意思。

5. 这年头的大模型输入，在纯文本以外也支持一些文档。office几大件本来就是可以解压提xml的，图片有的只做了文本识别，没有通用意义上的识图。大多数时候还是文生文。

—— 来自鹅球 v3.5.99

comrade · 发表于 2025-9-8 15:49

1. 没用过火山引擎。多服务商一般用 cherry studio 和 nextchat 这种客户端整合多家的 api token 使用。一般用户用 cherry studio 就能做到问答、图片生成、翻译、agent 、知识库等常规功能，cherry 的更新与最新应用跟进也非常快
2. 像 GPT-4o，Google Gemini 2.5，甚至于国内的豆包都有输出图片的能力
3. 没用过 POE
4. 我只用过豆包 ai 通话功能，它确实可以陪练口语
5. 应用教程这个太宽泛了，结合 awesome 在 github 上搜搜看吧，其实 b 站上知识分享的人也很多。目前 LLM 的使用除了搭建框架外，还有海量的 MCP 服务可供结合

宅🍐eriri · 发表于 2025-9-8 16:39

comrade 发表于 2025-9-8 15:49
1. 没用过火山引擎。多服务商一般用 cherry studio 和 nextchat 这种客户端整合多家的 api token 使用。一 ...

输出图片简单，但是输出图片符合电路逻辑就难了

dkswxd · 发表于 2025-9-9 08:42

[url=][/url][url=][/url]t

—— 来自 Xiaomi 22041211AC, Android 14, 鹅球 v3.5.99

zerona · 发表于 2025-9-10 01:10

在你需要的方向，找个大佬，然后用他写的智能体和数据库目录文件表。

你说这个谁懂呀? · 发表于 2025-9-10 02:56

本帖最后由你说这个谁懂呀? 于 2025-9-10 03:05 编辑

建议直接用POE(需fanqiang)
本质上目前大模型就两种模型,
一种生成文字的,这类别的你可以使用POE里面的 Claude-4 GPT-5, 一般我是长文本任务用Claude-4,搜索短的用GPT-5,
这个类别的只能生成文字内容,但是你可以在输入的部分添加图片或者是PDF,POE都会直接帮你处理.(Deepseek原生是不支持图片输入的)
还有不要用所谓的语音功能,本质上只是一个转换器,就是把你说的转换成文字,更多的情感相关的,比如针对你的语气这种东西就是个玩具.

一种生成图片的,这类别的你可以用POE里面的Gemini-2.5-Flash-Image(Nano-banana)和GPT-Image,
这个你可以首先跟上面的GPT-5或者claude-4先沟通到底你想要生成什么样的图片或者修改什么部分,让他帮你生成专业prompt.
之后再用Gemini-2.5-Flash-Image(Nano-banana)和GPT-Image来修改或者生成图片.

注意本质上就两种模型,一种生成文字的,一种生成图片的,但是这两种的输入都可以包括图片,
还有专业任务尽可能用英文描述效果一般会好很多,中文任务尽可能不要用外国模型.

你说这个谁懂呀? · 发表于 2025-9-10 02:59

你说这个谁懂呀? 发表于 2025-9-10 02:56
建议直接用POE,
本质上目前大模型就两种模型,
一种生成文字的,这类别的你可以使用POE里面的 Claude-4 GPT-5 ...

当然细说现在多模态的输入输出本身是一个很复杂的问题,
比如说Nano-Banana虽然图像部分是一个diffusion但是很可能输入端有更多MLLM的理解. . .

你说这个谁懂呀? · 发表于 2025-9-10 03:00

还有就是假如说你需要明确的归因,
比如说某个内容文献出自于哪里,可以使用Gemini的deep research或者豆包也有,
但是我不太常用国内模型(除了deepseek),就不多说了

		自动登录	找回密码
密码			立即注册

[软件] 生成式AI和LLM应该怎么应用？

浏览过的版块