找回密码
 立即注册
搜索
查看: 1619|回复: 9

[软件] 生成式AI和LLM应该怎么应用?

[复制链接]
     
发表于 2025-9-8 14:31 | 显示全部楼层 |阅读模式
有好些个疑问呢

1,目前在用火山引擎的,隔两天就要我登录,好烦。怎么避免?或者其他家?
2,Deepseek似乎不能输出图片,需要它解释一些电路上的东西就很麻烦。有能输出图片能力的吗?
3,有订阅POE,里面有些有可以语音对话的,但是我连接麦克风总是失败,是网络还是其他什么配置吗?
4,有看到有演示用人工智能对话纠正英文发音的,是哪家的服务?
5,有哪些口碑好的应用教程吗?各方面的都想看看

THX~


不少新技术自己每次都早早知道,然后赶了个大晚


越发感觉自己不是什么料,只是个普通人呢
回复

使用道具 举报

发表于 2025-9-8 14:46 | 显示全部楼层
这些问题你也可以问AI啊
回复

使用道具 举报

     
发表于 2025-9-8 15:47 来自手机 | 显示全部楼层
1. 这年头使用方式要么网页版(包含用官方软件)要么api。买个api往通用软件(比如cherry studio)里一接就能用。

2. 这年头的图生成完全不是你想的那样。生成图片文件就不论了,就算是生成流程图,也是依托于代码渲染出来的。

3.4. 语音不懂,不好意思。

5. 这年头的大模型输入,在纯文本以外也支持一些文档。office几大件本来就是可以解压提xml的,图片有的只做了文本识别,没有通用意义上的识图。大多数时候还是文生文。

—— 来自 鹅球 v3.5.99
回复

使用道具 举报

     
发表于 2025-9-8 15:49 | 显示全部楼层
1. 没用过火山引擎。多服务商一般用 cherry studio 和 nextchat 这种客户端整合多家的 api token 使用。一般用户用 cherry studio 就能做到问答、图片生成、翻译、agent 、知识库等常规功能,cherry 的更新与最新应用跟进也非常快
2. 像 GPT-4o,Google Gemini 2.5,甚至于国内的豆包都有输出图片的能力
3. 没用过 POE
4. 我只用过豆包 ai 通话功能,它确实可以陪练口语
5. 应用教程这个太宽泛了,结合 awesome 在 github 上搜搜看吧,其实 b 站上知识分享的人也很多。目前 LLM 的使用除了搭建框架外,还有海量的 MCP 服务可供结合

回复

使用道具 举报

     
发表于 2025-9-8 16:39 | 显示全部楼层
comrade 发表于 2025-9-8 15:49
1. 没用过火山引擎。多服务商一般用 cherry studio 和 nextchat 这种客户端整合多家的 api token 使用。一 ...

输出图片简单,但是输出图片符合电路逻辑就难了
回复

使用道具 举报

     
发表于 2025-9-9 08:42 来自手机 | 显示全部楼层
[url=][/url][url=][/url]t

—— 来自 Xiaomi 22041211AC, Android 14, 鹅球 v3.5.99
回复

使用道具 举报

     
发表于 2025-9-10 01:10 | 显示全部楼层
在你需要的方向,找个大佬,然后用他写的智能体和数据库目录文件表。
回复

使用道具 举报

     
发表于 2025-9-10 02:56 | 显示全部楼层
本帖最后由 你说这个谁懂呀? 于 2025-9-10 03:05 编辑

建议直接用POE(需fanqiang)
本质上目前大模型就两种模型,
一种生成文字的,这类别的你可以使用POE里面的 Claude-4 GPT-5, 一般我是长文本任务用Claude-4,搜索短的用GPT-5,
这个类别的只能生成文字内容,但是你可以在输入的部分添加图片或者是PDF,POE都会直接帮你处理.(Deepseek原生是不支持图片输入的)
还有不要用所谓的语音功能,本质上只是一个转换器,就是把你说的转换成文字,更多的情感相关的,比如针对你的语气这种东西就是个玩具.

一种生成图片的,这类别的你可以用POE里面的Gemini-2.5-Flash-Image(Nano-banana)和GPT-Image,
这个你可以首先跟上面的GPT-5或者claude-4先沟通到底你想要生成什么样的图片或者修改什么部分,让他帮你生成专业prompt.
之后再用Gemini-2.5-Flash-Image(Nano-banana)和GPT-Image来修改或者生成图片.

注意本质上就两种模型,一种生成文字的,一种生成图片的,但是这两种的输入都可以包括图片,
还有专业任务尽可能用英文描述效果一般会好很多,中文任务尽可能不要用外国模型.
回复

使用道具 举报

     
发表于 2025-9-10 02:59 | 显示全部楼层
你说这个谁懂呀? 发表于 2025-9-10 02:56
建议直接用POE,
本质上目前大模型就两种模型,
一种生成文字的,这类别的你可以使用POE里面的 Claude-4 GPT-5 ...

当然细说现在多模态的输入输出本身是一个很复杂的问题,
比如说Nano-Banana虽然图像部分是一个diffusion但是很可能输入端有更多MLLM的理解. . .
回复

使用道具 举报

     
发表于 2025-9-10 03:00 | 显示全部楼层
还有就是假如说你需要明确的归因,
比如说某个内容文献出自于哪里,可以使用Gemini的deep research或者豆包也有,
但是我不太常用国内模型(除了deepseek),就不多说了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-9-19 14:09 , Processed in 0.061762 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表