首页
抖音
B站
老司机
热门
网络
投稿
首页
抖音
B站
老司机
热门
网络
互联网梗百科
MuleRun
MuleRun 是全球首个 AI Agent 市场,类似eBay,提供多种即插即用的 AI 工具(Mule Agents),能执行从游戏辅助、内容创作到自动化任务的多种功能。用户通过一个入口能访问大量...
查看更多
桃鹿直播
08-19
如此AI员工
如此AI员工是四川如此网络科技有限公司推出的国内首个从推广-获客-转化-私域全链路托管式AI Agent,基于RPA和AI大模型技术的智能自动化解决方案,能像真人一样在电脑上7×24小时自主工作,操作...
查看更多
sweetwendybebe
08-19
你好星识
你好星识(HiStella)是新一代AI智能文本工作空间,将知识库、文档、表格、PPT、录音纪要等多种办公功能整合到同一工作空间,无需在不同工具之间来回切换。你好星识支持多种文件格式,能自动组织和索引...
查看更多
Sweetie Fox
08-19
AudioGenie
AudioGenie是腾讯AI Lab团队推出的多模态音频生成工具,能从视频、文本、图像等多种模态输入生成音效、语音、音乐等多种音频输出。工具采用无训练的多智能体框架,通过生成团队和监督团队的双层架构...
查看更多
polasexy
08-19
C-Eval
C-Eval是适用于大语言模型的多层次多学科中文评估套件,由上海交通大学、清华大学和爱丁堡大学研究人员在2023年5月份联合推出,包含13948个多项选择题,涵盖52个不同的学科和四个难度级别,用在评...
查看更多
mumuq
08-19
FlagEval
FlagEval(天秤)是北京智源人工智能研究院(BAAI)推出的科学、公正、开放的大模型评测体系及开放平台,为研究人员提供全面评估基础模型及训练算法性能的工具和方法。FlagEval采用“能力-任务...
查看更多
onenightstands
08-19
AGI-Eval
AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区,旨在打造公正、可信、科学、全面的评测生态,以“评测助力,让AI成为人类更好的伙伴”为使命...
查看更多
酥酥
08-19
CMMLU
CMMLU是综合性的中文评估基准,专门用在评估语言模型在中文语境下的知识和推理能力,涵盖从基础学科到高级专业水平的67个主题。包括需要计算和推理的自然科学,需要知识的人文科学和社会科学,及需要生活常识...
查看更多
lenababy
08-19
LLMEval3
LLMEval是由复旦大学NLP实验室推出的大模型评测基准,最新的LLMEval-3聚焦于专业知识能力评测,涵盖哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学...
查看更多
Abella Danger
08-19
LMArena
LMArena是加州大学伯克利分校推出的创新AI模型评估平台,基于让用户对不同AI模型的回答进行匿名投票,衡量模型的表现。用户输入问题后,平台提供两个模型的回答,用户根据偏好选择更优答案,投票结果直接...
查看更多
彩库宝典
08-19
HELM
HELM全称Holistic Evaluation of Language Models(语言模型整体评估)是斯坦福大学推出的大模型评测体系,评测方法主要包括场景、适配、指标三大模块,每次评测的运行都...
查看更多
lenababy
08-19
OpenCompass
OpenCompass面向大模型的开源方和使用者, 提供开源、高效、全面的大模型评测开放平台。网站包含大模型评测榜单,评测集社区,文档等专区。榜单专区包含大语言模型以及多模态大模型榜单,提供多能力维度...
查看更多
Kristen Scott
08-19
下一页