Ai平台模型_AI工具导航_文生AI创作平台

CMMLU是一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力，涵盖了从基础学科到高级专业水平的67个主题。

MMBench是一个多模态基准测试，该体系开发了一个综合评估流程，从感知到认知能力逐级细分评估，覆盖20项细粒度能力，从互联网与权威基准数据集采集约3000道单项选择题。打破常规一问一答基于规则匹配提取选项进行评测，循环打乱选项验证输出结果的一致性，基于ChatGPT精准匹配模型回复至选项。

HELM是由斯坦福大学推出的大模型评测体系，该评测方法主要包括场景、适配、指标三个模块，每次评测的运行都需要指定一个场景，一个适配模型的提示，以及一个或多个指标。

Chatbot Arena是一个大型语言模型 (LLM) 的基准平台，以众包方式进行匿名随机对战，该项目方LMSYS Org是由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织。

LLMEval是由复旦大学NLP实验室推出的大模型评测基准，最新的LLMEval-3聚焦于专业知识能力评测，涵盖哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学等教育部划定的13个学科门类、50余个二级学科，共计约20W道标准生成式问答题目。

H2O EvalGPT 是 H2O.ai 用于评估和比较 LLM 大模型的开放工具，它提供了一个平台来了解模型在大量任务和基准测试中的性能。无论你是想使用大模型自动化工作流程或任务，H2O EvalGPT 都可以提供流行、开源、高性能大模型的详细排行榜，帮助你为项目选择最有效的模型完成具体任务。

PubMedQA是一个生物医学研究问答数据集，包含了1K专家标注，61.2K 个未标注和 211.3K 个人工生成的QA实例，该排行榜目前已收录18个模型的医学测试得分。

浦语·灵笔是基于书生·浦语大语言模型研发的视觉-语言大模型，提供出色的图文理解和创作能力。

华为的盘古ai大模型是华为云推出的一项人工智能技术。该大模型包含了多个领域的大型模型，包括自然语言处理（NLP）大模型、计算机视觉（CV）大模型、多模态大模型、预测大模型和科学计算大模型。

智谱AI开放平台，GPT人工智能模型，基于领先的千亿级多语言、多模态预训练模型，打造高效率、通用化的“模型即服务”AI开发新范式。

科大讯飞推出的新一代GPT人工智能模型，拥有跨领域的知识和语言理解能力，能够基于自然对话方式理解与执行任务。从海量数据和大规模知识中持续进化，实现从提出、规划到解决问题的全流程闭环。

抖音即创平台，一站式智能创意生产与管理平台，创作者可以通过该平台提升视频、图文的创作效率，借助的是AI赋予的各种新功能。

序列猴子开放平台，领先市场的语言驱动深度学习大模型能够快速、准确地处理语言表达，支持多种交互方式。可以快速生成悦耳语音、高质量文本、与人机互动，满足各类语音、文本和对话需求。

斑头雁BattleYeah AI应用开发平台，简单、易用的AI 应用开发平台，全新交互形式，API无缝集成至企业系统，帮助企业实现AI生产力革命。

MiniMax是最新一代的大型中文语言模型，它的主要目标是帮助人类高效地写作，激发创意，获取知识，以及做出决策。

百川智能公司以帮助大众轻松、普惠地获取世界知识和专业服务为使命，致力于通过语言AI的突破，构建中国最优秀的大模型底座。

为您的业务量身定制 AI Bot 应用，GPTBots 让开发者将LLM与企业数据、服务能力无缝连接，轻松构建AI服务。

六合AI大模型，融合了众多主流语言模型，包括GPT3.5、GPT4.0、文心一言、讯飞星火、Midjourney、LLaMA等一站式AI智能平台。

灵境矩阵是百度最新推出的面向各类开发者的文心插件开发平台。

ZelinAI是—零代码创建AI应用的平台，国内领先的大模型集成平台，目前支持ChatGPT、GPT4.0、文心一言、MJ绘画。

商汤日日新垂直领域场景落地应用丰富。

AI网址导航