昨天,看了周鸿祎的一篇视频,说为什么梁文锋能做出deepseek,而其他的大厂或者小公司做不出来?是因为梁文锋是一个懂技术、财务自由、专注、追求创新、有情怀的老板。懂技术是必然的,浙江大学人工智能硕士;做量化赚了很多钱,不缺钱、不融资,不会受到投资机构的影响;专注于通用大模型,不急于Ai应用,把钱用在刀刃上;不被openAi等美国模型的限制,受限芯片制裁,敢于创新,弯道超车,突破美国马奇诺防线;有情怀,这个从梁文锋及其公司多年来公益捐款近十亿可以看出,有家国情怀,想干大事。 我昨天在群里抛出这个话题后,引发群友的激烈讨论,刘总说:“国内能拿出这些资金的,绝不只梁文锋一个人,也不是只有他能找到这样的团队,大家都是躺平心态,都是跟着别人后面干。真正具备能力又能冲到一线去做的,很少。跟风、模仿、抄袭、快速变现思路”。张总说:“有一个顶尖大佬24年11月在世界大会上说,中国基上不会再一个openAi,中国的创业公司有很大的生存压力,最终只能被大厂收购,哪知道这么快就打脸了”。刘总说:“路径依赖,相信国外的叙事逻辑,认为要烧钱才能做出来,这个顶尖大佬比梁文锋高几十倍甚至几百倍的身价”。陈总说:deepseek一个做量化的,没有大厂知道它在做Ai,暗度陈仓了。 以下是我就这个问题,deepseek回答的,我做了一些修改。
国内大厂在开发类似DeepSeek这样的先进AI模型时面临的挑战,可以从技术、资源、政策和生态等多个维度综合分析:
### 1. **商业化导向 vs. 长期技术投入**
- **应用优先策略**:国内大厂(如阿里、腾讯、百度)更注重AI技术的快速商业化落地(如电商推荐、广告优化),倾向于选择已验证的技术路径,而非探索前沿领域的未知风险。
- **研发周期压力**:大模型需要长期投入(如GPT-4训练耗时数月至一年),而国内企业受季度财报和短期KPI驱动,难以容忍长期无明确产出的投入。相比之下,DeepSeek等公司可能以技术突破为核心目标,接受更高风险。
### 2. **数据质量与合规限制**
- **数据多样性瓶颈**:中文互联网数据的开放性和多样性弱于英文世界(例如,学术论文、开源代码、多语言内容的覆盖不足),且存在大量低质量或重复内容(如营销信息),影响模型泛化能力。
- **合规成本高企**:国内严格的隐私保护(如《个人信息保护法》)和内容审核要求,使得数据清洗、标注和使用的流程复杂化,增加训练成本。例如,训练数据需预先过滤敏感内容,可能削弱模型对复杂语境的理解。
### 3. **算力资源受限**
- **芯片封锁的硬约束**:美国对A100/H100等高端GPU的出口限制,迫使国内企业使用降级版(如A800)或国产替代(如华为昇腾)。以GPT-3为例,其训练需上万块A100芯片,而同等任务在国内可能需要更长时间或牺牲模型规模。
- **算力分配碎片化**:大厂算力资源往往分散于多个业务线(如云服务、视频处理),难以集中投入大模型训练,而初创公司可All in单一目标。
### 4. **人才结构与创新机制**
- **工程化人才主导**:国内大厂团队擅长工程优化和场景落地,但顶尖AI研究员比例低于DeepMind、OpenAI等机构。例如,Transformer架构的6位作者中无一人任职于国内企业。
- **创新文化差异**:大厂层级制度可能导致“服从性文化”,而突破性创新常需要允许试错的宽松环境。Meta的LLaMA团队曾透露,其成功部分归因于管理层对失败的高容忍度。
### 5. **政策与监管环境**
- **内容安全红线**:国内大模型必须内置严格的价值观对齐机制(如《生成式AI服务管理办法》),导致训练时需加入大量限制性提示词,可能影响模型逻辑推理的连贯性。例如,当模型涉及敏感话题时,强制转向模板化回应,降低输出多样性。
- **开源生态薄弱**:国内对开源社区的参与度和贡献度较低,PyTorch、TensorFlow等核心框架均源自海外,导致技术依赖。DeepSeek可能更深度融入全球开源生态,加速迭代。
### 6. **技术路径选择的差异**
- **跟随策略的风险**:部分大厂选择微调开源模型(如LLaMA)而非从头训练,虽降低成本,但可能导致技术天花板受限于上游模型。DeepSeek若从零开始构建全套技术栈(如自定义分词、分布式训练框架),则可能实现更深度优化。
- **多模态整合滞后**:国内大厂的多模态模型(如文心一言)仍以文本为主,而DeepSeek若在图像-文本联合表征等领域有突破,可能形成差异化优势。
### 7. **资本市场的耐心差异**
- **风险投资偏好**:硅谷资本更倾向支持高风险高回报的AGI项目,允许10年不盈利;而国内VC近年更关注“短平快”的变现模式,DeepSeek因为背靠幻方背景,可能获得更长期资本支持。
### 结论:系统性差距下的追赶路径
国内大厂并非“做不出”,但在技术突破效率上受制于上述多维因素。当前趋势显示,华为、百度等企业正通过“场景反哺技术”(如华为盘古在气象预测中的实战优化)和联合研发(如“中国大模型开源联盟”)逐步缩小差距。未来2-3年,随着国产算力提升(如华为昇腾910B)、数据飞轮效应形成,以及政策对基础研究的倾斜,国内有望出现更具竞争力的原创模型,但需在创新机制和生态建设上实现根本性变革。
数据有问题!
这他妈的是啥东西,胡咧咧
密码保护
美国这是着急了,应该还会有动作。
不知道这6万亿来自哪里?是不是供应链金融…