从上个月发现某个第三方AI站存在严重的安全问题后,加上出现了第一起AI拖库事件后我发现一个严重的问题:
AI站会不会安全措施都不怎么样?
所以,上个月开始,我对市面上几乎所有主流的AI站进行了测试,耗时22天,每天3小时,有了这篇帖子。
t0:o1-pro(初版最强,前提不降智,最近砍了很多次,和o3本体差不多),3(非mini,只能在deepresarch,目前最强);关于这两个讨论蛮多的,其实oai经常砍老版本的模型算力来填充给新模型
t1:Claude3.7-thinking,o3-mini-hight(不降智)
t1.5:o1系列(不降智且初版,现在已死)
t2:grok3-thinking,o3其他系列,Claude3.7sonnet,Gemini2.0-flash-thinking(英语限定),deepseek(中文限定,非长文限定)
t2.5:gpt-4.5
t3:grok3,Gemini 2.0pro
t4:4o
数学问题各有区别,oai和deepseek疑似背题
代码,写作方面Claude3.7系列独挡,4.5好像勉强也可以;长文处理和科学处理Gemini,搜索最新信息的话grok3系列,平均各项都过得去的ChatGPT除开4o和gpt4.5版本;deepreserch的话ChatGPT独挡;Gemini不是信息量问题是模型常年不更新,论外
审核最严格deepseek,中等GPT-4.5(o1o3没有解除限制吧?),放飞自我的grok3
日常使用,性价比最高deepseek和Gemini(ai studio,非app);对ui和信息上有追求的人就是grok3;抖m不怕折腾的话Claude和ChatGPT
赚钱的话:三大家+grok3全部都要
学习新技巧和论文的话:notebooklm和三大家
最近好多人问我如何评价 Manus
我会尝试反向问对方是什么感受
得到一个很有意思的观察是
大厂人往往会把其归结为过度营销
投资人则关注门槛是什么、商业模式是啥
创业者大多会兴奋、看到了机会
普通用户会迷茫:这是啥
媒体人更直接:有没有码
细思这背后,都是在看自己
大厂人担心丢了尊严,用营销解释容易心安
投资人是 FOMO,担心没投错过、投了亏钱
创业者是羡慕,希望下一个是自己
用户最朴实:这是啥,是最客观的评价者
媒体人,是在想着,怎么获取截图和流量
忙忙碌碌,皆是围绕自己
只有用户,保持着最朴素的好奇心:这是啥
区分机器人和人类的 reCAPTCHA 测试最初是卡内基梅隆大学的一个研究项目,Google 在收购该项目之后将其作为免费服务提供给客户,作为交换是使用网站的访问者免费训练它的视觉识别系统。因为 Google 的商业模式是广告,收集用户数据日益引发了隐私方面的担忧。
今天的 reCAPTCHA 已经很容易被机器人破解,但 Google 仍然继续提供这项服务,因为 reCAPTCHA 已成为 Google 的一个强大跟踪工具。加州欧文的前计算机安全研究员 Andrew Searles 博士与其同事 2023 年在预印本平台 arXiv 发表论文《Dazed & Confused: A Large-Scale Real-World User Study of reCAPTCHAv2》,发现 Google 广泛使用的 CAPTCHA 系统主要是作为一种跟踪用户行为和收集数据的机制,几乎无法抵御机器人。
研究表明,reCAPTCHA 监视了用户的 cookie、浏览历史和浏览器环境(包括画布渲染、屏幕分辨率、鼠标移动和用户代理数据)——所有这些都可用于广告和跟踪目的。对逾 3,600 名用户的分析发现,解决基于图像的挑战所需时间比解决复选框挑战长 557%,研究人员得出结论,reCAPTCHA 耗费了社会约 8.19 亿小时的人力时间和价值 61 亿美元的工资,同时通过其跟踪功能和数据收集创造了巨额利润,仅跟踪 cookie 的价值就估计为 8880 亿美元。
今天,我们宣布支持一项由 Cloudflare、Apple 和 Fastly 工程师共同撰写的新 DNS 提议标准。该标准将 IP 地址与查询分离,从而没有任何单一实体可以同时看到这两者。
更好的是,我们已经公开了源代码,任何人都可以试用 ODoH,或者运行自己的 ODoH 服务!
Claude相比于Deepseek的几大优点:
- 幻觉低,详见帖子(这么看Deepseek-R1简直没法用)使用Deepseek-R1写作时要慎重——幻觉率太高
- 如果不用R1只用V3,那Claude(非思考)完胜,这个我刚试完,这俩回答上简直不是一个等级
- 因为R1幻觉太高所以不敢用,而Claude的思考模式和非思考模式的幻觉基本一致,因此你可以敞开了思考,问题不大
- Claude支持PDF,你可以直接给他传一份PDF完事,简单方便;Deepseek只能文字,那个识图就是个摆设,只能文字OCR效果还不咋地
顺带一提,有人知道怎么把PDF的文字提取出来,复制粘贴给AI吗?主要是公式太烦人,复制就是乱码,OCR也不准,很头疼 - Claude输出很高,128K;Deepseek就算是火山方舟的也只有16K,而且R1的一个奇葩状况,就是无论你怎么设置、怎么诱导,他都给你输出2K以下,最高最高也就3K,不会再涨了。这个应该是模型自身的问题,用户这边怎么设置也不管用
综上,Deepseek就俩优点:便宜、对中文支持好。因此他适合量大、长文准确度要求不高或者对中文特殊标准的任务,最符合这俩要求的就是翻译。
然而写论文要求的高准确度和高标准,他是完全不符合。别看简中网给他吹上了天,实际效果还得靠自己试。你用它写论文算是掉坑里了
最后我还得提一句,我没用o1写论文,主要是太贵了——Azure基本用不了,官转的价格相比Claude贵两三倍,但是效果来看跟开了思考的Claude差不太多,所以我就没用
谁也成为不了中国的 YouTube
在用户的眼里,YouTube 是开放的视频社区,是可以跳过广告的大慈善家,是功能设计一流的顶级产品,是如抖音一般精准的长视频推荐流。YouTube 是所有视频用户的应许之地。所有长视频网站如果体验不好,一定是因为它“不像YouTube”。
但 YouTube 不是慈善组织,作为一门生意,YouTube 的本质是什么?是精准的广告投放吗?是超高比例的创作者分成计划吗?是厉害的自制频道吗?
都不是,YouTube 的商业逻辑很简单:一个几乎不用交网费的视频网站。
中国人为什么不团结?
说中国人不团结具体来说是表现在亲族之外,亲族之内还是很团结的,至少在工业化之前的农业社会是这样。
但亲族之内的团结,更多的是一种天然的亲情和利益联盟,与现代意义上的社会化团结,还是有很大的差别。
而我们平常所说的中国人不团结,更多的是指处于社会化的大环境下,彼此勾心斗角,甚至在面对共同的外国敌人时,也是如此。
如果我们结合中国的历史来看,其实也并不难理解。
因为中国社会几千年来,就是皇权加亲族的共同体。皇权是直接面向家族和家庭统治的,国家和社会得以维系的基本方法就是家庭和家族向皇帝效忠。
在唐朝以前还有世家门阀这种地方上的主宰势力,但世家门阀被科举制下文官集团挤出历史舞台后,所有人都直接面向皇帝,整个社会就彻底的转变为以家族为单位的原子化形态。
而我们距离封建皇权倒台,也不过才一百多年的时间,要想在这短短的一百多年间改变过去一两千年的社会组织习惯是很难的。想要建立一个依靠普通人之间相互忠诚的组织化社会,还有相当长的路要走。
而具体需要哪些东西才能将这样一个原子化的社会粘合在一起,还需要相当多的探索和试验。但有一定可以肯定:单靠民族主义是行不通的,它只能保证大家在安全问题上的共识但并不能促进彼此在利益上的忠诚。靠阶级叙事就更不行了,这玩意儿天生就是群体分化的大杀器。
我们的物质现代化可能已经到了一个相当高的水平,但我们的组织现代化,还早得很。
中国最近几百年来最大的问题就是皇权社会下因为持续的弱民、疲民政策导致社会各阶层人民的原子化,相互为敌,互不团结。以至于长期内耗削弱了自身实力从而屡屡给了外敌以可乘之机。
这是一个长达两千年的积弱过程,至少要花两百年时间来修复。但很可能两百年时间都不够,因为中国人至今都还没有意识到这个问题,何谈修复?
虚假的爱国:吹嘘高负债+高强度工作的建设成果。看爱国自媒体赢赢赢,再跟吸嗨了一样键政,跟发达国家田忌赛马
真正的爱国:学习,提升技术,高薪工作;纳税,交社保,高消费,买房结婚生子生二胎三胎
互联网上所谓爱国不过是赛博瘾君子披着粉红的外衣罢了,看到他们跟看到现实中吸毒的人一样令人厌恶