为什么我感受不到计算机专业是建立在基础学科上的_-invalid s

微弱？

给你讲个故事。

当年，中文输入是个极大的难题。

这个难题有两个解决思路：

一是五笔字型，搞一套很难记的规则，给所有汉字一个不重复的编码。这个办法输入速度非常快，但只有专业打字员用，需要很多练习；

二是拼音输入，计算机显示所有同音字，用户选择自己需要的那一个——计算机甚至能自动调整字频，把常用字词显示在最前。

但无论如何折腾，拼音输入的重码率都太高了，需要不断的选择同音字，因此输入速度怎么都上不去。所以只有业余玩家用它，唯一的好处就是不用刻意学，上过小学会拼音就会打字。

总之，当时，你到大街上随便找一家“电脑培训班”，它的重要业务之一就是教你五笔输入法。

那么，能不能进一步提高拼音输入的速度，让人不需要专门训练就会打字呢？

可以。词组输入。就是每次不是只输入一个字，而是输入一个词。

相对于同音字，同音词就少多了，输入速度自然增加。

为了吻合到更多词，当时国内的输入法公司，包括微软、包括紫光拼音，走的都是“疯狂搜罗更多的词汇”乃至“区分不同领域的专业词汇”以及动态调整词频的路子——换句话说，走的是词输入这条路。

但，对于句子中的单字，这个办法仍然无法提高速度。

后来，国内一家公司来了个大力出奇迹：它把一切能搞到的中文资料，从报刊到小说，所有的句子都录入计算机。

现在，你只要一次连续输入整个句子，它就能自动帮你匹配到某一句现成话——或者，匹配半句话也可以很好的提高输入速度。

为了准确匹配，这家公司的输入法带了个巨大的词库——在当年主流硬盘容量只有20G、Windows安装后不到1G的时代，这个输入法的词库超过了300M！

这个输入法较好的解决了拼音输入速度的问题；但缺点是，如果你说的话，之前没有人说过，那就又回到了解放前。

而且，它的词库实在太太太太大了——还得付费！

不掏钱，你就只有一个二三十兆的小词库用，整句输入就大打折扣了。

也有高校做其他方面的探索。比如，自动分析句子结构，主谓宾定状补，然后计算机选择符合语法的句子，这个句子……大概就是你要说的话了？

但这个分析非常难，效果也很差。

事实上，当时的这个领域，全世界都还处于探索阶段，根本就没有可用的产品 。

总之，当时，国内大大小小二三十家输入法公司，没人能解决这个问题；其中最令人耳目一新的，还就是那个大力出奇迹的“智能狂拼”……

智能狂拼是当时国内唯一可以有效输入长句的拼音输入法 ；包括微软输入法（12年它才和哈工大合作，之后整句输入才慢慢跟上），在当时几乎没人用，闪退太多（可能原因是微软炫技，非要把待输入文字显示在文档里面、以下方虚线和正式文字区分：这的确很酷，但经常在移动光标时崩溃、导致文字处理软件跟着闪退。别说它没有整句输入能力，就是有，凭这闪退的劲儿，我也不敢用它）。相比之下，还是紫光拼音更稳定一些，是当时我的首选（本来首选是智能狂拼，但早期安装包我没保留，之后就成付费软件了）。但它们都是词组输入法 （紫光拼音到现在都只能词组输入，不支持整句输入）——真正想快、想整句输入，就只有智能狂拼一家。

但智能狂拼的语料库实在太大也太贵了……

就在这时，google搞了个google输入法。

这个输入法基于马尔科夫链原理：假设第一个字是什么，那么它后面跟读音为输入内容的另一个字的概率是多少、然后第二个字后面跟第三个字的概率是多少……

最终，机器自动计算出一个“所有字出现概率最大”的文字序列出来，提示给用户——这个序列，往往就是用户想要输入的句子。

实际上，google刚开始把这个链搞到了六阶。也就是第一个字是什么后面是某字的概率叫一阶，那么第一到五个字是什么、第六个字后面是某字的概率叫六阶。

显然的，阶数越多，词库就越庞大；而google发现，只需二阶马尔科夫链，计算机自动选取的语句符合用户心意的概率就足够高了。

所以，最终，它的第一版带的语料库就非常小，但表现却非常精准。

换句话说，和智能狂拼一样，google收集了海量的中文语料；但和智能狂拼不一样，google在语料库上面应用了统计学，借助概率实现提示。

如此一来，google的词库只需几兆、至多一二十兆大；但提示正确率却远超智能狂拼——而且，它还不限定你必须说前人说过的话，而是允许你灵活造句。因为它统计的是一个字后面跟另一个字的概率，并不是“和哪句前人说出的话重叠”。

更有趣的是，Google输入法不光是完全免费的、还在不久后把整个技术原理公开出来，于是整个中文输入法的水平一下子提升了一大截——以至于这些年来，几乎没人从头学五笔输入法了。

事实上，和评论区一些热衷名利的低能儿鼓噪出来的魔幻历史不同，当时全世界各国的语言专家都在研究人类语言的计算机模型，但全都局限在传统的“语法”“词性”“变格”等等东西里面，以至于相关领域没有任何先例、更没有任何成品。

药店碧莲。

google是全球第一个彻底抛弃了传统语言模型、以纯数理统计搞人类语言的开创者。

之后，有人还基于类似原理，统计对联中上下联对应位置的字的出现概率，实现了“电脑对对联”甚至“电脑作诗”……

至于现在，全球语种的语音识别、不同语言的实时识别和翻译，google仍然是一枝独秀。

原因就在于，它是全球第一个把统计学扶持到语言学领域核心位置的先驱，也是第一个重新捡起已经凉掉好多年的神经网络并重建理论体系、成功拿它来下围棋、搞语音识别的公司。

正因为这个方面的积累，google的翻译服务至今都还被“特许访问”：

这是唯一一种无需技术手段、在大陆可以直接访问的google服务。

要点碧莲。

再讲一讲Google盗用搜狗词库这件事。

当时中国还是全民盗版时代。我们压根就没有版权意识。
智能狂拼这么好的输入法，最终其实就败在收费上——别人都是给你免费用（因为那时候我们就没有为软件付费的想法），就它，要你掏钱买词库。

我们那时候，包括各大企业、包括其他要害机关，几乎全都在公然使用盗版的Windows、office以及mssql数据库、vc5.0/6.0等等等等。
我那时服务过的公司，除了极个别较为讲究的，如HW，别的几乎都是全公司用盗版——当时的程序员普遍认为，只要网上能找到的，就可以用到我的计算机上、放进我的程序里面的。
亦因此，当时一些较大的公司，内部往往会专门开发一种软件，要求所有员工安装在自己电脑上；这些软件会自动监控你电脑上的进程列表，一旦发现违规软件，公司马上就会追查、要求删除，严重违规的个人也会被警告甚至辞退，且需自己承担损失。
其中，违规软件主要就是盗版——你用盗版，公司就得赔。
但只靠这种软件也无法绝对阻止员工用盗版；所以公司还会不定期的安排人过去检查，以免有人有意无意违规，给公司造成损失——至今都记得，IT部负责人动不动发邮件，要求所有人运行“软件合规检查工具”、并把工具生成的报告作为邮件附件，回复给IT部门。
这个报告我打开看过，各公司都差不多。里面大概包含四大类软件。
一是公司给每个人购买了的正版软件，如Windows以及它自带的记事本画图等等。
报告会携带它的序列号，大概是为了检查有没有哪个脑子有坑的家伙把自带正版搞成盗版、给公司惹来麻烦（别笑，这类人在当时比比皆是；甚至哪怕现在，好好的预装正版Windows10不用，非要找电脑城伙计装成盗版win7都大有人在）。
二是需要部门/个人申请的、工作需要的商业软件，如sublime text等。这类软件出现在软件开发人员的电脑上是合规的；出在销售/采购或者其他人的电脑上，是违规的。
这类软件IT部留有申请记录，软件可以据此自动判断是否违规。
三是知名的常用开源或免费软件。这类软件经常是可以安装使用的，但理论上需要先和部门经理打个招呼。
四就是其他未知软件了。比如软件团队自己开发的新软件，工具不能识别，就可能也给标记出来、显示为黄色。
报告中，合规软件标记为绿色；可能不合规的显示为黄色，要求员工自己审查是否合规、自担风险；违规软件显示为红色，员工禁止安装红色违规软件，查出来问题就大了。
有的公司还会检查诸如网络嗅探工具、ARP欺骗工具等可能导致公司信息泄露的软件，这类软件也会标记为红色。
在这个背景下，Google输入法被人发现，它的词库抄袭了搜狗——里面发现了搜狗的识别词（一些根本不是词的文字组合，专门放在词库里面，追查有没有人盗用词库的）。
在当时，国内输入法公司也和其他一样，彼此抄袭成风，整天不是这个抄那个就是那个抄这个。结果没想到连google也黑化了。所以当时就引起了极大关注。
引起关注的原因是，Google等外企一向是非常守规矩的；因为一旦侵犯版权，在国外，必然被判处海量赔偿。而在中国，它们——尤其是微软——向来是进攻方，动不动就告这家公司侵权那家公司盗版。
现在，它自己犯事了。你猜我们看不看笑话？
很快，三天后，4月7号，Google就发言道歉了，只是形式不够正式；之后又按照搜狐要求，发布专门的公开信再次正式道歉：
再炒谷歌中文输入法抄袭事件:谷歌公开道歉了 – Blog Behind GFW

同时，有传闻说，盗用搜狗等输入法词库的是一名中国员工。
大概原因是，Google搞的是基于统计的整句输入法，它只有语料库，语料库只有“字与字偕同出现的概率”，根本没有任何词汇（或者说“词库”）。
这就使得，当用户按照过去的习惯、做词组输入时，会发现这款输入法词汇量极低、命中率极其糟糕。于是Google公司就安排任务，让这位程序员解决词组输入问题。
谁知，这位基于一贯思路，直接解析了其他公司的输入法词库、然后原样拷贝进去……
这个说法，当时业内认为可信度颇高。
之后，搜狐接受了道歉，没有采取进一步行动。
这是因为，在当时，版权诉讼非常难，旷日持久、劳民伤财——这是我们对付外国公司版权诉讼大棒的手段之一；但相应的，也使得我们自己彼此抄袭盗用时，只能在网上唇枪舌战一番，极少诉诸法律、要求赔偿。
注意，当时国内除了智能狂拼，就没人做整句输入。他们做的都是词组输入；技术要点是：
1、更多的词汇 ；
2、词汇分类 ；
专业用户有专门的专业词典——更多的词典反而会造成命中率下降，因此你搞化工的话，最好别导入IT词汇或者建筑业词汇，不然效果适得其反；
3、动态造词 ；
比如我所在行业有个词叫“鲁棒性”，词库没有，那我就把这三个音同时拼出来、然后选字；选完，输入法就把这个词录入词库（早期可能没有这么智能，需要用快捷键加入用户词库；后期大多玩整句输入了，也没法自动组词了；只有词组输入最兴盛时有这个）。
4、动态调整词频 ；
比如，jixu可能对应“继续”“急需”“积蓄”“几许”等词；哪个词出现在第一位、可以让用户直接敲空格输入呢？
如果输入法总能保证用户想要的词在最前面，那么输入效率自然就会高很多。
这时候，就有两种技术，可能同时使用：一是自动统计用户选哪个更多，基于最近最少使用原则淘汰不太热的词、把热词提前；二是允许用户手动指定哪个词应该更靠前。
你看，哪来的语料库。
有语料库的，第一个是智能狂拼，然后就是Google输入法。其他输入法还没有进入整句输入时代（微软输入法只有形，实质上仍然是词组输入，完全不是智能狂拼的对手）。
这些词组时代的输入法，它们就只有词库，根本没有什么“语料库”。
当然，语料库这个词出现的挺早；但它指的是海量的、来自报刊杂志或其他文件的电子文本，并不是分析后、标注了频率信息的“语言模型”。
事实上，通过一定的统计学算法，是完全可以自动从语料库中提取出各种词汇的——整句输入时代，这个技术是非常必要的。但遗憾的是，起码我经常用的微软输入法就做的非常差，基本不会自动把我经常敲的新词加进词库；而且，即使某个词被偶尔加入了，过不了几天往往也会丢失。

我能理解“看Google出丑”这种事有多好玩；但不要用屁股决定意识。

要点逼脸！

不说这种一下子影响一整个行业的大事件；我自己的工作中也曾遇到过一个简单问题，大概是根据不同策略计算用户的偏好指数，根据偏好指数帮用户自动选择商品。

我粗略的估计了一下不同因素的影响，随手给某个因素取了个对数；然后调整了一下值域，不同策略就是不同的系数（权值）乘以不同的因素的某个函数值、然后把所有的乘积加起来，这就可以给每个条目打分了。

这个东西做出来，测试团队马上发现我的程序表现的极其灵敏且符合预期，于是马上通过了。

之后，我接手了其他项目，这个项目就给别人接手维护了。

几个月后的某天，他们发现策略失效了。要么极其迟钝，怎么调都不切换；要么过度灵敏，差一丁点就在几个商品间猛跳……总之完全没有规律，怎么都达不到预期，只好过来找我。

我一看，计算分值的函数给改了，傻乎乎的就那么直接乘了系数然后加了起来。我就问谁改的？为什么要改？

一个同事就站出来，说是他改的。原因是，让他增加一种策略，他就去看需求，上面说让按一定权重计算几个因素的影响，累加出分值；然后他发现我做了很多莫名其妙的计算，觉得又浪费性能又看不出意义，就给改了……

我晕了：你就没看看这几个因素的物理意义吗？用户究竟对什么感兴趣？这个参数，它其实是用户真正感兴趣的另一个值的平方，算它的影响是不是应该先开方？这个因素，它其实相当于能量值，而用户心理上真正能区分的是能量值的对数，取个对数才符合用户心理预期……最后，为什么要给它们各自乘一个值？因为你要先估计它的值域，然后用这个系数把它们的值域调整到同一个区间；映射到同一区间之后，加权，累加，这样才能让每个因素按权值体现在总分中……但我们这个计算并不需要很精确，所以我把系数改成了2的幂，这会被自动优化为移位操作，耗时更少，但偏差不大，可以接受。所以最终我敲的公式是这样……这个我写注释里面了啊，你干嘛要改？

他听的两眼翻白，更晕乎了：越听越糊涂了……还是不明白为什么要这么算？而且我看你的注释和你的计算公式不一样啊？

我：几个因素的加权评分并不能随便乘个系数加起来。我的注释不是写清楚了吗？你得先把每个因素对用户的偏好的影响整理成一个正比例函数。我们的需求比较粗糙，不需要严格的正比例，粗略的像一条直线就行。然后，把每个因素对应的偏好值的值域调整到0到1之间，这样它们加起来才不会掩盖某个因素、或者过于凸出某个因素，才能让每个变化立竿见影的反映到“偏好指数”上……换一个说法，看我的注释，第一步，我们先把每个因素的取值和用户偏好值之间的关系搞成线性的；第二步，给它们统一到某个值域；第三步，加权，求和，算出综合评分……好了，列出公式了吧？当然，接下来的我没有写进注释，但做了多年软件工程师的应该都知道啊……这个公式太多浮点运算了，计算机处理起来很慢，所以，我们先全都给它弄成整数运算，喏，放大值域，从0到1放大到0到65535，放大值域就是同步增大这个系数……然后，我们不需要算的很精确，所以可以把系数就近取整到1024这样的二进制整数，方便编译器优化成移位……行了，我原来的公式是不是这个？现在再拿测试数据试试……效果对不对？

这位晕乎半天：……我回去再想想……有什么书讲这个吗？

我：哪有什么书。自己稍微动下脑子就弄出来了，还值得写到书上……

经理：你不知道意义就不要改啊……搞的大家焦头烂额的。都注意了，正常运行的东西，你们不懂就不要碰。真有个任务需要你动了，先问，看看有没有人知道为什么，不弄明白不要贸然动手。

这个案例实际上仅仅涉及了高中知识。但很遗憾，我看出来了，其实在场的除了经理，就没别的人能听懂……

而另一个更牛X的领域，Google的发家之作，著名的PageRank算法，实质上和这个是类似的思路——只是要把人家的思路顺下来，你得深刻理解线性代数……

谷歌背后的数学 (changhai.org)百度创始人李彦宏如何拥有搜索引擎核心技术的？为何世界上只有四个国家拥有搜索引擎核心技术？

计算机专业就是这样。你不懂，你感受不到，那么你随便怎么做都不会对；但你懂了，你闭着眼睛随便敲，敲出来的公式就是能解决问题——不懂的人永远不会知道自己错在哪里、错过了什么。

评论区

Ivony: 然而Google输入法实锤是抄的搜狗……原理没有错，但是Google在这个事情里面，一是起步非常晚，二是手段相当不光彩。Google起步晚是因为事实上这个原理微软十几年前就在搞了，李开复之前就是搞语音识别的，本质上语音识别就是音韵->拼音转换+拼音->文字转换。但是微软在互联网一直没有建树，就没有语料库，微软的想法太传统。语料库分什么行业搞人去搜集。直接在互联网爬语料库，其实也不是Google的首创，而是搜狗搞出来了，连QQ都跟进了，Google才后知后觉的注意到中国市场，来搞这个事情 👍🏽707 💭广东 🕐2022-07-30 23:50:01

│ └── invalid s: google的确抄了搜狗的词库；但用马尔科夫链搞整句输入这个关键创新是google搞的，之前没人搞。 👍🏽454 💭广东 🕐2022-07-30 23:56:50
│ │ └── 观星: 我听说马尔可夫链有多个用途，一个是你说的看下一个字最大概率，另一个是纠正拼写错误。比如的拼音是“biru”但是你打“boru”第二个词也是比如，这也是用概率弄出来的，它推测IO键盘上太近，你有可能按错键了。 👍🏽13 💭广东 🕐2022-07-31 09:00:17
│ │ │ └── invalid s: 手机上用的比较多。软键盘太小太容易误触了。后来Google还搞了个牛X的：你用手指在软键盘上来回滑动，滑过需要输入的每个字母，它就能自动选择你想要输入的东西……不过后面这个需要能上google play，国内一般人接触不到。 👍🏽3 💭广东 🕐2022-07-31 11:19:52
│ │ │ └── dawnbreaker: 划过每个字母输入iphone就可以，不过个人感觉不如双手拇指并用快 👍🏽0 💭美国 🕐2022-08-01 17:07:10
│ │ │ └── 白空: 我记得以前安卓机上用过这种啊，忘了哪个输入法了，感觉比正常按慢多了，不知道是啥需求整出来的功能 👍🏽0 💭广东 🕐2022-08-02 10:14:56
│ │ └── 下雨天打伞: 其实紫光拼音的准确率就非常高了，搜狗我觉得差异很小，谷歌也一样智能狂拼还行，但是响应慢一点，好处确实它算比较早的作品了但是之后的紫光拼音基本已经能达到现代拼音输入法要求了 👍🏽14 💭福建 🕐2022-07-31 09:03:51
│ │ │ └── 数沙社: 最差的就是苹果输入法了吧？每次被气到爆炸！[捂脸] 👍🏽15 💭浙江 🕐2022-07-31 09:22:19
│ │ │ └── 八怪霸王: 啊这（苹果打的） 👍🏽0 💭北京 🕐2022-07-31 10:59:24
│ │ └── HydePark: 微软比搜狗和google都早采用hmm 👍🏽8 💭山东 🕐2022-07-31 09:35:30
│ │ └── 勇气: 老哥不是搞nlp或者机器学习的吧…马尔科夫链应用于nlp上世纪就在用了[捂脸] 👍🏽30 💭北京 🕐2022-07-31 11:33:36
│ │ │ └── 袁词媚: 上个世纪就在用马链的话，为什么是Google出的成果呢？而别家，比如中国人没出成果？怎么解释？ 👍🏽0 💭湖南 🕐2022-08-01 12:06:27
│ │ │ └── 知乎用户v8w0xA: 老哥，你要不要再看看你说的是啥？人家将nlp你在讲东西方？ 👍🏽1 💭上海 🕐2022-08-01 12:45:14
│ │ │ │ └── 袁词媚: 老哥，你要不要再看看你说的是啥？我什么时候讲了东西方？show me. 👍🏽0 💭湖南 🕐2022-08-01 14:02:01
│ │ │ │ └── 知乎用户v8w0xA: 而别家，比如中国人没出成果？ 👍🏽1 💭上海 🕐2022-08-01 14:43:03
│ │ │ │ └── 袁词媚: 这是你的问题吧？“中国人”与“东西方”，没一个字一样吧？所以，我确实在讨论算法，是谁引入了东西方概念呢？ 👍🏽1 💭湖南 🕐2022-08-01 20:55:48
│ │ │ └── ji4ming2: 机器学习比较依赖数据集。有互联网以后搜集整理数据比较方便。 👍🏽1 💭江苏 🕐2022-10-06 18:34:05
│ │ └── 流浪之歌: 李开复（没错，就是后来的谷歌大中华区总裁）在 1990 年的时候就发了一篇论文，做了一个叫 Sphinx 的、基于马尔科夫链的语音输入法，准确率从 31.1% 提高到 76.1%。而谷歌 1998 年才成立，李开复 2005 年加入谷歌。这就是你所谓的“google是全球第一个彻底抛弃了传统语言模型、以纯数理统计搞人类语言的开创者。”“相关领域没有任何先例、更没有任何成品。”？再往前追溯，大家公认 1975 年的论文 Stochastic Modeling for Automatic Speech Understanding 是第一个把马尔科夫链带进语言学模型的。谷歌还有更早的论文吗？ 👍🏽19 💭美国 🕐2024-02-08 16:32:35
│ │ │ └── 踯躅的卧槽马: 我仔细研究了一下，大概理解答主意思是说把马可夫链用在拼音的长句输入领域，是谷歌的独创[思考]。但是实际上这个最多算一个应用型创新。在搜狗拼音之前，中文输入法领域，你会看到要么是小公司，要么是个人在搞。主要原因就是商业价值未被发掘，是一个很偏门的领域。没人把nlp的最新技术应用过来很正常，里面的玩家都不是这个领域的。是搜狗拼音第一次发掘了输入法的商业价值，看到了这是一个个人流量的最早入口，这才让大公司蜂拥而入，那个时代，不仅有了搜狗，谷歌，腾讯，我还看到过新浪，网易这些输入法。 👍🏽0 💭江西 🕐2024-07-19 07:57:26
│ │ └── 毕达哥斯拉: 关键还是大数据的支持，马尔科夫链这个思路不算清奇。 👍🏽2 💭上海 🕐2024-05-10 17:56:55
│ │ └── 踯躅的卧槽马: 那我比Google牛逼多了，在Google输入法推出前好几年我就在用隐马尔可夫链做自然语言处理了。[飙泪笑][飙泪笑][飙泪笑][飙泪笑]。马尔可夫链做自然语言，那是90年代发展起来的热门技术，别说这些企业，就连我这种当时研究生都在搞，把他归为谷歌的功劳，李开复自己都会脸红。另外，别把谷歌输入法抬太高，那是当时谷歌中国急需干出点业绩而玩的项目，纯粹在搜狗出来后赶的热潮。而且就实际效果来说，我没觉得比微软，搜狗这些输入法强到哪里 👍🏽3 💭江西 🕐2024-07-19 07:47:12
│ └── 胖师兄: 拼音输入法最早实现质的突破的是拼音加加（廖恒毅，中文之星2.0作者，后加入微软，离职后开发了拼音加加），然后是紫光拼音、智能狂拼，再后来才是微软拼音、搜狗拼音，最后加入的是腾讯和Google。 👍🏽16 💭山东 🕐2022-07-31 10:11:14
│ │ └── 淡定淡定: 智能狂拼在出正式版之前很久就有测试版，可能98年？拼音加加不一定比它早吧？ 👍🏽0 💭浙江 🕐2022-07-31 14:17:46
│ │ └── 胖师兄: 拼音加加是2000年初就开始在网上流传，当时发布的公司叫六合源；智能狂拼是2000年7、8月发了几十万套测试版。 👍🏽0 💭山东 🕐2022-09-12 07:29:46
│ └── Welkin Hu: 搜狗的前几个版本就是复刻的拼音加加，不过搜狗比拼音加加卡多了[捂脸]要不是拼音加加停止更新导致Win10后无法使用，我愿意一直用拼音加加，干净简约又好用，资源占用还低[调皮]现在无奈用手心，自己做了拼音加加皮肤，导入了拼音加加词库 👍🏽0 💭天津 🕐2022-11-29 00:42:22
│ └── 知乎用户4uMI2s: 搜狗那套方案抄的拼音加加。不讲算法，拼音加加才是现在所有拼音输入法功能方案的鼻祖 👍🏽1 💭贵州 🕐2024-05-24 13:15:50

Ivony: Google输入法的初始词库扒的搜狗，这个事情相当的不光彩，被实锤了是因为搜狗里面有放识别词（说白了就不是词，专门用来识别有没有人偷词库的）。 👍🏽465 💭广东 🕐2022-07-30 23:51:33

│ └── invalid s: 并没有那么“不光彩”。07年4月4日google发布了自己的输入法，随即被人指出它盗用了搜狗的词库；4月7日，Google发表声明，向搜狗道歉，并确认问题是项目组中国某员工导入了搜狗词库，之后就清除了搜狗词库内容。 👍🏽202 💭广东 🕐2022-07-31 00:32:18
│ │ └── 陈默: 我在谷歌道歉以后呢，用谷歌输入法，输入了我之前搜狐同事的名字，忘了叫什么了，直接出来了，不是常见的姓氏。 👍🏽5 💭河北 🕐2022-07-31 18:29:57
│ │ │ └── 靓仔鹏: 现在的拼音输入法会把通讯录人名视为词组。 👍🏽0 💭广东 🕐2022-10-27 13:52:52
│ │ │ │ └── 陈默: 你说的是现在。我说的是手机上还没有搜狗输入法的时候 👍🏽1 💭天津 🕐2022-10-27 14:14:37
│ │ │ └── 夏尔谢夫: 当年又不流行hotfix，它道歉了你不更新你的软件，你用的还是老的版本啊。 👍🏽0 💭上海 🕐2024-05-11 14:15:56
│ │ │ └── 陈默: 那是不是老版本有什么关系？是说谷歌新版本删掉了作案证据么，那他当时最起码没有把你说的这个版本放在谷歌中国的官网上，我是在道歉之后去http://google.cn下载的。之前就没用过。 👍🏽0 💭河北 🕐2024-05-11 15:59:24
│ │ └── 随风: 鞠躬了吗？90度吗？[惊喜] 👍🏽4 💭北京 🕐2022-08-02 10:48:04
│ │ └── wyfyw: 读书人的事，怎么能说“不光彩”呢[大笑] 👍🏽2 💭美国 🕐2023-01-03 03:29:07
│ │ └── 风子: 偷了就是偷了，被抓后拿什么员工个人行为开脱，这个和拿“临时工”背锅有啥不同。 👍🏽0 💭四川 🕐2024-07-18 20:05:04
│ │ └── 云天明宇宙系统: 但是谷歌翻译确实不咋样，不会联系上下文 👍🏽0 💭湖北 🕐2024-07-19 23:04:22
│ └── Cid Cui: 我记得最清楚的就一个：冯（píng）巩，取自暴虎冯（píng）河。实际上该怎么读大家都知道 👍🏽3 💭河南 🕐2022-07-31 12:58:54

okstar: 大多数人（程序员）认为程序就是控制（if-else），但实际上程序=算法+数据结构。然而无论算法还是数据结构，本质都是数学。 👍🏽179 💭广东 🕐2022-07-31 01:42:41

│ └── 非死不可: 应该不至于吧，有点经验的程序员应该都知道程序的核心就是算法或者模型。 👍🏽5 💭山西 🕐2022-07-31 05:45:56
│ │ └── 清茶: 都不是，程序的核心是业务。再好的算法、模型，处理业若是处理不好业务，那也是白搭。再烂的if-else，只要业务处理不出错，那就是好程序。 👍🏽147 💭江苏 🕐2022-07-31 07:09:54
│ │ │ └── 壹米宽的信仰: 任何程序问题，最后都可以归到数学或物理模型中。业务要实现也得抽象成模型。 👍🏽6 💭四川 🕐2022-07-31 10:06:51
│ │ │ └── 君莫问: 计算机的本质就是数学计算。本质[飙泪笑] 👍🏽0 💭广东 🕐2022-08-04 10:08:59
│ │ │ └── 君莫问: 业务不是核心，数据结构和算法才是核心 👍🏽0 💭广东 🕐2022-08-04 10:10:03
│ │ │ └── 207777777: 业务是产品经理应该操心的事，搞技术的就应该专心技术。程序员操心业务，最后技术是半吊子，业务能力也是半吊子，然后35岁去哭哭唧唧[doge]。 👍🏽1 💭北京 🕐2022-10-05 22:02:14
│ │ │ └── Japhasiac: 不完全如此吧。所谓业务，可以认为是对现实中特定问题领域的理解，其实未尝不是广义上技术的一部分。狭义的技术，可以是各种实现相关的知识和能力，是将业务理解转为合理实现的必要条件，两者肯定不是二元对立。其实按这个理解，数据结构和算法是为业务服务的，能完美表达业务所需信息的数据结构+能完美满足业务需求的算法，就是完美的程序。[doge] 👍🏽0 💭广东 🕐2024-04-17 23:24:19
│ │ └── 苟三: 大多数程序员感觉还是在盖房子，真正组织算法与数据结构的人是在画图纸，你就说现实中是盖房子的多还是画图纸的多吧 👍🏽52 💭湖北 🕐2022-07-31 07:28:49
│ │ └── 黄裳: [捂脸] 感觉大多数程序员在调api，在crud 👍🏽9 💭福建 🕐2022-07-31 08:12:33
│ └── HelloWorld: 好多教材上定义就是，程序＝数据结构＋算法 👍🏽3 💭河北 🕐2022-07-31 08:26:06
│ └── 蓟城暮玫: 跟数学没太大关系，非要扯数学那就跟中学级数学有点关系，但仅限于某些程序。 👍🏽1 💭加拿大 🕐2022-07-31 12:42:11
│ │ └── 无言: 算法和数据结构就是数学中的概念运用在程序中的，你不会不知道吧 👍🏽1 💭福建 🕐2024-04-28 20:18:02
│ └── 满地找月牙: 算法+数据结构也是一堆的ifelse，只不过看你咋凑 👍🏽1 💭北京 🕐2022-07-31 17:06:13
│ └── 复利格: 程序员也是多样化的，就像数学家也有很多细分领域，为啥一定要用一套标签来认知程序员呢? 做业务的是写代码是程序员，做基础软件是程序员，做中间件是程序员，做前端是程序员，做算法推荐排序是程序员。。。 👍🏽5 💭浙江 🕐2022-08-01 09:59:19
│ └── Tony: 我的理解，会写ifelse，好比会写字。数据结构和算法就是写文章的灵魂。业务是写字的目的。目的是写网文赚钱，还是写公文，还是马屁文，还是真喜欢写文字，这里面的差别就大的。 👍🏽1 💭江苏 🕐2022-09-23 11:07:16
│ └── 凉风: 而且大部分人对数学的认知就是计算器的计算原理[捂脸] 👍🏽0 💭中国香港 🕐2024-01-10 13:58:43
│ └── 初代大虾: 前十几年需求太大导致水货程序员太多 👍🏽0 💭广东 🕐2024-05-11 09:40:02
│ └── codart: If else其实远比任何算法和数据结构都重要[大笑] 👍🏽0 💭安徽 🕐2024-07-26 23:57:53
│ └── 小狮子: 看从什么方面理解吧，算法离不开控制流的，和什么重要没关系，控制逻辑建立代码，代码建立算法。比较这俩就跟比较是细胞重要还是细胞构成的生物重要一样无聊，其实是忽略了事物之间的联系。 👍🏽0 💭北京 🕐2024-08-07 19:22:45

虾蟆的神经细胞: 无量纲化处理和线性拟合吗，我觉得高中应该还学不到这些统计建模的知识吧[捂脸] 👍🏽191 💭重庆 🕐2022-07-31 00:13:14

│ └── 屋里蹲的阿发: 大学吧，数学建模，无量纲化处理，归一化处理 👍🏽97 💭四川 🕐2022-07-31 01:35:03
│ └── 天鹰53456: “哪有什么书。自己稍微动下脑子就弄出来了，还值得写到书上……”[大哭] 👍🏽63 💭美国 🕐2022-07-31 16:16:50
│ │ └── aura blue: 过于简单，过程略 👍🏽0 💭江苏 🕐2024-02-20 23:27:11
│ └── 百相之书: 我就是高中生，而且暑假前刚考完信息考试，也看的一脸懵 👍🏽1 💭江苏 🕐2022-07-31 18:40:48
│ └── 不如回家卖红薯: 高中教了也没啥用 👍🏽0 💭河北 🕐2022-07-31 19:33:11
│ └── 贺司衡: 知识是高中的，工程实现的套路是大学的，但整体的思想确实还是高中的，只不过高考不考建模很多学校不教……[惊喜]毕竟高中其实就有应用数学竞赛，大学的数学建模比赛也不是大一的就完全无法下手了。 👍🏽22 💭北京 🕐2022-08-01 10:01:34
│ └── 中华绘图铅笔: 菜鸡只想知道，要从哪里学到这么牛逼的知识 👍🏽4 💭辽宁 🕐2022-08-01 10:28:43
│ │ └── 云云: 数学建模比赛国赛美赛这样的操作很多的， 👍🏽3 💭北京 🕐2022-08-01 18:33:50
│ └── 小透明: 没那么复杂，从已有文字来看大概就是个int替代浮点的优化方案，做下值域的限制。举个简单的例子，一个数字乘以0.6534很慢，但是乘以65340就快多了。但是不能溢出，可能他硬件小所以限制了65535。类似的问题还有先乘后除与先除后乘的区别，也是高中知识，但是第一次见还是很多人会被坑。 👍🏽5 💭上海 🕐2022-08-10 00:29:08
│ └── 铁丝: 线性拟合高中是有的，不过放在了选修部分，而且高考曾经只考选择题现在又不考了所以没人讲没人学了。 👍🏽0 💭河北 🕐2022-08-11 11:30:21
│ └── 再睡一夏: 现在我们这里线性拟合好像会讲一点 👍🏽0 💭浙江 🕐2023-08-02 02:32:50

允升: 觉得这个回答厉害之处是把公式的要点生生用文字描述出来了[doge]想必答主注释也写得比较详细，但遗憾的是注释只能让懂的人把你的代码和原理对应起来，而不能教会完全不懂的人去理解原理 👍🏽179 💭福建 🕐2022-07-31 01:49:36

│ └── kin: 那一段真的写的不错，很形象很自然，甚至很符合直觉 👍🏽3 💭湖北 🕐2024-07-01 18:43:58

改行做园丁: 这个还是和资质有关，答主由朴素的思想入门，并直接转成编程。做多了再用数学理论系统化，非常适合由兴趣入行的人，属于在计算机上有天赋的。我开始工作的时候看一段dft的汇编代码，一下子就看明白了，这不就是两个波形的即时相乘然后在时间上加起来么。同频的波形这个值会越来越大，不同频的这个值因为相互抵消会趋向于0，然后考虑相位差所以两个波形cos，sin各来一遍再求平方和，这高中生也能理解啊。然而我必竟是学过数字信号处理的，就回去翻了翻书，什么复数啊，频域，时域啊，e的复数次幂，欧拉公式啦，变成离散计算有时一堆Σ，相信是很多工科生的噩梦，到Σ这一段如果你当时没编程去体验下（通常是没有的），后面你也不做算法的话，相信大多数人看到这段无注释也无函数结构的程序是没法联系到什么复数什么正交的，会认为这是一段莫名其妙的计算，代码还混乱，怎么看怎么不顺眼。离散化其实是把函数的一些计算从定义做起，然后再把中间能优化的优化掉，你不自己搞一遍，你无法知道精妙之处在哪里，也无法看到数学，只会看到混乱，以及编程不讲规范。如果有人先告诉我这是一段dft程序，我回去翻书，发觉怎么也和程序对不上，说不定反而搞不懂了，理论到编程，中间个着一个实践，如果平时都是调包侠，怎么可能感受到科学呢。让你自己拿画点函数画个圆你可能都要用参数方程上三角函数计算吧，反正现在GPU，CPU牛叉，不差这几十上百倍的[大笑] 👍🏽106 💭北京 🕐2022-07-31 08:59:16

│ └── 叶子: 大佬解释太好了，答主感觉有时候会陷入知识的陷阱，您和答主的回答结合起来对新手友好多了 👍🏽5 💭江苏 🕐2022-12-10 08:17:30

基本摸鱼用户: [飙泪笑]综合评价法给你说的这么复杂就是数据预处理，归一化，赋权，加权求和[飙泪笑] 👍🏽79 💭安徽 🕐2022-07-31 07:14:58

│ └── ptr: 就这那位都不明白啊，看也不懂，书上有也不认得。 👍🏽14 💭北京 🕐2022-07-31 22:34:30

绝云小和尚90: 然后，谷大哥就被踢出去了，他的输入法也要挂ladder才能用了hhh 👍🏽54 💭北京 🕐2022-07-31 01:24:10

│ └── zzzzzz: 不需要。 👍🏽4 💭加拿大 🕐2022-07-31 04:56:46
│ └── HelloWorld: 想起来那时候QQ输入法可以加速QQ等级才用的QQ输入法[飙泪笑] 👍🏽14 💭河北 🕐2022-07-31 08:28:37
│ │ └── 实名用户: 现在等级就是个笑话了吧[大笑] 👍🏽2 💭湖南 🕐2022-07-31 11:49:45
│ └── CodeName UranIum: 现在反倒是一个优势，不挂ladder用就不担心输入法泄露隐私了[飙泪笑] 👍🏽1 💭江苏 🕐2022-07-31 10:37:22
│ └── Welkin Hu: 实测不需要，手机一直在用谷歌拼音，不需要联网，没有各种“贴心”的奇怪功能，而且符号库齐全，非常够用。 👍🏽0 💭天津 🕐2022-11-29 00:45:38

Bubble Berry: 没看明白算法原理就瞎改的人啊，难顶[尴尬] 👍🏽51 💭北京 🕐2022-07-31 01:14:12

alsotang: 像是在看《数学之美》 👍🏽44 💭广东 🕐2022-07-31 01:52:57

│ └── Time: 数学之美浪潮之巅 👍🏽7 💭山东 🕐2022-07-31 07:43:22
│ └── alien yang: 我立马回去把这本书翻出来看看 👍🏽1 💭江西 🕐2022-08-02 16:29:43
│ └── 刘呈祥: 是的，概率论解决拼音输入法难题是数学之美里一个精彩的章节。06年的搜狗输入法确实打遍无敌手 👍🏽0 💭湖北 🕐2022-09-23 19:19:11

雨苗同学: [思考]也许经理也没懂 👍🏽36 💭山西 🕐2022-07-30 23:31:05

│ └── 肖白刃: 编程不写注释，当时也是正常现象 👍🏽0 💭江苏 🕐2022-07-31 10:45:04
│ │ └── 貞木: 但是答主写注释了呀[飙泪笑] 👍🏽2 💭日本 🕐2022-08-18 10:19:59
│ └── 007: +1[思考]经理没懂，只是经理看出来这玩意儿有多复杂，太哈人了，这就是数学大佬吗，恐怖如斯 👍🏽0 💭甘肃 🕐2024-07-15 12:37:37

5251: 那什么，作者自己最后举的那个例子啊，说是就高中知识点。符合也不符合。数学课本上统计概率那部分。确实写了一些基本的原理和应用。（但具体的原理，具体该哪个公式，为什么用那个公式？我认为这是大学才学到的。不过对于学计算机的来说，应该是大学基础吧。）另外还有一个问题呢就是呃，即使每年高考都有关于统计概率这方面的一道大题。但那几乎是送分题，只需要套公式的那种。[doge]所以又有几个人明白为什么要有所谓的卡方分布？正态分布呢？[doge]（在这种无关地方我还是想说一句，中国的教育体系及高考还是有很大问题啊，即使他已经很好，很公平了。）当然，最主要的现实是，即使是作者啊，他遇到这种愣头青也应该是少数吧。更多时候的工作，应该即使是愣头青也应该可以用cv大法解决。[捂脸]所以也就有了这个问题的题目。不过对于有知识的渴望和真理的渴求的人。我一直相信相比其他平庸的人，即使是在同一平台上也能今天章显出彼此都不同。比如作者就是能指着所有人的鼻子骂。那别人还被骂的一脸懵逼。[doge] 👍🏽35 💭云南 🕐2022-07-31 05:55:06

│ └── momo: 中国的教育就是各种知识点和公式的简单堆积，要想连点成线成面成体只能靠自己了[飙泪笑] 👍🏽19 💭天津 🕐2022-07-31 08:46:15
│ └── FAST: 我已经上完大学了，看了点cv的代码和统计学习才明白作者的意思[可怜] 👍🏽2 💭山西 🕐2022-07-31 11:39:16
│ └── 再睡一夏: 确实，卡方和正态分布的公式完全不知道怎么来的 👍🏽0 💭浙江 🕐2023-08-02 02:35:54

清茶: 我在另一个话题下说中文输入相比表音字母自带劣势，然后“劣势”这个词打中了一群人的G点…… 👍🏽31 💭江苏 🕐2022-07-31 07:19:59

│ └── 信息科技研究院: 你可以改说“更具挑战性”试试[捂脸] 👍🏽29 💭湖南 🕐2022-07-31 08:51:18
│ └── 采薇客: 你真把中文学透了[doge][doge] 👍🏽0 💭浙江 🕐2024-05-11 17:18:24

半枝莲: 这位不会调试么[捂脸]改了出问题也不知道恢复再说，估计又转手了。说到电脑对联，倒是有点兴趣，律联类似作诗比较有套路，但机巧联似乎难一点，比如这种例子 https://www.zhihu.com/answer/2506747121 👍🏽26 💭江苏 🕐2022-07-30 23:41:43

│ └── invalid s: 现在都上神经网络了，隐马尔可夫模型已经落后了…… 👍🏽61 💭广东 🕐2022-07-30 23:44:54
│ │ └── 半枝莲: 嗯这个机关联难点倒不在这些统计模型因为不像律联有相似同类语料库机关五花八门多了[捂嘴] 👍🏽0 💭江苏 🕐2022-07-30 23:47:26
│ │ │ └── invalid s: 烟沿檐沿烟燕眼[大笑][酷] 👍🏽0 💭广东 🕐2022-07-30 23:58:19
│ │ │ └── momo: 烟沿艳檐烟燕眼 👍🏽0 💭天津 🕐2022-07-31 08:41:55
│ │ └── 知乎用户9EzrDK: 你把这个函数值映射到对应的值域，听起来就像是神经网络的激活函数。而且你这个浮点数转化成整数运算，有点像神经网络加速的量化。早几年一般的程序员确实听不懂了 👍🏽7 💭浙江 🕐2022-07-31 03:54:04
│ │ └── momo: 现在遇事不决直接transformer[惊喜] 👍🏽1 💭湖南 🕐2022-08-01 00:12:03
│ │ └── 黄枣颖: 现在的各种语音助手识别准确率上去了，但用户体验不大好，还是局限于一问一答的方式，不考虑每次问答之间的关联性。语音交互没有GUI那么直观，用户也搞不清他能做什么，语音助手也不像正常人类客服那样给出各种建议，引导用户做出有利的选择。一切的关键在于问答之间的关联性，随着多轮对话的进行，AI应该可以对用户的喜好有更深入的了解，通过对用户即将下一句话进行预测，再根据预测结果为用户提供恰当建议。我早在苹果推出Siri的时候，就考虑过把语音控制的命令行作为毕业设计，我同学说我这个设计没有市场需求，只是我当时还没听说过隐马尔可夫链，所以做一个比较保守的应用，只是为了解决学习Linux和shell过程基本命令记不牢的痛点。直到后来alpha go战胜李世石，深度学习和VR开始风靡全球，我才想到要把语音交互和VR结合，让语音交互变得跟普通人类互动一样的自然。。。 👍🏽1 💭广东 🕐2022-08-04 11:50:40
│ └── Smilence: 这种体验性的东西没法自己调试。。。。 👍🏽0 💭北京 🕐2022-07-31 10:03:27
│ └── 半枝莲: 我指的是如果是同一个人负责，自己改了前后效果对比下，也应该清楚问题在哪…… 👍🏽0 💭江苏 🕐2022-07-31 10:05:03
│ └── Smilence: 有些能测，这个自己真的不好测。。。不是所有的开发都会自己安测试环境 👍🏽0 💭北京 🕐2022-08-01 00:24:51

岭南渔村夫: 能量的对数那个，是否可类比到热力学的玻尔兹曼分布上去？[好奇]另外把浮点换成整数，真的是工程实践经验，快！妙！[赞][赞][赞] 👍🏽19 💭广东 🕐2022-07-31 03:08:52

│ └── 麦克斯韦妖: 信息量都得取对数，才有加法原理 👍🏽6 💭四川 🕐2022-07-31 03:55:36
│ │ └── 岭南渔村夫: 与概率相乘类似，同态。[拜托] 👍🏽0 💭广东 🕐2022-07-31 05:17:13
│ │ └── 麦克斯韦妖: 对，概率是乘法，而信息量是概率熵，需要取对数满足加法 👍🏽5 💭四川 🕐2022-07-31 11:41:58
│ │ └── 岭南渔村夫: [握手][握手][握手] 👍🏽0 💭广东 🕐2022-07-31 11:43:43
│ └── 江湖老赖: 搞dsp 或者fpga加速运算的都这样弄 👍🏽0 💭上海 🕐2022-07-31 09:32:09

宇宙尘: 高手级人物！工作中这种自以为是的人很多，尤其是当他们有权时。所以在技朮行业里，最忌外行管内行 👍🏽15 💭广东 🕐2022-07-31 01:17:26

非死不可: 感觉有点像当年图灵破解德军密码的那个思路，任何一种语言的句子构成都是有规律可循的。用算法去替代成千上万的句子。再加上个人偏好和习惯。肯定越来越精确高效。 👍🏽18 💭山西 🕐2022-07-31 05:44:03

谈话终结者: 笑死，评论还有纠结谷歌抄语料库的，看没看懂文章啊，重要的是语料库[飙泪笑]？而且搜狗的语料库从哪扒拉出来的呢？网络爬取？谷歌自己做搜索的需要抄你爬的？用户输入？用户授权了吗，国产流氓[大笑] 👍🏽15 💭四川 🕐2022-07-31 07:39:49

│ └── 石劲松: 不是这样说。语料库就相当于在整个语言空间中取样本子空间。如何选取应该是很讲究的。 👍🏽6 💭湖北 🕐2022-07-31 10:44:24
│ └── Lee2000: 的确是直接拿去用了，事实如此。但是说明什么呢？中国雇员不懂事搞了一个大事件。 👍🏽3 💭广东 🕐2022-09-10 04:36:40

Tony: 听到这个原理，突然对英语听力中的脑补机制，多了些思考。一个词出现了，它后面出现什么词，其实是有概率的。甚至是固定的。比如有些是固定搭配。如果，经过长时间的反复训练，把这个概率搞明白了，就是说一个词后面大概率会接什么词，你搞明白了，哪怕对方接下来的词，发音不清，变音严重，哪怕是没发音，你也能脑补出，它到底是什么词。脑补的机制，应该就是这样的。 👍🏽14 💭江苏 🕐2022-08-01 12:47:13

│ └── Alice Tian: 难怪我英语听力这么差[大哭] 👍🏽0 💭广东 🕐2022-09-23 09:15:48
│ └── 阿莉埃蒂: 对的听力/阅读强的人其实是熟悉语境和内容，所以脑补能力强让一个没见过这个世界的瞎子练听力就难了 👍🏽0 💭广东 🕐2024-07-19 12:03:13

wee: 我个人体会是微软拼音输入法就已经可以整句输入了，不是系统最早自带的全拼双拼和自然abc，是一个就叫做微软拼音的输入法，比搜狗谷歌都要早，后来是融入到新版本windows里面了，好像是哈工大还是哪儿和微软联合开发的。 👍🏽11 💭北京 🕐2022-07-31 05:14:59

│ └── wanghonyu: 应该是长城输入的原型。 👍🏽1 💭北京 🕐2022-07-31 09:39:39
│ └── kenan: 我现在还在用微软拼音输入法，挺好用的 👍🏽0 💭美国 🕐2022-07-31 10:23:01
│ └── 溪流: win98带的1.5就很好用了，系统说明书里还有专门一个章节讲整句输入的理念。大家觉得2003开始好用，是因为2003开始默认打开了逐键提示，很多习惯词组输入法的人会用了，口碑才变好了 👍🏽0 💭吉林 🕐2022-10-07 13:40:27

老牛: 五笔也有重码，最专业的是区位码输入法，完全没重码，五笔时代电脑差不多在企业和高校已经普及了，难度已经大降了。拼音普及时小学生都开始玩电脑了。 👍🏽9 💭上海 🕐2022-07-31 01:36:07

│ └── 悠悠路生: 区位码 4位数字谁能记几千个数字哎， 👍🏽0 💭湖南 🕐2022-08-11 11:05:01

下雨天打伞: 回答挺好，就是拼音这段不算好，拼音输入法发展历程也挺长的，谷歌拼音绝对不是个让人觉得超越众人的产品。我心目中这个产品是紫光拼音，也有人是微软拼音，也有人是拼音加加，无论是哪个，都比谷歌做的早或许谷歌有他一些特有的技术，但是其实在拼音输入法上，并没有显示出卓越的优势。 👍🏽9 💭福建 🕐2022-07-31 10:42:54

│ └── 异常研究防御局: 我07年用谷歌拼音的，那会儿觉得他秒杀一切其它拼音 👍🏽0 💭江苏 🕐2022-08-04 22:44:36
│ └── Lee2000: 03年大2，用紫光，08年换了搜狗，至今手机电脑还是首先安装搜狗。谷歌试用了一段时间，实在受不了那个词频调整，太影响输入速度。 👍🏽1 💭广东 🕐2022-09-10 04:43:16

lixin liu: 你要说近十年seq2seq、transformer等深度学习时代有影响力的语言模型是google搞出来的倒是没问题。怎么连自然语言中使用数理统计方法都成了google首创？你说的这个基于前六个词推测就是自然语言里面最基础的ngram模型，这个东西已经成熟到写到教科书里了，怎么成了google在2010年代搞出的东西了？当然gram在n=6这么大的时候应该会遇到维度灾难，可能google引入了一些先进技术解决，但肯定也不是你这里平平无奇说的东西。从ngram模型就知道自然语言很早就依赖统计相关的东西，而统计机器学习在90年代就因svm兴盛过一波，自然语言里面使用统计技术简直就是家常便饭了，我随便说几个：tfidf：基础的词频统计，教科书级别成熟，几十年前就有，lsa隐语义分析从90年代就有，2000年前后进化到plsa/lda等概率模型，都是纯基于概率统计的语言模型啊 👍🏽7 💭北京 🕐2023-05-07 03:47:48

高博: 更新：特许访问结束。 👍🏽6 💭广东 🕐2022-10-11 10:57:59

燚龘: 他听的两眼翻白，更晕乎了：越听越糊涂了……还是不明白为什么要这么算？俺加一[滑稽] 👍🏽8 💭广东 🕐2022-07-31 03:56:52

│ └── Lee2000: 算法就是这样的，你不懂数学就看不懂代码。 👍🏽4 💭广东 🕐2022-09-10 04:38:36

233: 现在cpu的浮点运算吞吐量好像比整数的还高了[捂脸]只要不涉及除法和取余，现在算术指令应该可以放心用，节省开发和维护成本（手工做定点数优化影响可读性）。 👍🏽7 💭北京 🕐2022-07-31 00:27:07

│ └── mugong: cpu浮点运算功耗高 👍🏽0 💭河北 🕐2022-07-31 01:41:14
│ └── 波波3: 用simd时，整数运算的吞吐量取决于整数位宽，8位数的带宽可以达到64位的8倍，在任何CPU上都远超浮点。如何尽可能用更小的位宽来处理数据是一门技术。 👍🏽4 💭美国 🕐2022-07-31 04:17:11
│ └── 233: INT8确实有优势，但那样还是调一下quantization库比较好，手写可读性太差了[捂脸]。 👍🏽0 💭北京 🕐2022-07-31 11:11:23

不知道啊: 其实满地都有类似的例子，不止计算机领域。很多人五人六的同志，小学语文数学都没有过关[大笑] 👍🏽4 💭上海 🕐2022-07-31 07:17:10

张凌群: 也不用把谷歌这么神话，他这套算法之前是用来英文输入里辅助输入和单词纠错用的。这也是表音文字里的老大难问题了，谷歌愿意投入高手来体现他的能力也是应该的。另外，你这同事没学过统计学基础？ 👍🏽4 💭浙江 🕐2022-07-31 23:37:09

│ └── Lee2000: 必须是培训机构出来的啊[捂脸] 👍🏽0 💭广东 🕐2022-09-10 04:45:25
│ └── 守恒: 所以我很讨厌吹数学的人 👍🏽0 💭河南 🕐2022-09-25 15:48:12

二氧化氮: 但凡是个正经本科毕业的，很难听不懂这个算法…… 👍🏽5 💭上海 🕐2022-07-31 08:23:14

│ └── 旅行者吴图: 很多人靠背书毕业的 👍🏽3 💭广东 🕐2022-07-31 08:55:27
│ └── 守恒: 所以我很讨厌吹数学的人。 👍🏽0 💭河南 🕐2022-09-25 15:46:57

知乎用户ZdbFdX: 谷歌翻译挂了[捂脸] 👍🏽5 💭北京 🕐2023-01-18 15:24:13

T.AM: 有一点，你说的“不需要和前人说过的话重叠”和“计算后面出现的字的概率”本身就是强相关啊，必须要统计“前人”的用词造句习惯才能用概率算出一个字后面最可能跟什么字。所以你所说的所谓“自己灵活造句”在那个没有大数据统计记录个人用词习惯在本地或云端的时代，根本只是一厢情愿，实际上也只是“前人”习惯而已，你这一混淆就显得Google像是什么二十年前就给中国展现神迹，带来汉语输入法伟大革命的未来科技一样，实际上那时候的国内汉语输入法就已经很成熟了，什么谷歌开源后国内输入法水平才有巨大提升更是无稽之谈，和现在的特斯拉开源后才有了国内新能源车企一样扯淡[飙泪笑] 👍🏽3 💭重庆 🕐2024-01-25 03:16:32

zhang: 然而谷歌翻译已经退出中国了[流泪] 👍🏽4 💭北京 🕐2022-10-04 23:16:09

筋肉帕秋莉: 尽管马尔科夫假设的思路需要非常好的数学思维，但是事实上这个模型不需要任何高数线代知识[捂脸]只需要概率论的入门和一些入门的图论知识就行，给小学生都能讲懂 👍🏽4 💭日本 🕐2022-08-21 21:43:29

│ └── 守恒: 所以我很讨厌那些吹数学的人 👍🏽0 💭河南 🕐2022-09-25 15:47:43
│ └── shizhao: 前一阵子专门去学了隐马尔可夫，老师讲了至少两小时，底下一群人都是大眼瞪小眼，完全没听懂[捂脸] 👍🏽0 💭日本 🕐2024-01-10 14:04:02

Leviathan: 谷歌翻译是所有用过的中文翻译里最烂的 👍🏽4 💭广东 🕐2022-08-12 15:34:01

heuwolf: 微软拼音输入法哈尔滨工业大学 1999 👍🏽4 💭山东 🕐2022-07-31 07:21:49

Eric Qiang: 搞笑。谷歌输入法抄袭那事我记得很清楚，当时是舆情热点。我认识的一个人从清华大学计算机系智能系统国家实验室硕士毕业后就进入搜狗输入法项目组，工作地点就在清华东门外。所以他读研究生的FIT楼和入职后办公楼距离不到一百米。他的名字是谷歌输入法抄袭证据的识别词之一，当时被新闻媒体当作铁证报道出来了。 👍🏽2 💭德国 🕐2022-07-31 10:26:58

霄昂: 谷歌翻译没有了 👍🏽3 💭安徽 🕐2022-10-05 17:00:44

Azusa Nakano: 线性回归？ 👍🏽3 💭澳大利亚 🕐2022-07-30 23:45:01

黄砚: 已经不能用了 👍🏽3 💭河南 🕐2024-05-11 12:52:19

XR207: Google前面有搜狗，搜狗前面有紫光。在我的印象里，紫光拼音输入法已经很好用了。 👍🏽3 💭上海 🕐2022-07-31 09:14:16

Charlier: 建议下次可以从盘古开天辟地开始讲起 👍🏽3 💭上海 🕐2022-12-21 17:38:13

风吹草低: 你讲的这些跟数学关系也不大，别瞎扯了 👍🏽3 💭北京 🕐2022-09-26 07:30:01

顺势而为: 这是不是就是简化版的大数据？ 👍🏽1 💭山东 🕐2022-07-31 12:24:33

卡卡: 五笔输入和拼音输入就像汉字和拼音一样。一个简单易学，一个有一定难度，但一旦掌握，应用起来效率更高！ 👍🏽2 💭北京 🕐2022-07-31 06:45:19

│ └── 世界真大: 早几年前的拼音词组输入就比五笔要快了 👍🏽0 💭广东 🕐2022-08-01 19:32:24

深山文明人: 繁体字输入里面，没有五笔和拼音的位置，只有仓颉、速成、九方和注音 👍🏽2 💭中国香港 🕐2022-07-31 05:17:55

│ └── Lee2000: 学会简体拼音输入法，打繁体不要太简单。 👍🏽0 💭广东 🕐2022-09-10 04:47:02
│ └── 甲基丙烯酸: 注音不就是拼音吗 👍🏽0 💭湖北 🕐2022-10-17 20:47:58
│ └── 深山文明人: 我不会注音，据我了解应该大致上是26个键各对应一个注音，而不是拼音那样拉丁式输入声母韵母，原理相近，实际上无法互相适应 👍🏽0 💭中国香港 🕐2022-10-17 20:56:44
│ └── 甲基丙烯酸: 有点不同，但是都是根据声音输入，但都可以用联想选词，原理是一样的 👍🏽0 💭湖北 🕐2022-10-17 21:15:52

锋行: 经理并不一定听懂了，他只是针对这种情况加强了规范。其实，导致这种问题的出现，也是因为经理不懂技术，所以交给了一个菜鸟来改。这个算法原理虽不高深，但从无到有的这个构建过程也不是一般人就能做到的。我很理解你的想法，用很简单的代码就是实现了一个还不错的功能，但越是“简单”的代码，越是难以达到，“简单”的代码是极其凝练的，只有高手才能写出来。 👍🏽2 💭辽宁 🕐2022-07-31 09:43:19

czz爱学习: 刚刚看了一下，谷歌翻译好像无了[发呆] 👍🏽2 💭北京 🕐2022-10-07 21:29:38

薛怡然: 哈工大技术的微软拼音输入法被你吃了。我小学时接触到微软拼音之后就迅速意识到没有必要学五笔了。 👍🏽2 💭河南 🕐2022-07-31 10:45:32

│ └── invalid s: https://baike.baidu.com/item/微软拼音输入法/1850491 👍🏽1 💭广东 🕐2022-07-31 10:48:32

BD7NSM: 手中无剑心中无剑很难跟手中有剑心中有剑的人沟通。 👍🏽0 💭广东 🕐2022-08-01 09:56:29

菜菜籽: 随机游走呀[大笑] 👍🏽1 💭山东 🕐2022-07-31 14:48:20

bjyulq: 浏览电商平台，最讨厌的一件事就是被推荐商品，这种推荐还跟着你走，一段时间内只要是打开浏览器就弹出推荐窗口。 👍🏽1 💭北京 🕐2022-07-31 06:48:37

│ └── 雨雨雨: 尝试禁止应用写入剪切板 👍🏽0 💭广西 🕐2022-07-31 19:30:31

李火旺: 安全领域的威胁事件关联分析也在用马尔可夫链这个理论 👍🏽1 💭河南 🕐2023-04-16 11:22:55

tearshark: 一定是英语编程的问题。换成中文编程就不会出错了 👍🏽0 💭四川 🕐2022-07-31 16:46:24

夜寐: 五笔有重码，并且不难学，无重码的是区位码。 👍🏽1 💭江苏 🕐2022-07-31 07:31:37

│ └── ABce: 还是要一定学习时间，主要现在是手机时代，手机打字普通人用五笔还拼音还快不了多少。用电脑，不管用什么中文输入法，五笔还是快不少，都不用联想输入，直接上屏。 👍🏽0 💭广东 🕐2022-07-31 20:40:56

张文远: 大陆的谷歌搜索亡了 [流泪] 👍🏽1 💭陕西 🕐2024-04-25 16:03:39

认真点: 吴军大佬的书《数学之美》倒是一本趣味性很强的计算机和数学知识科普书，但即使这样书里面关于公式推导的部分还是看的人头大[捂脸] 👍🏽1 💭陕西 🕐2022-08-26 16:34:51

钱成: 答主在行业内的知识储备与经验能力，我是一贯佩服的。只是Google这个事儿做得实在差劲儿，不能因为它发扬了统计原理，或者产品免费开放，就认为它“相对还行，不算太不光彩”。类比一下，注意力机制原理也是它率先搞出来的，但closeai发扬光大了，Google也不能腆着脸说我是原创因此放开去抄GPT4的 prompt 对不 👍🏽1 💭江苏 🕐2023-04-09 09:15:32

只是一个人: 大佬牛啊！想学好计算机，对各种算法了解的基础，必须学好线性代数吗？ 👍🏽1 💭北京 🕐2022-07-31 09:09:52

│ └── EVP-UST: 别说计算机，线性代数是所有工科的核心基础之一 👍🏽5 💭上海 🕐2022-07-31 09:16:21
│ └── 只是一个人: 学的太浅，用的也太浅了！线性代数用的不多！！！有机会好好学学 👍🏽0 💭北京 🕐2022-08-04 19:54:05

亮晶晶i: 这需要专门学习数据处理吧[好奇] 👍🏽1 💭浙江 🕐2022-07-31 01:27:44

阿飞: 但是现在AI大模型使用的神经网络感觉有点黑盒的意思了，你喂它东西，但是出来的结果不一定是你想要的，为什么会出这个结果，有时候也不知道。。。 👍🏽1 💭浙江 🕐2024-01-11 11:30:35

狗四: 解决实际问题是这样的，你说这么多恰好说明计算机或者你这里叫编程是为了解决实际问题的，是工科不是理科 👍🏽1 💭四川 🕐2023-04-30 12:03:01

唐师傅: 隐马尔科夫链，吴军的《数学之美》里讲过这个例子。 👍🏽1 💭湖南 🕐2022-08-12 21:06:29

tint: 高中也不知道就近取整到1024这样的二进制整数方便编译器优化成移位的事吧[魔性笑] 👍🏽1 💭北京 🕐2022-08-01 12:36:47

幻想少校: 作为拼音输入法用户我觉得整句输入不实用，最重要的是词组动态匹配，你常输入的词组简拼就能输入，这样就极大的提高了输入效率。你最常输入的“经济”打“jj”就出来了。输入法都是越用越顺手。速度也就不低于五笔了。整句输入都不能是简拼而必须是全拼，还要求输入过程中打字错误降低。这样对用户要求就太高了。 👍🏽1 💭吉林 🕐2022-07-31 10:20:29

冷无雪: 我觉得五笔也不是那么坑啊，五笔只要把字根大概位置记一下，平时打字时看一下字根表，打多了自然就熟了，也没那么难啊，应付日常足够了，也不需要多快。 👍🏽1 💭广东 🕐2022-07-31 08:52:38

卡路李: 文章后面那二句，各行各业都通用，所以隔行如隔山说的一点都没错。 👍🏽1 💭广东 🕐2022-07-31 14:43:36

李铁: 搜狗输入法才是开天辟地的创新。 👍🏽1 💭山西 🕐2022-07-31 12:54:20

│ └── XR207: 搜狗前面有紫光 👍🏽0 💭上海 🕐2022-07-31 13:00:15
│ └── 李铁: 紫光优盘让我损失了大学第一个五十。 👍🏽0 💭山西 🕐2022-07-31 13:07:53

Ndrox: 不懂的人永远不会知道自己错在哪里、错过了什么，说得很好，不只是专业方面 👍🏽1 💭四川 🕐2022-07-31 14:31:21

混沌圣帝: 学计算机一半在学数学，一半在学微电子，可惜培训班出来的二把刀只停留在了应用层调库上。[doge] 👍🏽0 💭河北 🕐2022-07-31 13:03:57

不穿格子衫: 看不懂也能/敢改，牛皮了 👍🏽0 💭江苏 🕐2022-07-31 11:57:54

三总五项做仌: 程序员不懂归一化，我一个外行都知道[笑哭] 👍🏽0 💭湖南 🕐2022-07-31 13:55:09

微信用户: 我怎么记得第一个称得上好用的拼音输入法，是紫光啊[思考] 👍🏽0 💭北京 🕐2024-09-09 16:28:16

锦乡悦堂PPT: 谷歌翻译早就不能用了 👍🏽0 💭北京 🕐2024-08-10 15:56:57

时吟: 个人体感上中文输入法最实用的功能还是整词输入，关联推荐后一个字的准确度不是很高，输完逐个选择，反倒降低效率，就连google有算法也还要走资料库的道路，而现在硬件成本变低，几百兆的输入法比比皆是，所以真正提升输入法性能的还是力大砖飞的资料库？ 👍🏽0 💭云南 🕐2024-07-19 12:21:03

独上西楼月如钩: 高手啊，思维就是不一样，[赞][赞][赞][赞][赞][赞] 👍🏽0 💭广东 🕐2024-07-18 23:20:53

Overflow Stack: 防止搜狗岁月史书 👍🏽0 💭河南 🕐2024-07-18 22:33:33

不说: 于是整个中文输入法的水平一下子提升了一大截——以至于这些年来，几乎没人从头学五笔输入法了前边的对但后边这句话不对。五笔被拼音淘汰根本的原因还是“不会写的字也能输入”的需求远远超过了“不会读的字也能输入”[微笑] 👍🏽0 💭重庆 🕐2024-07-19 00:49:32

吃西瓜不吐西瓜皮: 马尔科夫链 N年前学的知识了 👍🏽0 💭广东 🕐2024-07-18 16:23:55

黄思永: 紫光一向以不稳定著称 👍🏽0 💭北京 🕐2024-07-18 08:47:21

知乎乎乎: 这个不错 👍🏽0 💭湖北 🕐2024-07-17 08:47:31

BillMax: 拼音加加才好用。 👍🏽0 💭广西 🕐2024-07-16 13:11:16

nobody: 你说的这个技术路线太过简单，不可能没人尝试过，不如说说技术上的细节是怎么克服的 👍🏽0 💭重庆 🕐2024-07-14 18:45:50

hongbinWang: IBM使用统计方法搞自然语言处理更早，80年代就开始了。google不是第一家。 👍🏽0 💭内蒙古 🕐2024-07-09 17:01:42

人间万事屋: 这不跟密码学里的词频统计差不多么 👍🏽0 💭上海 🕐2024-07-08 17:13:10

Li Miaomiao: 这不都是语言模型吗…只是用符号逻辑，HMM还是LLM实现的区别而已啊… 👍🏽0 💭中国香港 🕐2024-07-07 19:40:06

Kevin Zhang: 基础学科见效慢，不符合绩效考核的原则。 👍🏽0 💭上海 🕐2024-07-05 09:14:16

蔣晓健: 不懂的人永远不知道自己错在哪里，错过了什么。不只是对IT行业是这样。对任何行业都是如此。 👍🏽0 💭山东 🕐2024-06-21 22:06:26

唐山大兄: 现在用的讯飞输入法不错，尤其是语音输入，很方便 👍🏽0 💭江苏 🕐2024-06-21 13:49:39

Lorrd: google有输入法这件事我今天才知道。 [捂脸] 👍🏽0 💭上海 🕐2024-06-21 19:32:43

胡说的山东海鲜: 以后这种工作直接请数学分数高的，其他的都别凑活 👍🏽0 💭广东 🕐2024-06-21 11:07:37

William Xu: 那个，PageRank的文章很好，14年过去了还是有用的 👍🏽0 💭澳大利亚 🕐2024-05-26 18:36:46

Peter: 初代copilot[酷] 👍🏽0 💭湖北 🕐2024-05-26 11:26:44

水军4149: Google公司都没了 👍🏽0 💭江苏 🕐2024-05-24 13:14:12

老菊未来科技公司: 这个用前一个词猜后面词的，不就是现在cheat-gpt的原理么 👍🏽0 💭辽宁 🕐2024-05-23 15:07:00

洛伦兹的弧蝶: 表示怀疑，本科生作业级别的算法需要到这么晚才被发明吗？ 👍🏽0 💭北京 🕐2024-05-22 00:47:16

小叶: 马尔可夫链不是搜狗说先搞的嘛 👍🏽0 💭北京 🕐2024-05-20 18:47:17

李东: 搜狗做的工作真的被无视了吗？ 👍🏽0 💭河南 🕐2024-05-19 08:30:36

墨茗棋庙: 有没有可能，你的经理也没听懂 👍🏽0 💭安徽 🕐2024-05-13 01:09:34

天馬直捣龙穴: 毕竟人家是全世界的精英在解决问题 👍🏽0 💭陕西 🕐2024-05-11 09:42:59

初代大虾: 我真后悔当年没学计算机学了破土木，浪费了我的数理天赋[大哭] 👍🏽0 💭广东 🕐2024-05-11 09:39:01

铃兰君: 所以，“药店碧莲”是你的识别词吗？[doge] 👍🏽0 💭安徽 🕐2024-05-10 17:35:29

lht: 计算机专业很容易让人抑郁。可能有太多悲伤的故事。 👍🏽0 💭辽宁 🕐2024-05-10 16:15:35

我是谁我在哪: 草，微软拼音爆炸卡的原因是这样啊 👍🏽0 💭黑龙江 🕐2024-05-09 17:16:05

天上的因幡: 这么喜欢讲故事 👍🏽0 💭重庆 🕐2024-05-09 09:29:55

虎鲸: 道理我都懂，但是你为啥个签夸别人不要碧莲，文章却以劝人要碧莲为线索 👍🏽0 💭江苏 🕐2024-05-09 13:26:20

埃克斯-瑞: 那这这和基础学科关系很大吗？ 👍🏽0 💭北京 🕐2024-05-08 10:20:47

ROCK-YAN: 知乎传统，好文 👍🏽0 💭河北 🕐2024-05-08 18:07:03

aura blue: 看完觉得幸亏当年没做程序员，咱就不是这块料[大笑] 👍🏽0 💭江苏 🕐2024-02-20 23:29:17

纽北跑不过GTR: 并非唯一，emm比如Google Chrome 网络浏览器 👍🏽0 💭福建 🕐2024-01-19 02:17:51

NSkyITLro: 统计学很计算机科学（ 👍🏽0 💭上海 🕐2024-01-13 21:39:29

魏猛霸: 感谢分享，这么多年了头一次知道智能狂拼的原理，当初在电脑报及杂志上看到过很多狂拼的广告 👍🏽0 💭山东 🕐2024-01-12 13:30:15

Massive: 你是懂点数学的[赞] 👍🏽0 💭上海 🕐2024-01-11 09:54:59

clion: 最简单的一个问题，java里面那个hashcode用来干啥的，10个程序员里面8个讲不明白。 👍🏽0 💭江苏 🕐2024-01-11 08:03:49

舌战小仙女: 取对数的原理是心理感受物理量是取对数的，这个对于很多人来讲不是常识[捂脸] 👍🏽0 💭日本 🕐2024-01-11 11:23:40

天南星: 机器学习会涉及一点这个，另外区块链为了简化运算也是舍弃浮点数采用big int 👍🏽0 💭广东 🕐2024-01-10 19:02:46

知海图-00025: 马尔科夫链还可以用来生成小说 👍🏽0 💭广东 🕐2024-01-10 00:30:16

猫王: 谷歌翻译确实不错，和微软的对比，后者可以直接退休了。 👍🏽0 💭北京 🕐2024-01-10 12:30:15

半夏陌熵: 哇，好专业。最近一直在用gboard 输入法，虽然没有非常大的词库支持，和同样没有词库支持的搜狗等输入法相比并不差。另外微信输入法我觉得输入效率很高的，不输给有词库的搜狗输入法之类的。不知道是什么原理，楼主可以分析一下吗？ 👍🏽0 💭广东 🕐2023-08-26 10:53:52

xXx: 对文字输入感兴趣，一直有几个问题，因为这个回答暂时想起来两个：为什么没有输入法做根据上文排序候选词的功能？为什么没有输入法做根据上文联想的功能？第二个功能只有手机输入法有，而且“上文”好像仅仅是前面的一个字，一个词，而不是更多的内容。当然，联系的上文越多，成本就越高。两个功能技术上都能实现，为什么不做呢？ 👍🏽0 💭广东 🕐2023-08-09 20:26:15

秋分丿: 最后面那个实际例子：统一到0到1加权是高中内容；弄成整数运算是计算机基础中的基础；取对数的操作我能想到的就是在微分方程实例里讲得多 👍🏽0 💭广西 🕐2023-07-17 23:18:35

易元: 智能狂拼太可惜了 👍🏽0 💭辽宁 🕐2023-05-06 14:20:49

王志: 直到 chatgpt 狼来了. 👍🏽0 💭北京 🕐2023-04-13 19:55:07

小椰奶: 戒烟戒酒戒色早睡早起多做善事孝顺父母培养身体正气阳气提高自身免疫力祝大家早日能回到正常人的生活 👍🏽0 💭上海 🕐2023-04-02 21:40:24

gz nenglian: 谷歌搜索引擎本身就是靠数学拓扑什么的如此有效的，所以相信这些，很自然，后来那些也不是他们搞的，只是他们倾向于投资这那些。。 👍🏽0 💭浙江 🕐2022-12-12 14:06:08

南转北: 没有下限的学问是不是好学问呢？ 👍🏽0 💭加拿大 🕐2022-12-12 06:39:45

六日游生: [调皮]五笔打字，用了几小时学会 👍🏽0 💭广东 🕐2022-11-29 14:18:27

叶芃: CS 和 EE 本质就是应用数学 👍🏽0 💭河北 🕐2022-10-24 13:27:25

叶子: 用一点随机过程就是大创新，真是闹麻了。 👍🏽0 💭浙江 🕐2024-06-21 08:04:33

沉昭: 真的只是高中知识吗[流泪]我怕不是上了个假高中[大哭] 👍🏽0 💭四川 🕐2022-10-12 15:49:22

│ └── 叶子: 高中竞赛学的是大学知识 👍🏽0 💭江苏 🕐2022-12-10 08:25:57

海荣天天: 我就说为什么用谷歌翻译不用翻墙[捂脸] 👍🏽0 💭重庆 🕐2022-10-09 12:58:06

│ └── invalid s: 现在，翻吧[捂脸] 👍🏽2 💭广东 🕐2022-10-09 21:13:31

Awesome: 万物皆可概率论 👍🏽0 💭四川 🕐2022-10-08 21:16:24

都市鲁滨逊: 计算机不是建立在数学上的么 👍🏽0 💭上海 🕐2022-10-06 19:27:49

忘尘: 我上小学的时候我妈还逼着我学五笔，我记得还有一张花花绿绿的键盘图，每个键上都有部首字形。我上高中之后我妈就不提这茬了[捂脸]不过用五笔的确比我一指禅打拼音快[捂脸] 👍🏽0 💭宁夏 🕐2022-10-06 01:39:04

Fhihi: 不要用玄学思维去学。 👍🏽0 💭四川 🕐2022-09-25 23:23:28

Tisy: 围棋ai，兴于deepmind，但，ai尽头不在deepmind[发呆] 👍🏽0 💭广东 🕐2022-09-19 03:50:27

极限科技: mark 👍🏽0 💭广东 🕐2022-09-11 04:58:28

Five: 谷歌的日翻中简直噩梦 👍🏽0 💭广东 🕐2022-08-26 00:48:48

旋翼动力: 你这叙事不诚恳啊[吃瓜]。 👍🏽0 💭陕西 🕐2022-08-24 09:50:56

不啸猫: ngram[飙泪笑] 👍🏽0 💭美国 🕐2022-08-20 15:22:42

京墨: 大佬！dddd 👍🏽0 💭北京 🕐2022-08-12 09:46:17

货骨感: 少见多怪 👍🏽0 💭上海 🕐2022-08-11 12:21:58

九命猫: 马尔科夫链，pagerank算法，我的天都好熟悉，好像油管有个博主reducible最新两期视频就是关于这个的 👍🏽0 💭湖南 🕐2022-08-11 13:17:57

Verdure: 这算法都太老了，现在是预处理的时代了，Google的transformer才是真的正跨时代之作，pagerank这种无监督算法跟transformer相比不管是创新型还是效果都差很多。不过也是有之前的基础Google才能做出来transformer 👍🏽0 💭河北 🕐2022-08-11 14:58:26

Kahin: 完了高中知识我都看不懂了吗 👍🏽0 💭福建 🕐2022-08-06 17:55:08

Pluto Hades: 其实搜狗应该也抄了当时其他一些词组输入法的词库。比如拼音加加，我当时在用，它论坛上有大家一起整理维护的词库，当时也没有啥版本管理和审查校对，混了一些错词错字，后来搜狗里面也有一样的错词错字。不过拼音加加这种开放词库也没有啥版权管理，而且那时候大厂加入，这种个人的很快就放弃维护，除了用户论坛，也没人管这事儿了 👍🏽0 💭江苏 🕐2022-08-04 18:05:12

我为所欲为你为所: 我还在用五笔[飙泪笑] 👍🏽0 💭广东 🕐2022-08-04 15:50:49

熊叔: 改了以后出错也不知道说，我感觉这人纯属缺心眼 👍🏽0 💭上海 🕐2022-08-04 15:24:00

图南: 什么叫懂了道理/知识/技能？随心所欲不逾矩。 👍🏽0 💭河北 🕐2022-08-03 11:48:43

JC.GGBond: 牛逼 👍🏽0 💭天津 🕐2022-08-04 01:12:46

jerry: 《数学之美》里也讲这个故事[赞同] 👍🏽0 💭广东 🕐2022-08-04 00:42:22

请勿打扰4: 为啥我觉得整句输入错误率更高？还是以词为单位输入，更准确快捷。 👍🏽0 💭北京 🕐2022-08-03 16:10:57

│ └── invalid s: 整句输入需要调整光标改前面的错选，很容易误操作导致输入丢失、或者软件bug崩溃……所以现在经常是基于马尔科夫链的联想输入，也就是根据你前面的输入内容改变后面的提示。说白了还是整句输入，但不需要过去一样，先敲一整句出来再自动调整，而是敲一个词，你看对了就确定下来继续往后敲；看到错了也不要马上纠正，尝试多敲几个字，说不定就对了——不行再回来修改。总之，拼音输入必须人和输入法相互配合，这才能发挥出最佳效率。 👍🏽1 💭广东 🕐2022-08-03 16:17:32

alien yang: 这个真的是高中的知识吗？[发呆] 👍🏽0 💭江西 🕐2022-08-02 16:27:15

酒剑仙137: 计算机的算法是一门严谨的数学 👍🏽0 💭浙江 🕐2022-08-02 17:41:44

Danny: 看到马尔可夫链感觉特别亲切。 👍🏽0 💭山东 🕐2022-08-02 09:28:08

露明尼: 我是学到了不懂的东西不要动是真的[捂脸] 👍🏽0 💭广东 🕐2022-08-02 17:18:41

夏日长: 不是学计算机的，但是好像看懂了。 👍🏽0 💭安徽 🕐2022-08-02 15:12:29

云天灬: 有没有可能经理其实并没听懂原理，只是想赶紧把问题解决掉然后上线（来自一名产品的心声）[酷] 👍🏽0 💭浙江 🕐2022-08-01 15:22:14

未开过的凤梨罐头: 就好像是在工程学领域，做不到1：1的模型去就像实际模拟就需要做小模型，但是这个缩小不是简单的倍数缩小，而要根据验证计算公式的量纲进行缩小和何在布置。 👍🏽0 💭江苏 🕐2022-08-01 12:48:02

zhihu oscar: 无处不在的马尔科夫 👍🏽0 💭湖南 🕐2022-08-01 15:18:19

知乎用户VVsVw7: 在80年代，现在这些能看到用到的都是应用软件，还有系统软件，科学计算等，现在的小孩子都以为自己用到的才算软件吧，知道后台的名词就是高级用户了，再高级也只知道还有企业软件，至于收费不收费，反正都是父母给的钱，包括娶老婆买房子花的、 👍🏽0 💭广东 🕐2022-08-01 11:25:58

sslyd: 之前在知乎看过计算机的log函数用到了泰勒展开式[捂脸][捂脸] 👍🏽0 💭广西 🕐2022-07-31 18:39:47

华灯: google 拼音输入法从android4.4后就裁了[捂脸] 👍🏽0 💭四川 🕐2022-07-31 18:12:16

海边一棵草: 我心想计算机专业必修数学和物理，怎么就变成了没有基础学科了 👍🏽0 💭江苏 🕐2022-08-01 12:01:31

Mig Silent: 专业[赞同] 👍🏽0 💭广东 🕐2022-07-31 21:19:03

星云部落: 看到下面一群人说啊啊就这，这么简单。这就是你永远做不到一个如此简单的事情的原因 👍🏽0 💭山东 🕐2022-07-31 09:49:45

难道就这样么: 这些知识至少得大学数学专业或者参加过多次建模的人才能搞明白 👍🏽0 💭河南 🕐2022-07-31 09:30:44

ptr: 这位晕乎半天：……我回去再想想……有什么书讲这个吗？我：哪有什么书。自己稍微动下脑子就弄出来了，还值得写到书上……真实[doge]（所以现在书上都手把手教数据处理了）。 👍🏽0 💭北京 🕐2022-07-31 22:39:50

cc feng: 因为很多现在所谓的开发压根不是计算机专业的，一看就是本科课程没学过的，然后还嫌别人的太复杂不会维护，最后瞎改，跟的项目里也不是第一次了。一般我现在，智商没问题的开发我都懒得骂了[思考] 👍🏽0 💭福建 🕐2022-07-31 10:12:52

一号: 一直用五笔，手机也是 👍🏽0 💭浙江 🕐2022-07-31 09:24:42

康爷: 很多程序员根本不懂物理，更不会写计算公式[捂脸] 👍🏽0 💭中国香港 🕐2022-07-31 19:34:48

刺猬1114: 我倒是大概听懂了，但是让我做那肯定是抓瞎。 👍🏽0 💭北京 🕐2022-07-31 10:41:23

红莲: 我昨晚看着看着从首页打开了原链接，结果提示要审核了····也没看到啥敏感地方啊·· 👍🏽0 💭北京 🕐2022-07-31 10:12:56

│ └── Lee2000: 谷歌英文字母要审核的[捂脸] 👍🏽0 💭广东 🕐2022-09-10 04:53:05

精安: 真专业，我看的津津有味，但一点没看懂[赞] 👍🏽0 💭河北 🕐2022-07-31 08:25:37

初生之鸟: 整句输入最开始的不是微软拼音吗，跟哈工大合作搞的算法 👍🏽0 💭广东 🕐2022-07-31 08:29:17

泉此方: 输入法大战的时候我还很小，对原理不敏感。我印象里搜狗比谷歌中文早，谷歌中文比微软中文早 👍🏽0 💭湖北 🕐2022-07-31 23:53:26

枕水: 有一说一这个知识不是高中的 👍🏽0 💭北京 🕐2022-07-31 11:36:21

│ └── Lee2000: 的确不是高中的，是大学算法课和数学课。 👍🏽0 💭广东 🕐2022-09-10 04:54:11