《和生创新 IoT 技术周刊》-- 第 11 期 20240223

一、业界快讯

1.1 一周新闻快讯

【AI 新闻】OpenAI Sora 可以一次性生成多机位视频

OpenAI 最新文本生成视频模型Sora的发布引发业界关注。当地时间 2 月 17 日 OpenAI 研究科学家比尔·皮布尔斯 (Bill Peebles) 在 X 上发文称,Sora 可以同时生成多个并排在一起的视频。根据他在推文中展示的动图,Sora 生成了 5 个人们在下雪天漫步、玩雪的视频。

“这是 Sora 一次性生成的视频样本,并不是我们把 5 个视频拼接在一起。Sora 决定同时拥有五个不同的视角!”皮布尔斯在推文中称。

目前,OpenAI 尚未向公众开放 Sora。OpenAI 称,该模型正在接受测试,只分享给了一批精选的研究人员和学者。他们将研究 Sora,以寻找该模型被滥用的风险。(凤凰网财经)

【AI 新闻】谷歌宣布 Gemma 大模型全球开放使用

2 月 21 日,谷歌公司宣布,AI 大模型 Gemma 即日起在全球范围内开放使用。谷歌将发布两种权重规模的模型:Gemma 2BGemma 7B。每种规模都有预训练和指令微调版本,使用条款允许所有组织(无论规模大小)负责任地进行商用和分发。谷歌介绍,Gemma 模型与其规模最大、能力最强的 AI 模型 Gemini 共享技术和基础架构。

谷歌表示,Gemma 采用与 Gemini 模型相同的研究和技术,由 Google DeepMind 和谷歌其他团队开发,专为负责任的 AI 开发而打造。谷歌声称,Gemma 模型 18 个语言理解、推理、数学等关键基准测试中,有 11 个测试分数超越了 Meta Llama-2 等更大参数的开源模型。而且 Gemma「能够直接在开发人员的笔记本电脑或台式电脑上运行」。除了轻量级模型之外,谷歌还推出了鼓励协作的工具以及负责任地使用这些模型的指南。(来源:界面新闻)

【AI 新闻】谷歌被曝出内部 AI 大语言模型 Goose

据 Business Insider 2 月 15 日报道,泄露的文件显示,谷歌悄悄推出了名为「Goose」的内部 AI 大语言模型,以帮助员工更快地编写代码,协助开发新产品,提高工作效率。

Goose 「在谷歌拥有 25 年的工程专业知识」,仅供谷歌员工使用,「可以回答有关谷歌特定技术的问题,使用内部技术栈编写代码,并支持基于自然语言提示编辑代码等新颖功能」。

一份内部文件指出,Goose 是「将 AI 带入产品开发过程的每个阶段」计划的一部分。目前还不清楚它是否功能齐全。(来源:36 氪)

【AI 新闻】多家厂商提出 AI 手机概念

魅族决定 All in AI,将停止传统智能手机新项目,全力投入明日设备 AI For New Generations,迈入前景广阔的 AI 科技新浪潮。魅族将通过三年的生态布局和技术沉淀,逐步完成 All in AI 愿景。

同一天,OPPO 创始人、首席执行官陈明永也发布内部信称,AI 手机将成为继功能机、智能手机之后的第三阶段。OPPO 已做好充分准备,并专门成立了 AI 中心,将资源向 AI 集中

OPPO 首席执行官陈明永内部信

【AI 新闻】清华系大模型公司「月之暗面」完成新一轮超 10 亿美金融资

AI 创业公司「月之暗面」近期已完成新一轮超 10 亿美金融资,投资方包括红杉中国、小红书、美团、阿里,老股东跟投。月之暗面的上一轮融资为 2023 年获得的超 2 亿美金融资,投资方包括红杉中国、真格基金等。本轮融资后,月之暗面估值已达约 25 亿美金,为国内大模型领域的头部企业之一。自 ChatGPT 掀起全球浪潮以来,这也是国内 AI 大模型公司迄今获得的单轮最大金额融资。

月之暗面(Moonshot AI)成立于 2023 年 3 月,是国内大模型领域的关键玩家。其核心团队曾参与到 Google Gemini、Google Bard、盘古 NLP、悟道等多个大模型的研发中——这是一支在大模型道路上已探索多年的队伍,目前月之暗面团队人数已超 80 人。(来源:投资圈)

1.2 国外大厂

【苹果】苹果智能戒指再曝光:消息称苹果正加快开发智能戒指

苹果多年来一直在酝酿推出可穿戴戒指设备的想法。来自韩国的一份新报道称,苹果正在加快开发一款可以戴在手指上的智能戒指,以跟踪用户的健康。正如几项专利所表明的那样,苹果多年来一直在酝酿推出可穿戴戒指设备的想法,但随着三星准备将自己的产品推向市场,苹果效仿这一想法的时机可能已经成熟。(新浪财经)

【苹果】iOS17.4 更新电池健康菜单,新增显示电池状态

据报道,2 月 21 日,苹果向 iPhone 和 iPad 用户推送了 iOS/iPadOS 17.4 开发者预览版 Beta 4 更新(内部版本号:21E5209b),本次更新距离上次发布隔了 7 天。

苹果更新了“电池”菜单,能够让用户更直观地了解当前 iPhone 的电池健康状态,新增显示电池的状态,例如“正常”(Normal)。点击该菜单可显示详细的电池健康信息,如最大容量百分比和充电循环次数。以前,充电循环次数只能在设备的“关于”菜单中看到。

另此前报道,苹果公司宣布重新测试了所有 iPhone15 机型的电池,并确定其能够达到更高的标准。在最新的支持文件中,苹果表示 iPhone15、iPhone15 Plus、iPhone15 Pro 和 iPhone15 Pro Max 的电池在理想条件下经过 1000 次完整充电周期后,仍能保留 80%的原始容量,相比之下,苹果此前宣传所有旧款 iPhone 机型的电池经过 500 次充电周期后仍能保留 80%的原始容量。(IT 之家)

【英伟达】英伟达第四财季收入和第一财季收入指引均高于预期,盘后涨幅 10%

2 月 21 日,英伟达发布 2024 财年第四季度及全年财务业绩。截至 2024 年 1 月 28 日的第四季度营收为 221.03 亿美元,同比增长 265%;净利润为 122.85 亿美元,同比增长 769%。2024 财年全年营收为 609.22 亿美元,同比增长 126%;净利润为 297.60 亿美元,同比增长 581%。值得注意的是,第四财季其数据中心营收达到创纪录的 184 亿美元,同比增长 409%。此外,英伟达预计 2025 财年第一季度营收为 240 亿美元,上下浮动 2%。

英伟达盘后涨幅扩大至 10%,若涨幅维持至开盘,市值将增加 1600 亿美元。其第四财季营收同比增长 265%,黄仁勋称生成式 AI 达到「引爆点」。

英伟达高管在业绩说明会上表示,第四财季中国在公司数据中心收入中占据了个位数的百分比,预计下一财季将保持在类似的范围内。除中国外,公司来自其他所有地区的数据中心增长都很强劲。资料显示,过往财季,英伟达来自中国等受限的国家和地区的数据中心业务收入贡献约 20%-25%。(来源:每日经济新闻)

【Google】 谷歌推出 Android 15 开发者预览版:功耗管理更强大

2 月 17 日消息,谷歌正式发布了 Android 15 开发者预览版,在功耗管理以及隐私上有所改进。谷歌计划在春季初推出公开测试版。

据悉,Android 15 开发者预览版的更新与动态性能框架有关,该框架有助于管理功耗密集型应用程序与手机电源系统的交互方式。

这些调整旨在帮助设备更好地响应对其 GPU、CPU 和散热系统的需求,并帮助具有长时间运行后台任务的应用程序以高能效运行。

隐私方面,新系统在设置中的「隐私和安全」部分下添加了一个名为「广告」的新菜单,用户可以在其中查看哪些应用程序正在跟踪手机上的活动,从而显示广告。(来源:快科技)

【Google】谷歌拟最快今年二季度开始在印度生产 Pixel 智能手机

日经亚洲 2 月 22 日消息,谷歌已通知供应商最快今年二季度开始在印度生产 Pixel 智能手机。(界面新闻)

【OpenAI】OpenAI 员工自曝 996 作息表

思维链作者、从谷歌跳槽 OpenAI 的 Jason Wei 分享了自己在 OpenAI 的一天。该员工从起床到入睡,横跨 9:00-次日 1:15 的作息表被安排得满满当当,中途鲜有与工作完全无关的时间。

事实上,有关 OpenAI 的 996 传言,早已在坊间流传已久。毕竟随便戳开 OpenAI 员工的 GitHub 主页,满屏绿的贡献度并不罕见。就在今年早些时候,OpenAI 前员工、Codex 团队成员 Lenny Bogdonoff 的离职声明,就曾引发大家伙对 OpenAI 工作强度的关注。Lenny Bogdonoff 提到,从入职起,他就每周在办公室工作 6 天,每天的工作时间也很长:从早上 8 点一直持续到深夜,这样算来,比严格的 996 定义还要更加忙碌不少。(新浪科技)

1.3 国内大厂

【华为】华为首超苹果成中国平板市场第一,14 年来 Top1 首次更替

2 月 21 日,据数据公司 IDC 发布的 2023 年第四季度中国平板电脑季度跟踪报告显示,华为首次超越苹果成为中国平板电脑市场出货量第一。这也是自 2010 年以来,中国平板电脑季度出货量首次出现 TOP1 品牌的更替。

数据显示,2023 年第四季度中国平板电脑市场出货量约 817 万台,同比下降约 5.7%,其中消费市场同比下降 7.3%,商用市场同比增长 13.8%。

具体排名上,2023 年第四季度华为的市场份额为 30.8% 位居第一,同比增长了 9.6%;苹果则下降了 6.7%,以 30.5% 的市场份额排名第二。随后分别是小米(9.4%)、荣耀(7.6%)和联想(7.2%)。(来源:cnBeta)

【华为】余承东:今年秋天鸿蒙 OS 将有大版本升级

华为终端 BG CEO 余承东表示,今年秋天,鸿蒙 OS 将有下一个大版本的升级,性能可能会有 30%的提升。(财联社)

【华为】华为发布竖向折叠手机 Pocket 2

36 氪获悉,华为发布竖向折叠手机 Pocket 2,采用玄武水滴铰链,平整度提升 60%,强度提升 20%。此外,据官方介绍,Pocket 2 首次实现折叠手机的 ip68 防水、超强灵犀信号、手势隔空操作、双向卫星通信等等,7499 元起售。

【阿里】速卖通将持续加大对托管模式的投入,四季度订单大涨 60%

2 月 20 日消息,在全托管和半托管的带动下,开工第一周,速卖通商家就迎来了爆单。

阿里最新财报显示,本季度,速卖通 AliExpress 订单强劲增长 60%,主要由全托管半托管为基础的 Choice 业务拉动。今年 1 月,Choice 订单已经占到平台整体订单量的一半。

在财报分析师会上,阿里国际管理层表示,接下来一段时间都将是阿里国际大规模投入期,尤其是 Choice 业务。从目前的数据来看,Choice 的用户体验和用户留存对比之前有明显上升,长周期内会有较好回报,将会是增长的第一优先级。(来源:36 氪)

【小米】小米北京昌平智能工厂正式落成投产

36 氪获悉,雷军发文称,小米北京昌平智能工厂,2 月 18 日正式落成投产,旗舰手机制造产能超过千万台,这是小米历史上第一座自有大规模工厂,也是小米智能制造的又一关键里程碑。据了解,此次落成的小米智能工厂隶属小米昌平园区,整个园区包括小米智能工厂、小米创研中心、小米未来产业园以及配套办公楼。总占地 287 亩,总投资 121 亿元。

【小米】Xiaomi 14 Ultra 正式发布,定价 6499 元起

2 月 22 日晚,小米召开了主题为「新层次」的新品发布会,正式发布 Xiaomi 14 Ultra 手机。

Xiaomi 14 Ultra 配备了全焦段徕卡光学大光圈四摄,第二代一英寸无级可变光圈主摄,搭载全球首套 AI 大模型计算摄影架构 Xiaomi AISP。除此之外,它还配备了小米龙铠架构,升级了机身耐用抗衰性能,以及小米金沙江电池,并重构了通信系统,全线搭载双向卫星通信。价格上,Xiaomi 14 Ultra 定价 6499 元起。其中 12GB+256GB 售价 6499 元,16GB+512GB 售价 6999 元,16GB+1TB 售价 7799 元。钛金属特别版,售价 8799 元。(来源:新浪科技)

【OPPO】陈明永发内部信:AI 手机元年到来,手机行业将进入第三阶段

36 氪获悉,OPPO 创始人兼首席执行官陈明永发表开年致全体员工的一封信。信中表示:2024 年是 AI 手机元年,AI 手机时代将成为继功能机、智能手机之后,手机行业的第三阶段OPPO 成立 AI 中心,加速资源向 AI 的集中,为推动 AI 快速向前发展做好了充分准备。在 AI 手机时代,OPPO 致力成为 AI 手机的引领者和普及者。

【魅族】魅族停止传统手机项目,后续将推出 AI 终端产品

2 月 18 日,魅族官方微博宣布将停止传统手机新项目的开发,转型`All in AI”。在视频中,星纪魅族 CEO 沈子瑜对比了 AI Pin 和 Rabbit R1 等产品,称其带来了非常好的答案,但其实不够完美。

沈子瑜还表示魅族在软硬件都有更大的优势,后续将推出 AI 终端产品,但并未说明具体产品形态。(凤凰网科技)

【拼多多】拼多多海外版 Temu 日本用户每月增长 220 万人

2 月 21 日消息,经营低价日用品等的中国电商平台“Temu”在日本 1 月的用户人数超过了 1500 万人。该电商进入日本约半年时间,已经达到日本领先三大电商平均值的 5 成以上。自 2023 年 7 月正式开展服务以后,每月用户人数以 220 万人的规模增长。

二、技术精选

2.1 技术思考

回望 2023 年,ChatGPT 的突然爆火,让 AI 无疑成为最为值得注目的新兴领域之一,我们也一起见证了生成式 AI 的寒武纪大爆发。这一年来,国内外的生成式 AI 、大模型和相关产品以令人眼花缭乱的速度更新迭代,新的创业浪潮风起云涌。在这 AI 浪潮下,也让我们有了新的开发思考,探索着在各个环节中“前端 & AI”的应用场景。勇于探索的前端开发者们已经开始挥舞着 AI 的“魔法棒”,譬如代码生成、辅助 CR、低代码、测试、业务提效等各类开发环节都被赋予了新的活力和可能性。

当前,大语言模型的商业化持续进行,本文聚焦这一变革背景下的 ChatGPT 定价机制,深入剖析其核心技术内涵。通过细致研究 ChatGPT-3.5 turbo 采用的 Decode-Only 架构,作者系统地探讨了模型在接收到输入提示并生成相应输出的过程中,如何差异化利用 GPU 算力资源,进而阐明了支撑该定价策略的独特技术原理。

2.2 技术分享

在本文中,我们将探讨如何在 Spring Boot 应用程序里集成 Tess4J 来实现 OCR(光学字符识别),以识别出本地和远程图片中的文字。
我们将从添加依赖说起,然后创建服务类以实现 OCR,最后展示如何处理用户上传的本地图片和远程图片 URL 进行文字识别。