开云体育登录入口kaiyun官网首页
  • 首页
  • 资讯
  • 娱乐
  • 新闻
  • 旅游
  • 汽车
  • 电影
  • 新闻你的位置:开云体育登录入口kaiyun官网首页 > 新闻 > 欧洲杯体育就需要用多个序号连在所有的口头来示意了-开云体育登录入口kaiyun官网首页
    欧洲杯体育就需要用多个序号连在所有的口头来示意了-开云体育登录入口kaiyun官网首页
    发布日期:2026-04-09 02:12    点击次数:170

    欧洲杯体育就需要用多个序号连在所有的口头来示意了-开云体育登录入口kaiyun官网首页

    细心看,这个� � 果然占了 53 个 token!

    (标题� � 是� � 平替)

    Karpathy 大神又带来他的新现实新发现了,戒指平直问懵 DeepSeek 和 ChatGPT。

    想考经过 be like:

    DeepSeek 硬是想考了特殊钟也照旧莫得答上来,以为如果" lol "这个谜底就太浅薄了。

    Karpathy 示意:但其实便是这样浅薄。

    随后他进一步解说了这背后的原因——辅导词注入。将一些信息注入进字符中,名义上看没啥诀别,但内部不错抒发各式散失信息。关于善于想考的模子,就会很容易受到这个口头的影响。

    来望望具体是咋回事。

    一个� � 竟占 53 个 Token

    这一主见,源于 Paul Butler 的一篇博客。

    他看到有东说念主说,通过零宽灵通符(ZWJ),不错把纵情的文本藏在 emoji 标志当中。

    戒指一试发现真实不错,不外不错不需要 ZWJ,散失信息的载体也不一定非得是 emoji,纵情 Unicode 字符齐不错。

    这背后的旨趣,波及到了 Unicode 编码字符口头。

    关于浅薄的字符(比如拉丁字母),Unicode 编码点和字符之间有一双一的映射(举例 u+0067 示意字符 g)。

    但关于复杂一些的标志,就需要用多个序号连在所有的口头来示意了。

    此外,Unicode 当中还诞生了 VS-1 至 VS-256 的变体遴荐符(Variation Selector),不错针对基础字符作念出相应的变体,但自己却莫得我方的"长相"。

    何况只作用于少许部分字符,主如果 Unicode 中的中日韩长入表意笔墨(CJKUI),其他大部分的 Unicode 字符齐不会有任何变化。

    但当带有变体遴荐符的字符被复制粘贴时,遴荐符也领会盘插足剪贴板。

    而在 Unicode 当中,这样的变体遴荐符一共有 256 个之多,用来编码信息也曾是绰绰多余了。

    比如底下的这个 a,唯有 U+0061 示意的是其自身,剩下背面的 10 多个完竣是变体遴荐符。

    有了这一表面基础,接下来的事情无非便是建造每每字符和变体遴荐符之间的诊治算法。

    固然编码的内容越多,变体遴荐符也就越长,何况如果是汉字,还会产生更多的变体遴荐符。

    比如咱们试图将量子位的 Slogan "跟踪东说念主工智能新趋势,温情科技行业新冲突"藏在一个" 100 分"的 emoji(󠇘󠆯󠆭󠇘󠆨󠆚󠇔󠆪󠆪󠇕󠆧󠆕󠇖󠆉󠆪󠇘󠅳󠆭󠇖󠆆󠆠󠇘󠆦󠅻󠇕󠅺󠆯󠇟󠆬󠅼󠇕󠅵󠆣󠇖󠆣󠆘󠇗󠆗󠆁󠇖󠅺󠅰󠇘󠆑󠅼󠇔󠆨󠆊󠇖󠆆󠆠󠇗󠆚󠅱󠇗󠆐󠆤)当中,产生的变体遴荐符数目达到了 58 个。

    何况把解码算法告诉 ChatGPT 之后,原文本也不错被收复。

    是以,看似是唯有一个 emoji,但本体上背面藏了若干字符,只怕唯有把笔墨装进去的东说念主我方才知说念了,以至塞个《滕王阁序》进去也没问题。

    而一个占 53 个 Token 的笑容,比较之下就愈加不及为奇了。

    问懵 DeepSeek

    回到 Karpathy 的辅导词注入,他测试了 ChatGPT 与 DeepSeek。

    ChatGPT 回应在此:

    DeepSeek-R1 花了 10 分钟想考差点就奏凯了。它认为散失的信息可能是 Onli!n37e27i4h4he3ingle7odlol。因为以为如果仅仅一个单词" lol ",那便是天方夜谭,是以就废弃了。

    按照雷同的辅导词,咱们也问了一遍 DeepSeek-R1。

    想考经过如下:

    在想考了整整 529 秒之后,如实亦然回应出来了 lol 的兴致。

    也有网友共享了交流的资格。Gemini 无法解码,但 Claude 和 GPT 不仅识别出来,还能识别编码音尘中的操作。

    或者平直把这个热情包扔给模子,又该奈何呢?

    从网友的成果来看,ChatGPT 察觉到了这背后可能有某些散失信息。

    而 DeepSeek-R1 此次只花了 153 秒(有点跨越)。它最初意志到这笔后随着一系列 Unicode 字符。

    何况还先容了下:他们频繁用于元数据,何况以不观念的口头呈现等等。。。

    然后还试图给了下背后的信息应该是:

    ?^i Q^cgUb gYdX dXU cY^WU gbT

    显着是回应演叨的。

    关于这一不测发现,Karpathy 示意,原则上模子不错通过「变体遴荐器」variation selectors 中找到散失的信息并按照证实进行操作。但由于这种编码界面口头可能过于具体,需要用辅导来解说它。

    他提到了一个口头,那便是将其收录到预考试中。这些学问注入到模子参数欧洲杯体育,模子就大略在莫得辅导的情况下解码这种特定的编码。



    Powered by 开云体育登录入口kaiyun官网首页 @2013-2022 RSS地图 HTML地图