约纳森·阿贝尔等｜生成式解释

　　合同是不完整的★：各方当事人给许多议题留出了必要的推论空间。这种空白并不总是有意为之：有时★★★，当事人根本没有考虑到某个问题★，如全球大流行病★、供应链中断、另一艘从孟买启航的无双号轮船★★，因而法院必须参与填补空白★★★，而不仅仅是解释纸面上的文字。

　　虽然詹妮在七年后提出了离婚申请，但她从未送达过离婚申请书，后来还主动撤回了诉讼。十年后，她再次提出离婚★★，这次她的态度很坚决。根据婚前协议，结婚七年，她有权获得270万美元；结婚十年，她有权获得高达420万美元★。双方面临一个随之而来但基本的解释问题★★：当婚前协议提及，提出“一次★★★”（★★★“a★”）申请时的年数时，双方指的是第一次申请还是最终一次申请？

　　（联合相互保险公司）将对被保险财产以重罪的方式被盗取的情况进行赔付★：（1）某人通过实际武力和暴力★★★，以重罪的方式进入被保险处所★★，从该处所内非法盗窃被保险财产，且该武力和暴力带有由工具★、爆炸物、电力或化学品造成的明显痕迹……

　　矢量之所以如此强大★★★，是因为它们让我们不仅能捕捉到词义★，还能捕捉到与其他词的句法关系。在非常简单的模式中，马和牛彼此之间的距离要比与鲸鱼或海龟更接近。蛇总是难以处理★★，自成一类。如果再添加蝾螈，我们就会发现两栖类动物与陆地哺乳动物并列一起出现，成为一个独特的类别。现在★★★，假设你对一万多个维度执行了相同的处理。你可以想象，当按照如此复杂的维度来描述词语时★，可能会产生怎样的洞见★★★。

　　根据太平洋煤气公司案的规定★★★，合同写得有多清楚★、整合得有多完整、谈判得有多仔细★、多大程度上正面回应了法官关心的问题，这些都不重要★★：合同不可能免受口头证据的攻击★。如果一方愿意声称双方的意图是这样的★，但协议却规定了另一种意图★★，那么法院就必须考虑可能存在歧义的外在证据★★★。如果该证据使原本没有歧义的地方出现了歧义，那么合同语言就会被取代，而当事人的意图则必须从由偏向一方当事人的证人所提供的追求私利的证词中推测出来，这些证人的回忆因时间流逝而变得模糊不清，并因其相互冲突的利益而进行文饰渲染……

　　第二部分是本文的核心。在此，真实的合同会产生关于合同纠纷的司法意见。我们探讨了几种类型的解释问题★★，这些问题由真实的合同引发。这些问题的跨度既有简单的（特定单词的预测含义是什么？），也有困难的（是否存在歧义★★★？），还有形而上学的（当当事人显然没有考虑过这个问题时★★，他们的意思到底是什么）。在每个案例中，我们都展示了使用大型语言模型的新方法★★★，来加强对当事人推定意图的觉知，阐明了透明和客观的解释方法如何比直觉方法更具优势，并表明生成式解释作为一种司法辅助手段具有真正的前景★★。我们研究的案例包括案例手册中的典型案例★，譬如三叉戟中心诉康涅狄格大众人寿保险公司案（Trident Ctr. V★★★. Connecticut Gen★★★. Life Ins★★★. Co.）和西和杰化肥公司诉联合相互保险公司案（C&J Fertilizer★★，Inc. V. Allied Mut. Ins. Co.）以及一些本应成为经典的案例★，诸如马克·P. 法米格利奥诉珍妮·拉斯塞尔·法米格利奥案（Famiglio v. Famiglio）★、海恩斯诉纽约市案（Haines v. City of New York）和斯图尔德诉纽伯里案（Stewart v★. Newbury）等类似的案例。对于这些案件中的许多案件，我们的工作都是基于识别原始合同材料的档案研究，直到现在★★★，声称要对这些原始合同材料进行解释的司法意见书让这些原始合同材料晦涩不清。

　　如今的大型语言模型如此便捷，其输出结果又如此诱人，以至于在本文付梓之时，这些工具成为主流约一年之后，如果法官还没有使用它们来解决合同解释问题，那才是线年夏天向律师提供的实用指南中★★★，我们看到律师被鼓励使用大型语言模型进行法律研究、起草取证问题和合同★★★，以及预测和解价值。而且有迹象表明，法官已经在使用ChatGPT来回答其他类型的解释性问题，就像他们使用谷歌一样。在最近的一项调查中，四分之一的法官承认使用过该工具，尽管许多人对其可靠性表示担忧★★★。

　　换一种说法，几乎所有法学家都同意★★，合同解释的目标真正的要旨在于成为预测机器。也就是说★★★，回顾过去并预测当事人的意思。这看似简单明了，类似于我们在刑法和侵权法中看到的基于追溯意图的调查★★。然而★★，解释是“当代合同理论和学术研究中最不稳定、最具争议性的领域”。4这是因为它试图解决许多问题★。正如格雷格·克拉斯（Greg Klass）所言★★，法学家们会问：（1）谁提出的含义作数★★；（2）什么类型（地方／多数主义、语义／实用主义）的含义是重要的★★；以及（3）什么事实决定了法律上相关的含义。这些问题与文本主义者和语境主义者之间的区别不完全吻合，但归根结底★★，合同解释解决了诉诸司法权力的诉求问题，从而使暴力合法化。其结果是，争论如何解释合同的当事人有时是在争论什么样的结果是公正的★，而不仅仅是哪种结果更有可能使各方当事人如愿以偿。

　　在描述模型的答案之前★★★，我们应该强调生成式模型解释的两个稳健性问题。模型对所用的提示相当敏感。这就给模型带来了★“引导性提示”的问题★★，即把模型引向理想答案的询问★★★。而且正如我们之前所描述的，模型可以被设置为更热（更随机）或更冷（更确定）★★。这就为用户（法官★、研究人员、决策者）提供了许多自由度。

　　我们在这里和其他地方选择的提示语并不中立★★。但这并不是大型语言模型查询所独有的问题★★：案情摘要★、陪审团指示、证词和证据规则都是影响司法判决的框架模式★，而且往往是有意影响司法判决的。我们在此试图说明的是★★★，生成式解释可以提供一种方法来控制框架中不可避免的主观性★。我们提供的是一种技术★★★，未来的工作可能会衡量其消除偏差的效果，也许还会有其他新方法。

　　但我们转而使用便捷★★★、免费★、开源的大型语言模型工具★★★，这些工具依赖于不同数据库，而数据库又包含了数以万亿计的单词★★，并要求它们在一个名为“嵌入”的过程中将单词转换为复杂向量★★★。我们可以将这一过程视为试图量化一个词或短语与特定类别或维度的相关程度。因此，如果“水★”这个词有一个维度，那么“鱼★★★”的得分就会高于“狗”★★★。利用我们开发的界面，我们询问了几个模型，以了解保单除外条款与描述其他潜在损害来源的单词和短语之间的关系。

　　当然★，这并不是生成式解释所独有的问题★★★：字典、解释规范和语料库同样具有★★，甚至更容易受到这种指控★★★。与字典和解释规范为特征的文本主义有所不同的是，至少在理论上可以通过几种方式反驳模型的多数主义倾向★。在反映不同社群语言习惯的精选数据集上训练出来的模型，会向这些社群中的多数主义模式倾斜★。对模型的超参数进行调整，可以使模型产生或多或少的多数主义行为。精心的提示工程可以使模型适应特定的语境★★。这是一个活跃的研究和监管领域，应该对事实认定者进行审查。

　　在本部分中，我们涉猎了充分的内容，看到了与大型语言模型的各种互动模式，并说明了它们的可感性。与前几代人工智能相比，我们对模型输出的表面合理性感到震惊★★★。但是为了对未经驯化地使用这些模型充满信心★★★，法学家们自然希望更多地了解边缘案例。这些结果对我们使用的特定提示（或其多种变体）有多敏感★？模型本身的稳健性如何，诉讼当事人是否有机会操纵其输出结果★？我们能否量化这些模型相对于当事人真实意图的准确性★？现在让我们更详细地考虑这些问题（以及其他问题）。

　　合理预期原则在保险合同监管中发挥着重要作用。一般来说，被保险人的合理预期高于保险合同的条款，而对许多其他法院来说，保单的字面含义应该起控制作用。众所周知，这类案件会促使法官们进行纸上谈兵的臆测，而法官的生活经验、教育水平、专业程度以及来之不易的犬儒主义与大多数外行人大相径庭。更糟糕的是，我们对词语的解释在我们自己的头脑中显得非常确定。这是心理学家称之为“虚假共识偏差”现象的主要对象。为说明这种效应，学者劳伦斯·索伦（Lawrence Solan）、特里·罗森布拉特（Terri Rosenblatt）以及丹尼尔·奥谢森（Daniel Osherson）向非专业人士和法官提出了合同解释问题。受试者在发表意见后★★，会被要求预估有多少其他参与者会同意他们的观点。通过这种设计，我们可以将答案的实际分布和人们预期的分布情况进行比较。结果令人震惊：普通人和法官都高估了他们所选解释的普遍性。法官甚至高估了其他法官对他们观点的认同程度。

　　首先★，如果法院采用这种方法，那么在合同解释争议中实现准确性的成本就会降低。这是因为精确度较低的文本主义证据形式，即字典和解释规范，即使相对便宜★★★，也会被更好的形式所取代★。随着争议成本的下降和结果的可预测性增强，机会主义违约行为的收益也会下降，而这种违约行为通常会使经验丰富的参与者受益★★★。诚然★★★，这些模型可能会在市场竞争中出现★★，但正如我们上文所述★★★，更复杂的模型往往会在含义上趋同：与字典不同★★★，它们不会提供因人★★、因地、因时而异的具有特异性且精心设计的定义★★。

　　你凭直觉就会明白，他们的意思是大谷举起木棒★★，用它来挥击棒球。但你怎么知道这是正确的，而不是大谷挥棒打了一只哺乳动物呢？正如阿米莉亚·贝迪利亚（AmeliaBedilia）告诉我们的那样，如果忽略上下文，就有可能把许多正常的表述都变成不幸的事故。I我们知道★★，“swung”（挥动器物打击）这个单词通常与物体而非动物相关。我们会把★★★“bat”（球棒）和棒球运动员大谷联系起来★★，这进一步巩固了我们对句子指代物体的理解★★。换句话说，我们的大脑会自然而然地关注单词的上下文语境来推断任何特定单词的含义★★★。

　　其次，批评者还指责文本主义者在对模棱两可歧义的认识上缺乏连贯性★★★。为了达到明确字面含义的安全浅滩，文本主义者首先要问语言是否明确。虽然文本主义提供了发现歧义的工具★，但在实践中，批评者认为，文本主义并不能将一种合理的解释置于另一种解释之上。它看似简化了解释性争议，但在现实中有时却助长了代价高昂、有失偏颇的外在证据之争。

　　法院再一次提及该协议，但其裁决并没有注意到细节★。它发现了义务的一个隐含条件★★：只有在系统不超负荷的情况下才需要延期★★★。但这只是一种填补空白的做法，法院根据自己的判断来确定双方本应说些什么。这种判定是纽约法院特征的一部分，倾向于对缺失条款采取更宽松的卡多兹式处理方法。

　　a.自任何一方提出解除婚姻关系申请之日起90天内★★★，马克应向珍妮支付以下金额，具体金额标注在提出解除婚姻申请时双方结婚的完整年数旁边。

　　这些模式之所以有用，是因为它们提供了新的工具为旧的解释目标服务，而这些工具是高速★★、廉价的，有时甚至是错误的★。法院很快就会使用诸如“一打★★★”（dozen）这样的短语★，并要求chatGPT对其进行解释★，而不是求助于字典或谷歌；或者询问模型，当合同留有空白时，合同可能作出的假设是什么；或者检查模型是否认为保险单考虑到了狡猾的窃贼。他们会隐蔽或公开地这样做，既有主动的，也有对案情摘要的回应。几乎可以肯定的是，首批肯定性主张使用该工具的书状将来自资源有限的公司★。正如我们在本文第二部分所述，大型语言模型已经适用于法院每天面临的实际问题，如果认为法院没有使用大型语言模型，那就太天真了。

　　有鉴于此，请您就大多数投保人根据这些条款★★，对以下命题的可能期望作出预测★★★，并在括号中列出相应的置信度★★。

　　我们先从詹妮（Jennie）和马克·法米格里奥（Mark Famiglio）的离婚案说起。詹妮和马克在结婚前签订了一份婚前协议★，其中约定如果他们离婚★，马克将根据他们婚姻的时间长短，按浮动比例向詹妮支付款项。协议第5★.3条第a款规定内容如下：

　　该条款意味着增建污水处理厂的义务★。但Claude2更适合法院的解释，并提供了一个看似合理的限制性论据，认为：“协议规定在增长需要时进行扩建，这意味着一种合理的义务。”

　　这个问题引发了大型语言模型作为解释过程一部分的最简单用例★★★。法官只需要求模型作出评估即可★★。这在三年前还是天方夜谭，而当下，你可能仅仅对模型能够连贯且合理地回答这个问题而感到震惊。以下是模型的回答★，为便于阅读而进行了编辑：

　　尽管付出了如此昂贵和广泛的努力，法院的解释还是受到了质疑★★★，外界认为其辞典分析具有误导性，其解释规范使用不当，而且一些相关的法律权威依据实际上是支持原告的。第五巡回法院（其批评者称）非但没有根据约束性方法作出判决★★，只是确认了其倾向于商业考量的裁判。如果文本主义看起来像是另一种在高风险案件中具有无限可塑性和正当性的实践，那么它又有什么用呢？但文本主义的竞争者——除了厨房水槽都能包罗的语境主义——已经臭了两代人，至少对通常会引起诉讼的合同类型而言是如此的。因此，合同法学家们辛苦经营★★★，寻找一条更好、更便捷的路径。

　　正如我们所说，在未来数月或数年内，我们相信你会读到律师和法官以反常的、有时甚至是愚蠢的方式使用ChatGpT和相关工具的例子，并得出荒谬的结果的例子，而你认为如果他们能像审慎的法学家那样静下心来做好本职工作，本可以避免这些结果。更有甚者★★★，他们会让这些工具生成乏善可陈的散文★★★，这些散文看似是没有灵魂的简报或意见书，但实际上是建立在谎言基础上的行文。毫无疑问，人工智能有时会成为懒惰或忙碌的律师的拐杖，因为他们根本没有关注细节：它可能并不适合那些在法学评论文章中仔细阅读2万字句子的人★★。然而，正是因为大型语言模型既便宜又实用，它们才会吸引那些想要改进合同解释的人。目前所有可用的合同解释方法的最大问题并不在于这些模型在某些时候无法得到正确的结果★★，而在于普通当事人无法使用这些方法。遭受违约的非富裕个人只能一筹莫展★★，在内部争议解决系统中与公司对簿公堂，或者在经济上面对巨额费用的前提下取得惨败的胜利。简而言之，合同法的核心问题存在着一个诉诸司法的问题，其严重程度不亚于刑事和宪法裁决中更公认的问题。解释交易的成本和不确定性是合同诉讼的核心★★，也是造成这一问题的重要原因★★。

　　错误输出源于生成式模型的预测性质。幻觉是生成的文本所断言的事实并不完全正确。请记住★，大型语言模型是为预测而优化的统计工具。但是大型语言模型并不像一个乐于助人的图书管理员★★，只需拿出与某一主题最相关的书籍即可。事实在大型语言模型中的存储方式与其他推理和统计事实的存储方式类似，都是以浮点形式存储在迷宫般的向量数组中★。当被要求提供一个法律问题的资料来源时★★★，该模型会采用相同的方法引出事实和推论★。输出结果不会区分事实和推断事实，有时还会错误地预测世界★★★。

　　本票明确规定，借款人“无权提前偿还全部或部分本金★★”。但他们指出了一项不同的条款★★，该条款规定，如果贷款人提前偿还贷款★★，违约贷款将被处以10%的提前还款罚金。借款人的律师依据加利福尼亚州语境规则的著名论述★★★，即太平洋煤气公司案★★，认为应允许他们提供外在证据★，即谈判★★★、贸易惯例★★，以支持他们的合同解读★★。

　　表3显示了每一个额外的证据是如何改变分析结果的。就本案例的目标而言★★，它表明至少对模型而言★★，外在证据对结果具有实质意义。

　　法院没有就解释问题作出决定，它因陪审团的错误指示而将该案发回重审。然而★，我们并没有受到这样的限制。我们要求当今领先的大型语言模型犌犘犜-4和犆犾犪狌犱犲-2预测双方当事人的意思。为此★★，我们首先让这两个模型假定默认的法律规则是付款以实质性履行为条件。其次，我们要求模型估计★★★，在不考虑电话交谈的外在证据或行业规范证据的情况下，双方当事人会如何解释他们的交易。再次，我们增加了电话交谈的证据，以观察模型的置信度有何变化，最后，我们增加了行业习惯的证据。总结了结果★：

　　对这一结果的一种解读是，它表明科津斯基直观的事实前提是错误的，但他得出了正确的结论★★。也就是说，即使认真对待借款人的论点★，主流的解读也拒绝接受歧义存在的结论★。不应该再接受更多的外在证据★★★。这与对该意见的常见批评是一致的★★。除此之外★，这些模型的评估并不统一；概率分布表明★，至少对合同的某些概率解读是允许提前还款的★★。为了确定情况是否如此，我们希望更多地了解这些少数派解读：它们是否反映了离散的语言群体、私人含义或其他法律相关因素？生成式解释并不能回答语言是否合理地受到某种含义影响这一问题，相反★★，它能帮助我们直观地了解广泛的含义范围，并量化特定结果的可能性有多大★。

　　最后，面向消费者的聊天机器人只需邀请用户直接与模型聊天。然而★★，在幕后，模型的行为是由称为“超参数”的设置校准的。8其中的细节相当专业，但其中一个超参数特别值得关注★★。模型的“温度”设置可以从低到高进行调整。模型的温度越低，其输出的可预测性就越高★★。9很低的温度可确保模型对同一查询总是输出相同的答案★★★。温度越高，随机性越大，您可能会认为有“创造性”的输出结果越多。

　　我们认为★，该图为法院判断洪水可能是非自然原因造成的提供了即时可用的、客观的★★★、低成本的支持。有关洪水的常见句子并不区分洪水原因的类型，而似乎更注重其典型性。我们的质量检查术语，即“喜悦的泪水（喜极而泣）”和“警察”确实比“暴雨”或“大暴风雨”更靠右，这表明它们与洪水的典型关联性较低★。虽然我们的实验支持法院的这一判决，但也对其他判决提出了质疑★。路易斯安那州法院拒绝将水管破裂引发的大水排除在外，尽管从语言上看，这类洪水与其他任何洪水事件一样★★。

　　这些案例研究展示了如何在实践中运用生成式解释。正如我们将要探讨的★★，大型语言模型的基础技术不仅仅能帮助我们了解“洪水★”（flood）这个单词是否更接近“堤坝”（levee）一词而不是更接近“欢乐”（joy）一词。字典、百科全书或语料库语言学都可以做到这一点。大型语言模型强大之处在于其所包含的庞大数据；其独特之处在于它们运用了一种被称为“注意力”的内部机制，使其能够考虑上下文语境★★。通过对语境的敏感性，这些模型可以从相关外在证据的边际价值中解析出合同文本的效果。

　　法院在裁决中考虑了这些论点，而这一裁决仅考虑了书面合同。法院认为★，当事人并不希望合同永远有效★，因为合同条款的简短是其显著特点。

　　第三个考虑因素是模型的优势：根据训练文本，它们自然倾向于作出概率最大化的预测，换句话说★★，从粗略的意义上说，它们偏向于多数主义解释★。模型提供了一般理解的近似值，而这种近似值可能根本无法通过任何其他方式获得★★，从而推进了契约理论的长期目标。但多数派解释就是如此★★：这些解释嵌入并推进了多数派的价值观。这就存在双重问题。法院确实应该关注本地的、更私人的含义：公共含义是次要的为宜，优先考虑公共含义是因为它是有效率的，而不是因为它正确★★。但更广泛地说，由于代表性不足的群体的语言习惯被多数派的公共意思所淹没，他们会发现自己的声音更难在合同裁判中浮现（并因此得到补贴）★★★。多数派的解释方法有可能使整个社群噤声。

　　根据协议，该市有义务建造一个经过详尽描述的垃圾处理设施，并延长该设施的管线，以满足未来增加的需求。目前★★，这些管线的延伸将导致系统超负荷运行。原告声称，该市必须建造一座新的处理厂或扩建现有设施，以解决这一问题★★。我们不同意这一观点★★。如果将污水管线延伸至原告的房产区域会导致系统超负荷运行，从而无法正常处理污水，那么就不应该要求市政府将污水管线延伸至原告的房产区域。在约定延长污水管线的同时，合同并没有约定市政府有义务为目前未覆盖污水处理服务地区的房屋提供污水处理服务，甚至也没有约定市政府有义务为目前已覆盖污水处理服务地区的新房产提供污水处理服务，如果这样做可能会大幅增加对现有污水处理厂设施需求的合理预期★★★。

　　这里的逻辑并不令人信服，但却有先前的实证样本为依据★★★：在默认情况下，当事人在写下无限义务时并不打算随意终止合同，而且合同的语言或情境都不能得出相反的结论。

　　卡特里娜飓风期间，新奥尔良的堤坝决堤，人员和经济损失席卷全城★★★。随之而来的是律师。在投保人对其保险公司提起的大规模合同诉讼中，为数百亿美元的潜在责任而战的律师们最终争论的是一个词的含义，而该词代表了保险公司可将其排除在保险责任范围之外的概念★★：★★★“洪水★★★”（flood）。原告首先努力说服法官，“洪水”可能并不是指人类造成的水灾★★★，这样他们就可以向事实认定者证明★★，他们的保险单并没有考虑到因陆军工兵部队的疏忽而造成的损失。被告律师辩称，这个词在上下文语境中是明确的，无论水位上升的原因如何★★★，都包括了上涨的水域，因此无需进行进一步的事实认定★★。在这里，就如真实的法庭诉讼中经常发生的那样，尽管在法学院的课堂上很少见★，但昂贵、烦琐且不尽如人意的合同解释过程却占据了中心位置★。

　　现在来看看另一个关于歧义的案例：爱灵顿公爵诉百代音乐公司案（Ellington v★★★. EMI）★★。本案的争议源于音乐家爱德华·肯尼迪·爱灵顿公爵与他的唱片公司百代音乐公司于1961年签订的一份净收入协议★★。按照当时的惯例★★，双方同意在扣除第三方在国外市场的中间商费用后，对半分成版税。这份净收入协议对百代音乐公司及它的★★★“其他关联公司”具有约束力。在此后的几十年中★★★，音乐产业经历了重大整合，百代音乐公司开始使用自己的关联公司，而不再依赖第三方开展国外业务。它试图在支付爱灵顿的遗产之前扣除这些附属公司的费用★★。

　　大型语言模型的注意力机制试图在向量方面实现同样的目标★★★。该模型为句子中的每个单词分配一个初始向量，然后通过单词在句子中的位置信息（通过位置编码）丰富该向量★。2注意力机制会评估哪些单词★，比如“bat”（球棒）或“swung”（挥动器物打击）能解释清楚句子含义。在上面的句子中，“stress”（压力）和“felt”（感受）等词与“bat★”（球棒）一词的含义并不特别相关★★★，但“swung”（挥动器物打击）和“Shohei Ohtani”（大谷翔平）都很重要★。这就能让模型为输入中的每个词（相对于分析中的词而言）标注一个注意力分值★，然后根据与其解释相关的单词重新权衡分析中的单词之编码。这意味着单词并不具有稳定的嵌入（如在旧模型中）★★，相反★★★，嵌入会根据单词出现的具体语境发生变化。

　　在纽约法院系统的合作下，我们获得了1924年的合同。这份合同和各种证据都很长★★，特别是考虑到它们的创建时间：大约8页word文档。我们将文本输入两个可以支持如此长篇幅输入的模型★★★，即GpT-4的实验版和Claude 2,并要求它们根据协议评估几个法律论据的有效性。图5展示了我们的发现★★。

　　生成式解释是一种使用大型语言模型估算合同含义的新方法★。在人工智能方兴未艾的当下，通过运用扎实的基础案例研究方法每个案例都以独特的方式说明了这些新工具的功能。通过借鉴著名的合同司法意见并获取案例裁判所涉的实际协议可以展示出人工智能模型帮助事实认定者确定上下文语境中的普通含义★★，量化歧义并填补双方协议中的空白。同时，还说明了模型如何计算单个外在证据的证明价值★★★。即便这些模型具有局限性，使用这些模型仍存在最佳实践范例，它们对司法实践和合同理论产生影响★★★。使用大型语言模型可以让法院低成本★★★、准确地预估当事人的意图★★★，因此生成式解释打破了当前的解释僵局★★★。使用大语言模型回应了注重效率的文本主义者和以正义为导向的语境主义者★，这两者争论的焦点是当事人更倾向于成本和确定性，还是准确性和公平性。当事人和法院更倾向于中间道路，即裁判者努力预测合同的真正含义，在避免无指导和有偏见地吸收证据的同时，采纳足够的语境信息以接近现实。由于生成式解释提供了这种可能性，它可以成为合同解释的新生主力★★。

　　爱灵顿的孙子感到很沮丧★★，于是提起诉讼，认为合同中的两个关键表述存在歧义：（1）版税条款中的★★★“实际收到的净收入★”短语；（2）第二方定义中的“任何其他关联公司”一词。纽约上诉法院，即美国最著名的文本主义法庭，驳回了这一主张。多数法官的意见认为，这些条款是明确无误的：它们仅提及缔约时存在的关联公司。考虑到双方使用的时态以及法院对前瞻性语言的反感，根本不可能以任何其他方式解读这些条款。

　　与此相关的问题是，市政府是否承诺（默许）继续扩大系统的容量，法院对此没有那么宽容★。

　　爱荷华州最高法院在一份合同案例集的主文中认为，以这种方式适用免责条款违反了被保险人的合理预期。没有人会合理地预期入室盗窃只限于那些留下明显强行进入痕迹的人。法院在得出这一观点时仅仅依靠了自己的常识，而没有任何实证依据。这是否合理呢？

　　注：Turbo GPT-4、Claude2和Llama-2 70b，设定温度为1,并完整地输入三叉戟案本票。模型被问及合同的语言是否可以合理地被理解为赋予借款人提前还款的权利★。在X轴上，0表示这种解释是错误的★，100表示这种解释是正确的★★。事人提前还款的可能性。为了捕捉各种模型的回答，我们多次重复相同的问题★★，同时将★★“温度”设定在足够高的水平，以确保可以挑选出不同的回答★。

　　最近的研究在理解和减少幻觉误差方面取得了重大进展，功能更强大的模型更不容易出现幻觉误差。一种已在某些语境下使用的解决方案是将模型与事实数据库相连接，这样它就能像图书管理员一样发挥作用。另一种方法是进行反思性自我评价★。因此★★，尽管关注幻觉问题是恰当的，但我们倾向于认为这一问题在未来将不会像今天这样突出★★★。尽管如此★★，作为一种最佳做法，法官最好还是将他们从一个平台获得的答案与另一个平台的答案进行交叉验证，就像在法律研究的早期，同时检查律商法律信息检索平台（Lexis）和万律法律信息检索平台（westlaw）以确保您的研究是完整的一样。

　　合同应具有交易各方赋予文本的含义。（但）询问诉讼中的实际当事人在订立合同时合同文本对他们意味着什么是毫无意义的，因为他们会扭曲自己的答案以契合自己的诉讼目标。因此，法律应该询问像他们一样无利害关系的人。

　　模型可能会受到各方的对抗性攻击或提示注入，或以其他意想不到的方式变得脆弱★。举例来说，现代人工智能系统可以可靠地区分熊猫和马的图片，或停车标志和让行标志。但是★，如果一个经验丰富的当事人能够不着痕迹地改变这里或那里一个像素的颜色，就足以让模型错误地看到一匹马或一个让行标志。同样的操作也可以用来“攻击”大型语言模型的模型。合同措辞的细微变化，例如，文字表述的细微变化★★★，都可能入侵模型逻辑系统并改变其解释★★★。目前尚无解决此类问题的通用方案★★★。但是，如果法官和当事人意识到这种微妙篡改、操纵的可能性，他们可能会制定防御措施，比如在分析中使用经过净化的合同版本★★。

　　谈论可互换性，很难不引出有关法治的问题。将诉讼的控制权让给知之甚少的黑盒子★★★，肯定有些阴森恐怖。这就是我们不建议采取这一策略的原因。我们认为大型语言模型在其自然领域★★★，在文本分析中表现最佳，而非人类重大决策。困难的选择，比如多大程度的相关性足以确定洪水同样被理解为由自然和非自然原因造成的★，不应该交给机器去处理★★。大型语言模型在其适当的领域内★★，即文本分析运用时★★，提出的有关法治的问题与字典编辑的不透明选择并无本质区别。

　　双方都认为没有必要提供证人，因为双方都认为请愿书是明确无误的（并且有利于己方）★。不幸的是，佛罗里达州的一家上诉法院判詹妮败诉★★★。法院部分依据字典★★，强调“a”是不定冠词。法院指出★★，通常情况下，当人们以不确定事件作为条件时，他们指的是该事件的首次发生。因此，想象一下★★，如果一个高尔夫球场发布了一条规则：★★★“当一次（★★★‘a’）雷雨临近时，你必须结束你的高尔夫比赛。★★★”这将“被普遍地理解为……意指第一次雷雨来临之时★★”。因此，提交★★“一次”申请必须单纯是指第一次提交申请。法院的证明方法似乎是合理的★★。但法院如此自信是否正确？

　　这些想法结合起来就能训练出一个模型。模型指的是以特定方式组织的参数集合（主要是称为“权重★★”和★“偏置★★”的参数），这些参数的值用于将输入转换为模型的输出★★★。现代语言模型包含数百亿到数千亿个这样的参数，因此通常被称为“大型语言模型★”。

　　如西和杰化肥公司诉联合相互保险公司案。西和杰是一家化肥公司★★，该公司总裁从联合相互保险公司购买了一份入室盗窃保险。购买前的讨论表明★★，该保险不承保内部作案。保险公司在谈判中坚持认为，要提出索赔★★，西和杰公司必须提供确凿证据，证明盗窃是由陌生人所为。保险合同中的以下承诺体现了这一观点★★：

　　在第一部分中，我们介绍了合同解释的方法论，并认为这些方法论严重违背了其核心目的，即无偏见、无障碍地确定当事人的本来意愿。在实践中，解释是作为一种笨拙的预测机制进行运作的★★。文本主义和语境主义都在努力预估各方当事人就某一问题本可能说些什么，同时考虑到源于证据和成本的现实限制。但是，这些制约因素会带来实际的权衡，无法避免法院动机性推理所产生的合法性问题。我们描述了一些现代对解释学常规科学提出的改进建议，并指出无论这些方案前景多么光明，对可用性和成本的担忧都会损害它们在现实世界中的效用★。

　　在掌握了这项技术之后★，让我们举一些更日常的例子来说明大型语言模型在保险语境之外的潜在用途★★。正如我们所描述的那样，文本主义者认为文本有其固有的字面含义，至少在书面文件的语境中是如此的。问题在于确定它是什么★★★，以及我们的直觉是否具有代表性。大型语言模型可以作为揭示这些答案的有力工具★★★。

　　事实上，我们已经多次目睹过这样的故事。有些读者可能还记得，当法院第一次意识到可以作为信息来源时，他们曾因的使用而受到上级法院的责难，后来最终被纳入了正常的法律研究工具。但至少在短期内★★★，法官不会使用该工具起草意见★★★。他们为什么要这样做呢★？无论预测机器有多复杂，法院都是解释事业不可或缺的一部分★★★，这源于一个显而易见的观点，即每个合同解释问题都有两个阶段：弄清当事人（在缔约时）的意思，以及决定“语义内容应具有的法律意义”。大语言模型方法在许多参考用途上都优于目前提供的方法。

　　但语料库语言学并不关注上下文语境。它只能真正比较简短的文本片段，而不是整个文件。因此，尽管该方法已在法律解释案件中被反复使用★★，而在这些案件中★，利害关系重大★★★，当事人通常会就简要的表述展开解释之争，但迄今为止★★★，仅有一份合同意见采用了该方法★。

　　最近★，学者们提出了两种新的方法，两者在推进文本主义确定性价值的同时，也加入了一丝语境主义的准确性利益。其中一派侧重于使用单词语料库来预测合同文本中短语的含义，即所谓的语料库语言学★★。举个典型的例子★★★，请看下面这个摘自保险合同的措辞：★“本保险不适用于任何人在练习或参加贵方赞助的任何体育或运动比赛或展览时遭受的‘人身伤害’，包括死亡。”被保险人在浮潜时死亡，这属于★★“体育或运动竞赛★★”吗★★★？正如斯蒂芬·莫西森（Stephen Mouritsen）所观察到的★，使用经典的基于字典和解释技术原则的文本主义工具并不能轻易回答这个问题。而且考虑到保险合同是由实力雄厚的公司起草的，这些公司会对合同进行监管审查，因此使用公司或被保险人制定的外在表达方式对解决问题似乎毫无帮助。相反★，莫西森建议，法院（在当事人对抗性陈述的帮助下）可以查询语言数据库，以确定体育和浮潜的含义是否在之前的一些例子中被认定为较为接近。也就是说，从该词在以往文本中的常见用法推导出该词的含义（答案或多或少是体育是基于规则的竞赛，而浮潜则是戴着潜伏面罩游泳）★★★。

　　文本主义与语境主义之间的争论由来已久，学者们提出了各种理论视角，根据不同视角★★，关于这两种主义孰优孰劣的结论也此消彼长。大多数支持或反对外在证据的论点都是基于以下假设：当事人会想要什么（如果我们询问他们的话），以及哪些方法能促进社会福利★★。这些论点往往理论丰富，但从实证角度往往难以立足。

　　第二组问题涉及市政府义务的范围★。GPT-4强烈反对法院的意见★★，它认为市政府的义务是没有范围的★★。重要的是★★★，GPT-4的推理依据是合同中被法院忽略的部分★★★：第6条。该条规定★，★★“只要因各社区……未来的发展而有必要扩展任何污水管线……”，该市就有义务延长污水处理计划。

　　这个问题由来已久。法官与生俱来的语感也植根于他们个人所融入的语言习惯★★★。字典和语料库语言学在这方面具有优势，因为人们可以查找相关时期的字典或语料库★★★。但即使是这种优势也是有限的★★，因为字典每隔几十年更新一次，而语料库在切分到相关时间段时所涵盖的文本要少得多。因此，法院将不得不考虑语言的使用是否随着时间的推移而改变，并可能在其训练数据受到语言改革影响的情况下限制生成式解释的使用。另一种说法是，生成式解释可能对旧合同的作用最小，因为在旧合同中，对后续司法意见解释类似条款的担忧最为严重，除非直到专门模型上线，而这种专门模型具有按时间划分的训练数据。

　　原来，一名窃贼对化肥厂进行了抢劫★，且窃贼抢劫化肥厂的手法非常高明★★。他在泥地里留下了一些轮胎痕迹，强行进入仓库★，抢走了价值7★.5万美元（按现在的美元计算）的化肥。保险公司拒绝理赔，并辩称根据保险条款的字面明文规定，没有工具（而不是轮胎）留下的明显痕迹就意味着保险公司不需要赔偿。

　　如果各方当事人没有明确表示合同的期限，法院将默认他们打算在合理的时间内继续履行合同是必然包含在合同意思内的，因此，我们认为从1924年协议的内容可以合理地推断出★★，双方有意让市政府维护污水处理设施★★★，直到市政府不再需要或寻求该工厂保证水的纯度为止★★★，而该工厂旨在确保水的纯度。

　　但是抛开规范性问题不谈，由于每个人都赞同预测问题是核心★★★，甚至关于解释的基本操作经验也难以把控★。预测并非易事，错误是在所难免的。准确性是指我们确实尽可能接近于知道当事人会说什么★★，这个意义上的准确性需要与成本和确定性进行权衡。注重效率的学者一再指出，随着为证明当事人签约当时的意思而提供的证据数量的增加，多个领域的成本也在增加。

　　解释合同的法学家从一个简单的问题开始★：★★“当事人在订立合同时会如何解释有争议的短语含义？”即是说，要★★“确定各方当事人订立合同时的意图”。正如艾伦·施瓦茨（Alan Schwartz）和鲍勃·E．斯科特（Bob E★★. Scott）在他们的经典文章《合同理论与合同法的局限性》（Contract Theory and the Limits of Contract Law）中所指出的，这个问题在理论上有一个★“正确答案”。但在实践中，要知道答案是什么并非轻而易举或不得而知。由于缺乏时间机器，裁判者历来使用不完善的证据来拼凑出一个答案★★★，这些不完美的证据是一个如下证据的混合体，包括合同文本★、当事人之间（无论是在交易成立之前★、期间还是之后）关于交易的陈述申明、市场数据，以及在当时情况下对公平和效率的一些直觉★★★。

　　成本高昂的解释工作也给法官造成了负担。各分庭并不拥有随叫随到的参考资料专家。法院的资源和能力比外行人想象的要少。仅这一典型事实就可以解释为什么字典很受欢迎★，而语料库语言学充其量只是实验性的；为什么存在法律办公室历史★★★，而没有法律办公室计量经济学；甚至也许可以解释为什么关于州议题的联邦先例比相关的州法律被引用得更多，因为前者在普通的商业数据库中有详尽的索引★，而后者则没有。要取代字典和熟悉的拉丁文解释规范，新的解释工具必须是免费的（或几乎免费）★★★，并且可以广泛使用。大型语言模型满足了这些条件★。如今，通过聊天界面进行互动并不比使用搜索引擎需要更多技能★。狡猾窃贼的例子提供了一个概念验证，而其余的例子（虽然不能立即在聊天机器人窗口中使用）可能只需要几个月而不是几年的时间。

　　现在，该模型没有（也不可能）提供一种科学的答案来判断单词是否足够接近，从而使“洪水”的通常含义（平义）毫不含糊。这一选择最终是法官必须作出的规范性选择★。但是，基于对数十亿文本的统计分析而得出的有根据的结论与几位辞典编著者的判断之间存有一定区别★。法院所使用的巴洛克式和昂贵的文本主义与低成本、可复制、快速并且最为至关重要的是非常简单易用的代码之间也有着天壤之别。简而言之，许多案件目前采用更昂贵★★★，也可以说更具不确定性的方法★★，生成式解释对这种情况来说已经足够好了★★。对于资源受限的合同诉讼领域而言，这是一种可行的、熟练的方法★★。

　　因此★，问题不在于法院★“是否★★”会使用大型语言模型作为解释的辅助工具，而在于★★“如何”使用★★★。生成式解释是一种工具★★，因此有其优势、局限和缺陷★★★。可以肯定的是★，人工智能最热衷的使用者也会是最不谨慎的采用者。因此，我们在第三部分第一节的目标是为律师和法官使用大型语言模型划定一些原则和限制。考虑到这一工具的正确使用，我们在第三部分第二节中提出，生成式解释会对文本主义和语境主义之间经久不衰的持续争论产生影响★。或者换一种说法，虽然我们在第三部分第一节中建议的用途可被视为文本主义2★★★.0版，即更好的字典和解释规范，但我们认为这并非这种解释方法所能做到的实际极限。

　　在对查询上下文语境理解之后，模型现在就可以运行其庞大的内部参数网络，并计算出接下来最有可能出现的词（实际上是标记）。它会给与园艺或化妆有关的词分配极低的概率，但会给与保险语境有关的词分配越来越高的概率。一旦模型确定了最有可能连续的词语，它就会根据相关性对这些词语进行排序。在零温设置下，模型总是会选择概率最高的词作为后续词，但当我们调高温度时★★★，它偶尔也会选择其他词★★★。当模型输出90%时，它反映出这个数字最有可能是前面文本的延续。

　　对我们来说，这些发现从表面上看是合理可信的：它们证实了这一廉价便捷的工具在实际案件中可能会派上用场。但是仅仅因为概率是合理的并不意味着结果是准确的。你的直觉应该是★★★：证明它★！你想更多地了解，该模型在生成百分比时在做什么，查询的选择会如何影响结果★★★，以及该方法如何符合法院解释保险合同的目的。让我们从第二部分第一节开始。然后，我们将在本部分的其余之处尝试解析一些更复杂的例子。

　　图1 由十种嵌入模型计算得出的免责条款与各种术语和短语之间的余弦距离分析，即一种术语的数字表示（嵌入）之间的距离度量

　　正如★“法米格里奥案”所示，一个术语是否模棱两可的问题，无论是否允许引入外在证据，都可能对结果起决定性作用。这对于各种解释方法而言都是如此。即使是最自由的语境主义者也不会那么自由。当他们认为合同中的语言根本无法“合理地”为其中一方提供的解释所证明时★★★，他们不会浪费当事人的时间进行冗长的审判★★。因此，语境主义司法管辖区的一个关键问题是，哪种解释可以合理地证明语言内容★★。

　　如图所示，这三种模式与纽约州法院所确信的并不一样：对“其他关联公司★”最常见的解释包括合同签订后的关联公司。开放源代码模型犔犾犪-犿犪-2对百代音乐公司的论点持开放态度，这反映出百代音乐公司的论点在表面上具有一定的合理性。当然，即使在强大模型之间存在一致性也不能证明什么★。关键是要说明大型语言模型的价值，它可以方便地检查法官是否过于自信★★，也可以激励人们进行更多的反思（尽管持不同意见者认为合同歧义这一事实可能也会引发同样的反思）。

　　我们确实考虑了一些正在形成的反对使用大型语言模型的意见，包括它们的幻觉错误、偏差、黑箱方法，以及它们部署的快速性与作出先例裁判决策的审慎需求之间的紧张关系。正如我们所示，生成式解释的危险性说明了它的局限性★★：法官必须将这些引擎作为工具进行使用，以挖掘出规范性判断★★★，而所有解释和裁决工作都是建立在这些规范性判断之上的。大型语言模型不是机器人法官★★★。它们将做的（也许已经在做的）事情是帮助法官阐明我们尽己所能，意欲在多大程度上给予各方当事人通过讨价还价所真正想争取的东西。

　　为了解决这些问题，我们尝试了一些新方法。我们没有使用单一的提示语，而是对同一法律问题使用了20种不同的提示语变体，每种提示语变体在相对较高的温度设置下被询问10次。我们提出了“是／否”问题，其中“是★★”表示同意法官的解释★。图4总结了三种主要模式的实验结果★★。

　　以著名的三叉戟中心诉康涅狄格大众人寿保险公司案为例，该案经常被列为反对加利福尼亚州式文本主义的主要论据。一群律师在其他房地产投资者的协助下★★★，试图购买商业房地产来建造他们的律师事务所★。他们向康涅狄格州保险公司借款5600万美元，并约定以12★.25%的年利率分15年偿还★★★。协议一度规定本金不能提前偿还，至少在协议的前12年内不能提前偿还。然而，利率下降了★，借款人试图用他们从别处借来的钱提前偿还贷款。在遭到谴责后★★★，他们转而提起诉讼。

　　注★：根据法律和交易语境对“支付义务按月计算”所表达的置信度。提交给GPT-4（32k上下文语境窗口）和claude-2（100k上下文语境窗口）★★★。

　　模型对时间很敏感。正如你身边的原旨主义者会告诉你的那样，词语的含义蕴含在其使用的时间之中★★★。如果我们想解释一份1924年签署的合同的含义，我们就应该考虑到当时的语言习惯。模型是不加区分地根据数据训练出来的：它们不太可能及时按照某个特定时期的读法来解释某个术语★★。由于训练数据可能包括缔约当事人在缔约时无法获得的信息★，问题就更加复杂了。当上诉法院试图解释合同时★★★，这很可能包括初审法院的判决★。我们可以将其视为数据库的污染★：例如，也许卡特里娜飓风将★★“堤坝”与“洪水”联系得比签订相关保险合同之时更为紧密★★★。或者★★★，斯图尔德案的例子被随后几十年拖欠付款的语言证据所混淆★★★。

　　奥马里·本-沙哈尔（Omri Ben-Shahar）和利奥尔·斯特拉希莱维茨（Lior Strahilevitz）提出了一种不同的限制方法★★★，鼓励法院使用调查证据来决定特定合同文本的公共含义。正如他们所指出的★★，这种调查证据仅次于我们上文所述的预测性理想：

　　因此★★，内省式解释的风险之一是，其产物具有高度黏性且难以去除。这会导致异议及其结论的推翻★，当然还会导致相应的解释违背当事人的预期。共同解释的不确定性是使用调查的一个有吸引力的理由★★。而且★★，如果不是因为我们刚刚讨论过的实际困难★★，调查将在解释方面大有用武之地★。

　　语言文本主义项目长期以来一直备受争议。首先，未经深思熟虑的常识字面含义这一方法会使法官过于自信地认为他们的信念和结论比实际情况更为普遍。正如阿瑟·科尔宾（Arthur Corbin）在很久以前所说，“当法官阅读合同中的文字时，他可能会立即作出自信的判断，认为这些文字只有一个合理的含义，而且他知道是什么含义”。此后，实验性和社会学的实证研究发现，法官在进行字面含义分析时，对于他们认为显而易见的事情★★★，会与其他法官彼此间以及与律师之间产生分歧★★。

　　注：使用GPT-4（32k上下文长度）和Claude 2（100k上下文长度）对海恩斯诉纽约市案的空白填补进行分析★★★。

　　因此，尽管调查方法在商标案件中是一种成熟的技术★★，而且很可能对理解某些消费者合同的含义大有助益，但它不太可能成为普通合同解释案件中的变革性技术。迄今为止，我们尚未发现任何允许使用调查证据来确定合同含义的案例。

　　在第九巡回法院，科津斯基（Kozinski）法官利用此案对加利福尼亚州口头证据规则的松散性进行了他人所称的“尖锐抨击★★”。他对借款人提前还款的说法不以为然，因为这是出借方的选择。他还得出结论，合同中的★★“无权”条款非常清楚地表明禁止提前还款。单独来看★，该条款不太容易受到借款人意思的合理影响。尽管如此，科津斯基法官还是将案件发回重审。他写道★★：

　　您可能已经读过这样的结论，但如果您得出这样的结论★★：因为目标是为下一个词分配概率，所以这些模型只是复制它们在其他地方看到的文本★★，那就大错特错了★。为了有效预测序列中的下一个标记，模型不能简单地记忆它们在其他地方看到的内容。要预测★“当他们搬到美国时★，他们在州建立了第一个家★”这样一个新句子的连续部分★★，模型需要围绕哪些是州、哪些是移民以及哪些州是新移民的热门目的地构建一个数学上的认识。7模型虽然庞大★★★，但和它们所训练的数据相比要小得多。因此★，模型必须对其训练的信息进行更深入的表征★★★。这与人类阅读书籍、从书籍中学习但无法背诵的情况并无二致。你可以看到，模型的输出是原创的★★★，因为它们产生了全新但回应性强的文本。当然，这有时会导致捏造事实。

　　卡特里娜案分析提出了相关的模型可解释性问题。模型编码语言的方式并非基于语义学。与基于人类的推理不同★★，模型有一种精确的意义★，在这种意义上★，★★“巧克力★★”（chocolate）更接近于“面包”（bread），而不是“营养★”（nutrition）★★。如果天真地解释，这种精度可能会产生误导。它还表明，政策例外更接近于★★“火★★★”（fire），而不是任意选择的“警察”（police）这一单词。很难理解为什么会精准地出现这种结果。也许★★★，火灾是一类灾害，从这个意义上说，它更接近于保险条款。不过★★★，如果说保险单排除的是火灾损失而不是警察造成的损失，那就会引起误解。其他术语可能会导致更多的反直觉结果。在将模型输出直接转化为法律判断时，这种可解释性上的差距值得警惕。然而，平均而言，这些模型也能非常准确地预测人类作出的语言区分。这也是语言模型的一个普遍矛盾★。一般来说，它们在捕捉含义方面极为出色，但仍会出错★★★，而且并不总是能够合理地解释或预见这些错误★★。

　　事实证明★，在许多机器学习任务中，将单词维度化已是非常强大有效的★★，但这还不足以推动新的大型语言模型革新。我们需要的是“注意力”这一概念。9阅读以下句子：

　　合同语言解释技术原则是否植根于当事人的思考或书写方式，这一点同样不明确★★★。关于成文法解释中的语言规范的现有实证研究表明★★★，合同语言解释技术原则可能是植根于当事人的思考或书写方式的，但只是在某些时候。现在，可以肯定的是，有些解释技术原则，如“不利解释原则”★，并不是为了复制当事人在起草合同时如何理解合同的（如果这在合同中具有稳定含义，而该合同对数以百万计的合同履约者发挥作用）★★★。这些规范性解释技术原则可能与当事人当时的意图有关，也可能无关。但其他解释规则旨在反映语言的普通日常用法，却极少受到被控制的审查★。

　　图3展示了生成式解释如何深化并丰富司法分析★。总体而言★★，各模型都平均地大致同意不允许预付★★，平均得分约为41分。与功能更强大的专有模型相比，功能最弱的Llama-2模型对这种可能性持更开放的态度。但两个最强大的模型★，claude2和GPT-4都有类似的评价★：它们估计多数派的解读并不是三叉戟中心提出的★★。

　　这些都是熟悉的领域。现在，考虑一下已存有哪些解释方法可用于校准预测的准确性与以确定性和效率为中心的优点之间的关系★★。与其他法律推断事业一样，解释学发展出两种基本方法★★，可以在无法穿越回缔约时间的情况下解决预测问题★★★。这些方法即文本主义和语境主义★★，在现实世界中分别以纽约州和加利福尼亚州的法院为代表。

　　语料库语言学是传统文本主义或语境主义的进步。它提供了一种方法论★，理论上允许法院在根据词语的实际用法确定其通常含义时遵循一套客观的回应。从本质上讲，这是一种不依赖字典定义或一系列解释技术原则的文本主义形式★★★。它所反映的不是字典编纂者在其隐蔽★、汗牛充栋的办公室中作出的静态决定，而是根植于词语的公开使用，即民主化的文本主义。

　　一份保险单规定★：★★★“保险公司将对被保险财产以重罪的方式被盗取的情况进行赔付★★★：（1）某人通过实际武力和暴力，以重罪的方式进入被保险处所，从该处所内非法盗窃被保险财产，且该武力和暴力带有由工具★★、爆炸物★★★、电力或化学品造成的明显痕迹。”

　　这种解释忽略了最难的问题，即为什么模型将最高概率定为“90%★★★”★。诚实的回答相当令人不满意★★★：它之所以选择这个数字，是因为根据其庞大的训练数据和内部统计模型★★，它发现“90%★★”比“10%★”更有可能是一个延续。这与人类会给出的解释完全不同★，人类会给出理由和事实考虑。这也不是对其内部评估进行反省分析的结果。模型的输出结果只是一个粗略的统计数据★★★。我们可以要求模型证明自己的合理性★★。而模型也会兢兢业业地给出答案★★。但关键是要明白★★★，无论模型告诉你什么，它其实根本就不是解释。它只是一种针对询问后可能出现解释的预测★★。因此，与大型语言模型一起工作确实需要观念的飞跃，需要认识到除了用于产生预测结果且难以捉摸的长矩阵之外★★★，不会有更好的解释★★。

　　要说服法官放弃字典和解释性规范★，采用如今以鼓励律师提交虚假权威而著称的聊天工具★，这将是一项艰巨的任务★★。我们将主要通过示范性案例研究来进行讨论★★。让我们从★★★“洪水★”一词开始★。在★★★“卡特里娜”一案中★，问题实际上是“洪水”的广泛含义是否合理地排除了人为灾害。要回答这个问题，你可以像法院一样，求助于传统的高级文本主义工具。或者你可以对投保公民进行调查（条件是你能找到他们并避免动机答案的话）。如果你有足够精湛的技术水平和耐心，你甚至可以查询一些相对较小的数据库，询问在报纸、书籍和类似的资料中，哪些英语词汇通常倾向于与洪水一起出现或进行搭配。

　　调查证据也是一种昂贵的裁判技术。调查本身很难进行★，法官在普通案件中需要依靠他们的对抗性陈述★。同时，调查活动越来越不可靠。最近的研究发现，近三分之一的在线调查受访者使用大型语言模型来填写答案★。基于更多整理样本的调查面临着困扰现代民意调查的同类型问题：部分人口的非响应偏差、普遍性困境以及不准确性★★★。即使在这种情况下，人们的关注度也很低。我们很难就一份长达20页的保单对消费者进行调查★，也很难指望任何为了5美元礼品卡填写调查表的人会认真考虑合同中的相互依存关系。

　　然而★，从某种角度来看★，语境主义似乎完全有能力复兴★。回想一下，即使是语境主义的批评者也同意首要目标是弄清当事人在缔约时的意思。语境主义的问题主要集中在动机证词和成本上，这使得事实认定者忽视了文本★。但考虑一下★★★：我们生活的世界越来越多地记录着我们当时的想法，无论是通过短信发送、在社交媒体上发布还是在抖音上记录。这种记录在案、不可更改的话语复制成本低廉，在法院看来是合同意思的绝佳来源。文本主义的辩护者可能会争辩说，允许使用这些记录会造成不确定性，但一些反对语境主义的卓绝观点认为★★★，语境主义可能被事后滥用，这种论断比以前更弱了★。然而，我们缺乏一种方法知晓哪些激动人心的表述应该被优先考虑，我们应该担心法院有动机性的解读会导致他们得出不准确或有偏见的理解。

　　纽约的文本主义法官将重点放在合同上：他们将合同中的文字作为当事人意思的权威来源，并放弃将其他证据来源作为预测依据★。文本主义者试图使用词语的常识性含义★，使用字典获取当事人所选词语的公共含义★★，并利用语法和词汇工具在校勘整理这些词语后理解词语是如何产生义务的★。文本主义具有众所周知的优势，包括迫使当事人仔细思考他们的意思★，并以常规的方式使用合同词语。这种合同解释的意识形态方法与法律解释和宪法解释中的同一概念相似；虽然文本主义的政治价值较低，但同样具有优势★。

　　其次★★，随着结果越来越确定，预测结果的成本越来越低，需要判决的★“案件★★★”也会★★★“越来越少”，因为当事人可能更清楚他们在判决中会得到什么，并据此达成和解。大型语言模型与法律字典不同★★★，不需要专门的法律知识就能使用，其易用性可能会随着时间的推移而提高★★。这就意味着，法律信息的获取将趋于均衡★★★，信息获取也将从重复度较高的参与者向重复度较低的参与者重新分配★★★。此外，更好的事后校准结果意味着当事人可以花费更少的时间（和金钱）进行事前缔约。生成式解释的一个承诺，即它可能会实现的是它将开启一种高达99%的文本主义形式。

　　我们向GPT-4提交了婚前协议，并向其提问★★：如果其中一方提出离婚申请后又撤回了申请，几年后又提出了新的申请，那么婚姻的完整年数是由哪一天决定的★★：是第一次提出申请还是第二次提出申请？它生成了一句话，基本上支持了詹妮的观点。不过，为了说明该模型如何帮助法院得出更精确的判决结果，我们可以及时冻结输出结果，并探究其背后运作的原理，如表2所示。

　　在被认为相关的证据类型方面，这种解释方法很宽泛，该解释方法在20世纪60年代的加利福尼亚州达到了鼎盛★★★，此后再也没有如此受欢迎过。批评者认为，这种解释方法的问题在于★★，它不允许当事人知道法院将赋予他们所写的字词何种含义★★★，因为另一方总是可以在事后提供谋求私利的含义，如果足够可信★，另一方还可以在法庭上写一份新的协议来取代过去起草的协议。甚至语境主义的起源故事也是一方当事人突然想起，他们的真实本意是★★，只有家庭成员拥有购买选择权，债权人的处境则无足轻重。语境主义使得通过合并条款等类似条款事先锁定含义变得很难，因为这些条款总是会受到后来证词的反驳。语境主义对消费者保护的吸引力是可以理解的。但即使语境主义可以提供更多的准确性，批评者仍认为这样做的代价很高★。

　　阅读图1时，请注意黑点标记的位置（横轴上标识的小点）。离原点越远★，模型（平均）认为短语之间的语义关系就越疏远★。

　　到此为止，我们已经取得了喜人的进展。现在让我们回到我们的问题上来：当模型将理性人在特定情况下期望获得保险赔付的可能性定为90%时★★★，它在做什么？该模型的第一步是将我们输入的查询转换成数字（实际上是向量）。下一步至关重要：现在，模型会“关注”单词的上下文，并利用上下文来调整单词的含义。如果模型在当前上下文中看到★“premium”（保险费、优质的）一词，它就会知道将其含义从字典中的诸如“高质量”等含义调整为“为保险合同支付的对价”。

　　书面协议的内容太少，无法提供帮助，但电话交谈提供了一个信息。如果我们认为双方确实同意以通常的方式付款★，那么就有可能将★★“通常”解释为指每月分期付款这一所谓惯例。但是，“通常”也有可能是指其他标准的付款惯例，例如，按成本+10%的基础付款。

　　尽管合同文本主义在方法论上存在缺陷，但它却越来越受欢迎★★。造成这种情况的原因有很多★，最主要的原因莫过于其主要概念对手，即语境主义的弱点。这个我们熟悉的替代方案始于与文本主义相同的视角：如果我们在合同中询问当事人，他们会说他们的意思是什么吗？但语境主义要求当事人提供外在证据，以增加预测分析的深度★★★。通过这样做，语境主义寻求优先考虑准确性★★，即当事人的真实意图★★。

　　事实上★★，学者们经常以效率为由为文本主义辩护★★★。虽然可能并不清楚当事人希望解释规则是什么★，但几乎可以肯定的是，律师起草人更倾向于文本主义而非语境主义的决策模式★★。埃里克·波斯纳（Eric Posner）很好地诠释了这一观点：当事人通常会加入明确的合并条款★，但很少有人会费心考虑★★“反合并条款★★”。因此，从诉讼案件的角度来看，至少是那些有钱和有律师的当事人之间的诉讼案件★★，语境主义更难成立。

　　在本文中，我们提供了一种确定合同当事人意思的新方法★★★，我们称之为生成式解释。这个想法很简单★★：为了预测当事人在缔约时所述内容的意思，将大型语言模型应用于合同文本和外部证据。我们的目标是让您相信，生成式解释可以避免在卡特里娜飓风诉讼中困扰第五巡回法院的一些问题，同时在实质上更容易理解★★，也更加透明。为法院提供一种便捷的方法★★★，使其能够采用一种廉价且可预测的合同解释方法★★，这将是合同法的一大进步。当事人可能会开始将其纳入他们法律选择的指令系统中。我们认为，正如我们将自始至终阐明的那样，尽管用于查询这些大型语言模型的工具仍有待开发、完善和验证，但即使是今日刚刚问世的大型语言模型也能为我们提供服务。

　　换言之，模型的结果与法院的多数意见不一致。该模型（就像反对意见一样）预测，投保人会被要求提供一些强行进入的证据，以证明入室盗窃并非内部人员所为。

　　但即使不存在歧义，文本主义的基本方法论工具也明显不够完善。学者们经常指责字典的简陋★★。奉行文本主义的法院有时会因为没有使用字典而被推翻。但这对于辨别当事人在起草阶段的意图而言是一个并不精准的工具。在字典之间进行选择是一种带有价值取向的行为，而且即使在同一本字典中，字典也不会提供单一简单的或多数主要的词义。至关重要的是，字典定义甚至对内部语境，即文本主义者所接受的文件或法规的其他部分也视而不见。正如凯文·托比亚（kevinTobia）所证明的，定义可能无法很好地跟踪实际使用情况★，任何不将西红柿添加到水果沙拉中的人都可以很好地理解这一点。

　　该判决理由写得精妙绝伦★，被许多合同案例集收录，但其本身也是一个谜。加利福尼亚州的现行规则规定，只有当合同中的语言“合理地受到★★★”当事人提出的解释所影响时，外在证据才能被采纳。因此，如果科津斯基真的确信语言清晰，他就不应该发回重审。我们想知道他的事实前提是否正确★★★，并请大型语言模型提供帮助。

　　第一组问题涉及期限。两个模型的输出结果都不支持市政府的主张，即双方有意随意终止合同★★。而两者（以不同程度的置信度）都对无期限★★、合理时间、双方同意或直到法律理由出现前的期限内持续存在的空白填补持开放态度，这确实是大多数合同的普通法规则。GPT-4（与法院一样）解释说，“虽然根据普通法原则可以推断出合理的期限，但这一论点与合同的措辞并不十分吻合”★★。总体而言★★★，这些模型似乎普遍支持法院的解读。

　　但是★，第二部分提供了一次精心策划的生成式解释精选之旅★★★。它没有告诉你哪些地方会出错。为了让这套工具发挥最大功效★★，用户应该认识到这些问题★★★，并根据新近发展的最佳实践来使用它。让我们从幻觉输出开始。在2023年5月发生的一起著名的案件中，纽约联邦法院的律师向ChatGPT求助，希望它能帮助他们研究一项动议。该工具提供了有用的案例引证，但不幸的是，它完全捏造了相关意见★★★。随后，法院下达了制裁令★★★，并引发了大量负面新闻。针对此案，其他法官也要求律师证明他们没有在文件中使用任何形式的人工智能。

　　经过多年的诉讼★★★，第五巡回法院在上一代最著名、最有影响的合同案中认为，★★“洪水★★”是明确的★★：它指任何发大水（洪涝），与具体原因无关★★★。为了得出这一结果★，法院采用了晚期资本主义最巧妙且最明确的文本主义形式★★★。法院参考了四部字典、一部百科全书★★、两部专著、一系列正反两方面★、有无管辖权的案例，以及两部语言学的且拉丁化的解释性原则或规则。这些都建立在地区法院用四本字典和案例法汇编二十页分析同一问题的基础之上。

　　语言模型是用某目标函数进行训练的★★★，这是一项它们试图实现的任务，并根据该任务对其进行评估。就大多数流行的大型语言模型之语境而言★★★，其目标是预测。我们向模型提供了这样一个句子★★：“大谷翔平感受到了压力。无奈之下★★★，他挥动了［★？］（Shohei Ohtani felt the stress★★★. In a desperate attempt he swung the［?］）”，然后模型就会预测接下来会出现哪个词。如果模型没有经过校准★★★，它可能会猜测“灯★★★”或“物质性实体★★”。由于这些猜测（很可能）是不正确的★★，模型随即会通过一种名为梯度下降的过程来校准准确度。4这个过程会不断重复★★，直到模型得知★★“bat★★”（球棒）跟随的概率为90★★★.14%，“球”（ball）的概率为1.31%，“棒球★”（baseball）的概率为0.91%，★★“第一”（first）的概率为0.35%★★，“club★”（球杆）的概率为0.29%，以此类推。

　　如今★★，默认的规则是，建筑合同中的款项只需在合同得到实质性履行后方可支付。目前尚不清楚双方在1919年达成协议时是否已实行这一规则。铸造厂辩称，根据合同不应该支付任何款项，因此承包商拒绝施工是不合法的。因此，现在我们有一个解释性问题★★：双方是否约定了特定的付款制度？

　　在获得期票原件后，我们向三种主要的大型语言模型引入相关部分：GPT-4★★★、Claude2和开源模型Llama-2的一个版本★，然后要求它们作出评估★★★。O178我们要求它们阅读整份合同★★★，然后以法官的身份估算协议允许当

　　因此，在这个简单的案例中，如果当事人有意以最公共普遍、最具常识意义上的方式使用英语，那么生成式解释让法院更好地了解相关的可能性。而且，这样做无需参考从高尔夫球场上抽取的单一的，也许是特殊的例证。当然，也有可能在他们的交易背景中，外在证据指向了一种私人含义★，或者说贸易惯例可能会使法院偏离模型所暗示的正常含义★。而且，正如我们将要讨论的，知道法院会使用该模型可能会促使双方当事人在认定他们的意思表达明确无误之前多加斟酌★。

　　承包商完成项目的第一部分后★★，提交了一份账单★★★。铸造厂拒绝付款★★★。承包商坚称★★★，按照惯例，应在每月月底支付应付款项的85%，但铸造厂辩称，只有在项目（实质性）完工后才应支付款项。承包商见没有付款★，于是停工。双方反诉对方违约。

　　表2捕捉到了模型思考语言及其自身过程的概率方式★。当模型开始生成答案时★★，它预测答案应该以“The”开头。现在★，我们和模型都不知道它将如何继续这个句子★★。它阅读了我们的问题及其部分答案★★，然后作出预测。根据上下文和它所处的庞大语料库，接下来应该是什么★，即第二次还是第一次？它的结论是“第二次★★★”更有意义。一旦★★“第二次★★”出现，答案的其余部分也就呼之欲出了★★★。

　　我们再次获得了原始合同★★。我们将其提交给各种模型进行明文分析，并询问：★★“‘其他关联公司’只包括合同签订时的现有关联公司★★，还是有可能包括随着时间的推移而创建的关联公司？★★”

　　目前有关大型语言模型的实践及其未来的用途是有条件的，取决于律师往往在理论尚未成熟就开始使用工具★。在第三部分中，随着实现生成式解释的技术在持续快速发展★★★，与生成式解释互动的工具不断进步，并且律师和法官对生成式解释的使用也呈爆炸式增长，我们提出了一套理论★★，以证明生成式解释的合理性，并对生成式解释的发展加以约束★★。我们提出两个主张：

　　以1977年纽约上诉法院审理的海恩斯诉纽约市（Haines V. City of New york）一案为例。该案解决了1924年纽约市与一个北部村庄之间的合同纠纷，在该合同中★★，纽约市承诺向该村镇支付费用★，让该村镇处理自身污水，进而纽约市的供水可以得到净化（也就是说★★，纽约市付钱给该村庄，让其不要污染环境）。几十年过去了，村镇不断发展壮大，联邦政府也通过了环境法规★★★。到了20世纪70年代初，面对强大的预算压力★，纽约市拒绝继续支付该村镇扩建污水处理设施的费用★。当地的一家开发商提起诉讼，认为合同中没有规定期限，也没有规定市政府的义务范围★，这意味着市政府违反了合同。

　　在法律评论的版面上，随处可见针对所谓的法律成本过高、法律结果信息获取不平等等问题而提出的技术解决方案，这些解决方案要么比作者想象的更加棘手★★★，要么忽视了作者所忽略的优点。我们应该谨慎行事，尤其是在建议广泛采用一种基于输出矩阵的聊天机器人时，因为甚至连它的创造者都不甚了解其矩阵所输出的结果。（我们认为）问题不在于生成式解释是否在所有情况下都能提供优于工匠式、仔细的语言分析所形成的预测。关键在于这种方法是否★★“足够好★”★★★，即使不是现在★★★，也能很快让资源匮乏的法院在普通案件中采用★★。在评估这一基本能力问题时★★，即使今天的非专业化模型也能复制深思熟虑的案例结果（如第二部分所探讨的），并直观地说明法官可能希望看到的解释结果范围，这是有意义的，但不是决定性的。

　　同样，解释技术原则也很难从实证角度对本身加以证成。这些技术原则传统上以其令人回味的拉丁名称而闻名，即关于相同主题，明示其一即排除其他，同类解释规则，不利解释原则★，一般事项不减损特殊事项／一般词句不影响特别词句。这些技术原则被用来填补字典的空白★★★。它们试图通过提供启发式方法来分析当事人提出的含义★★★，从而解决上下文语境问题。这些解释技术原则受到法官们的欢迎★★★，但在《合同法第二次重述》中却没有出现，学者们批评这些解释技术原则基本上是临时性的。当不同的解释规则导致不同的结果时，没有明显的方法知道该怎么做，这意味着它们提供了与字典相同的自由度★★。

　　这一简单的说明并不能充分展现这一被称为“嵌入★★★”过程的实用性★★★。机器学习模型不是为每个单词分配一个数字，而是将它们转化为长长的数字列表，列表中的每一项都能捕捉到某些方面的含义★。5这种向量的长度非常长；常用的最新模型之一采用了一个包含12288组数字对的向量。6为了便于阐述★，假设您有一份常见动物列表★★，并有一个描述这些动物的二维向量。一个维度可以是脚的数量，另一个维度可以是它们生活在陆地还是海洋★★★。我们可以将这样产生的矢量可视化如下：

　　抨击字典的法学家面临两种截然相反的批评：他们对自己的约束太多★★★，但也太少。前者剥夺了司法程序的微妙本质，后者滋生了诡计和偏见★。这种批评（公平地说）有点过激。法官当然会认真对待字典★★★，但他们也坦然承认字典并非“万无一失★”。甚至勒恩德·汉德（Learned Hand）也告诫说，★★★“不以字典为堡垒★，是成熟发达的法学最可靠的指标之一”。字典通常对结果的决定性不足★★★，这是优点而不是缺点。正如我们将要指出的★★，生成式解释同样具有这种优点。

　　作为削减这一成本的第一步★★，考虑一下当允许当事人援引更多解释性证据来源时★★★，他们也会增加从法庭获得可辩护答案的范围。这意味着越来越难以知道事实认定者会做什么，因为他们选择意料之外含义的能力随着证据投入的增加而增加。但更糟糕的是，双方当事人和事实认定者在如何提供和处理证据方面都有动机★★。在一个允许提供更多证据的制度中，当事人会提供有利于自己观点的证据★★★，有时会不自觉地避免提供有利于另一方的数据★★★；事实认定者同样受动机认知的影响，会以偏见的方式处理新证据★。

　　我们说模型会★★★“学习”。但这是什么意思呢？答案很简单，在训练过程中，模型会调整数十亿个参数的数值，使其产生的预测结果更有可能实现训练目标★★。它通过各种（相当简单的）代数运算，从“你好，你怎么 ”（“Hello，how are you ”）这样的句子中预测出下一个概率最高的词是“样★★”（“doing★”）。然而，这种简单性并不能反映整个过程：这些参数被有效地编码在庞大而难以捉摸的矩阵中，其含义非常难以破译，其组织结构也是陌生的。大型语言模型无法解释其预测的原因★★★。

　　通常而言★，大型语言模型以文本形式接收用户输入，并以文本形式产生输出。在幕后，模型获取文本并将文本转换成数字★★★。这一点至关重要★★，因为（从表面上看）计算机无法读取文本★★★。与字母相比，数字可以编码更多的信息★，而且数字更有价值，因为数字可以让计算机执行数学运算。这在歧义的情况下很容易看出来：duck既是动词又是名词。但在数字系统中，我们可以使用20这样的前缀来表示动词，用10来表示名词，因此我们可以对duck这个词进行两次编码★★★。例如★★★，一个是201,另一个是101★,这样就可以指定不同的含义并消除歧义★。

　　生成式解释需要一种自己的语言。尽管学者们经常大肆宣传客观、科学的证明和判断方法，但这种解释和证明权力行使的方式并不令人信服，甚至可能令广大人民反感。这是我们在本文中试图减少统计数据和声称单一答案的原因之一★。毕竟，陪审团不会看到简单的概率论证明，法官通常也不会通过说他们有51%的机会是正确的来证明自己的判决是正确的★。因此★，该方法与第一部分讨论的语料库语言学和调查方法学共同面临的一个真正问题。

　　说明每项证据的额外价值可以提供意想不到的启示。法官在考虑可能不可靠的证据时，可能会合乎情理地担心仅仅接触到这些证据就会对他们的判决造成不可逆转的损害。通过在仔细审查某些形式的证据之前对其证明价值进行估计，法官可以在相对较少接触证据的情况下对其证明价值进行启发式评估。因此★★★，该模型可为外在证据的评估提供结构★★，使其对事实认定者更具吸引力★。在其提示的范围内，其结论是连贯的、廉价的，而且似乎是可信的★★★。

　　5★★★.3詹妮的利益和义务★★★。如果婚姻因解除婚姻关系而结束，或马克去世时解除婚姻关系的诉讼尚未裁判，那么詹妮应获得第5.3条第a至d款所述的额外福利和义务。

　　该文作者针对各种指责为这一有趣的提议进行了辩护。他们的核心调查案例是为大众作为受众而设计的消费者合同★。在这种情况下★，调查受众和最初的拥护者是一样的（尽管时间上有所区别），我们也就不那么担心双方会有特异的含义★★★。但在这一框架之外★，调查方法的一个问题是，对于大多数合同诉讼案件即商业案件而言，很难找到相关的调查受众，因为经验丰富的拥护者不会接受调查，或者会糊弄调查★★，从而产生的问题也同样困扰着语境主义★★。

　　到目前为止，我们已经举例说明了大型语言模型如何为更强大、更便宜★、更稳健的文本主义提供动力★★。现在我们要考虑的是★，这种模型如何能够解释语境证据★★★，如先前的对话、共同的期望和行业标准。斯图尔德诉纽伯里案（stewart V. Newbury）提供了一个简单的例子★★。在该案中，承包商和企业就建造新铸造厂一事进行了通信。承包商的要约信很简短★★★，他表示有意承接这项工作★★★，收费方式可以是提供分项清单，也可以是按成本+10%计算★。在这封信之后，他们又通了一次电话，双方可能同意“以通常的方式”付款★。最后，铸造厂书面回复说★★★，在电话交谈之后，他们接受了投标。据我们所知★，那就是整个合同案卷的全部内容。

　　注：爱灵顿公爵诉百代音乐公司案，在向犌犘犜-4植入案件背景信息后，使用温度1分析了对“其他关联公司★★★”的解释，并对犌犘犜-4生成的20个提示语变体作出了10次回应。

　　表２ Davinci-003,temp=1,frequency and repetition penalty=0★★★,best of 1,full spectrum，提供法米格里奥事实，并询问“如果其中一方提出离婚申请并撤回申请，几年后又提出新的申请，那么婚姻的完整年数是由哪一天决定的：是第一次申请还是第二次申请？★★★”

　　与此同时，随着与合同解释相关的证据类型变得愈发广泛，当事人将寻求在庭审中引入更多证据★★，从而提高诉讼成本★。这些成本可能很高★，即使是在诸如仲裁等旨在快速且低成本解决案件而设立的争议解决场所中也是如此。解释方面的军备竞赛让学者们对当事人宁愿事前花钱购买更具体的文本，也不愿意事后花钱进行诉讼建立了模型★★★。换言之，预先承诺采用准确性较低但效率更高的方法。

　　理想情况下，我们会向您展示这些方法与法官查阅字典或听取有动机的证词一样正确和可靠。我们还不能完全做到这一点★★。在大多数合同案件中，我们手头并没有基本的事实。也就是说★★★，我们无法真正了解双方在缔约时的意图，而只能作出我们最好的猜测★。因此，★★“正确性★★★”不得不让位于“足够好”。大型语言模型是否能够以较低的成本、相当的可复制性和一定程度的透明度来接近法院的结果？我们是否可以提供一些方法，让法院减少当事人对解释机器的输入进行博弈的能力，从而减少司法的障碍？

　　总而言之★★★，尽管人们对解释的预测性目标达成了广泛共识，但也有一种共同的感觉，即法学家在如何平衡准确性和效率之间存有偏颇★★★。文本主义承诺能实现后者，但在实践中，它往往只是促进法官自己过于自信地作出裁判。语境主义许诺实现前者★，但很可能根本无法实现，而且语境主义同时削弱了当事人对庭审结果做好规划的能力★★★，并使得除最富有的当事人之外的其他所有当事人都需要面对高昂的诉讼费用★★。在这些旧技术的基础上进行的两项最先进的现代改进★，即经统计的字面含义和调查证据，有望将文本主义从其自身的某些罪恶中拯救出来，但尚未在实际案件中得到应用。

　　首先，该方法满足了一种显著需求★★★，即为解释方法提供一种简单、透明、便捷的方式，而这种解释方法有助于预测当事人的意图。如果法院遵循不断发展的最佳实践，并且我们在此提供了一份初步清单★★，法院就能避免困扰现代合同诉讼中的某些司法途径和合法性问题★。其次★★，人工智能的使用不应仅仅对以辞典和解释规范为特征的文本主义进行边际改进，或对其作为一种20世纪60年代加利福尼亚语境主义形式的否定，而是应该促使人们从上到下重新审视证明这些解释方法正当性的假设。随着越来越多的法院致力于生成式解释，当事人在评估其交易时可能会更倾向于根据上下文评估其含义★★★，从而颠覆合同法中长期存在的默认规则。

　　当GPT-4告诉我们，针对★★★“经证实的第三方入室盗窃”，保单赔付的可能性为90%时★★，幕后发生了什么★★？我们在这里试着解释一下，因为大语言模型技术非常复杂而且日新月异，我们知道这样做很困难★★。从根本上说，大型语言模型通过对大量现有文本的洪流进行训练，其中有些文本是历史文本★★，有些是人工提取的文本，从而创建一个有关词语如何连接的统计模型。