UPDATE更改后的字符串：如何为python编写正则表达式，以便提取术语及其定义？

更新：如您所料，他们更改了软件，因此我的文字也更改了。

现在有效的正则表达式无效。这是以前的工作方式：r“ ^ \”（？P。？）\“表示（？P（？：（？！^ \”。？\“表示）。）*）”使用多行和dotall。

我一直在努力将其修复在https://regex101.com/上。

我认为负面的前瞻性失败。我得到了第一学期，但随后便掌握了所有内容。

感谢您提供的任何帮助。

测试字符串：“地址映射表”是指将逻辑块地址与存储在非易失性存储器阵列上的数据的物理地址相关联的数据结构。该表可以被实现为索引，映射，b树，内容可寻址存储器（CAM），二叉树和/或哈希表等。地址映射表可以互换地称为组分配表（GAT）。

“非对称存储介质”是指对于不同的存储操作具有不同的等待时间的存储介质。许多类型的固态存储介质（例如，存储器管芯）是不对称的。例如，读操作可能比写/编程操作快得多，并且写/编程操作可能比擦除操作快得多（例如，读取存储介质可能比擦除快数百倍，并且速度比对存储介质进行编程要快）。

“位线”是指被配置为向存储阵列的列传送电压和/或传导电流的电路结构。在一个实施例中，该列包括NAND串或存储器串，并且也可以被称为通道。在一个实施例中，该列称为NAND串，并且NAND串包括通道。在一个实施例中，位线在NAND串的漏极端或漏极侧连接到NAND串。一个存储阵列可以沿着存储阵列的字线为每个存储单元配备一条位线。

1
投票

我可能使正则表达式复杂化，但是这里有：

regex = re.compile(
    r"^\"(?P<term>[^\"]*?)\" refers to (?P<def>(?:(?!^\"[^\"]*?\" refers to ).)*)",
    re.MULTILINE | re.DOTALL)

（（如果您想与之交互使用，可以在regex 101尝试一下）

# show what it matches:
for m in regex.finditer(contents):
    groups = m.groupdict()
    print("term: %s" % groups["term"])
    print("%s" % ("-" * 60)) # make it clear where the term ends
    d = groups["def"].strip() # regex includes blank lines
    print("%s [...] %s" % (d[:20], d[-20:])) # definitions are too long to print
    print("\n%s\n" % ("=" * 60))

输出：

（（请注意，我只打印了定义的摘录，但是完整的def被匹配了）

term: Adjacent word line
------------------------------------------------------------
a word line physical [...] r a coupling effect.

============================================================

term: Bit line
------------------------------------------------------------
a circuit structure  [...] of the memory array.

============================================================

term: Bit line compensation voltage
------------------------------------------------------------
a voltage supplied t [...]  line is programmed.

============================================================