+-
python-将HTML转换为纯文本并保持基本格式
我正在寻找一种在保持其基本结构的同时将 HTML格式的文本转换为纯文本的方法,并且可能会稍作调整,因此:

<p>This is a paragraph.</p>
<ol>
  <li>List item 1.</li>
  <li>List item 2.</li>
</ol>
<p>This is an <a href="www.google.com">anchor</a>.</p>

成为:

This is a paragraph.

List item 1. List item 2.

This is an anchor (www.google.com).

关于如何有效地实现大量HTML格式模板的任何想法?

>请注意,结构外部最重要的部分是保持锚点.

最佳答案
使用基于文本的浏览器(例如lynx),并将其输出到stdout.我不确定它是否适合您的所有调整需求,但这是一个非常快速简便的开始

lynx -crawl -dump https://stackoverflow.com/questions/13279364/convert-html-to-plain-text-and-keep-basic-formatting

(实际上,我希望您的清单是

1. List item 1.
2. List item 2.

因为它是有序列表)

编辑:实际上更多地研究了您的实际用例,它可以完美地工作:

> echo '<p>This is a paragraph.</p>
<ol>
  <li>List item 1.</li>
  <li>List item 2.</li>
</ol>
<p>This is an <a href="http://www.google.com">anchor</a>.</p>' | lynx -stdin -dump

变成

   This is a paragraph.
    1. List item 1.
    2. List item 2.

   This is an [1]anchor.

References

   1. http://www.google.com/
点击查看更多相关文章

转载注明原文:python-将HTML转换为纯文本并保持基本格式 - 乐贴网