3.28日:单词的压缩编码
给定一个单词列表,我们将这个列表编码成一个索引字符串 S 与一个索引列表 A。
例如,如果这个列表是 [“time”, “me”, “bell”],我们就可以将其表示为 S = “time#bell#” 和 indexes = [0, 2, 5]。
对于每一个索引,我们可以通过从字符串 S 中索引的位置开始读取字符串,直到 “#” 结束,来恢复我们之前的单词列表。
那么成功对给定单词列表进行编码的最小字符串长度是多少呢?
示例:
输入:words = ['time','me','bell']
输出:10
说明:S = "time#bell#",index = [0,2,5]
提示:
1 <= words.length <= 2000
1 <= words[i].length <= 7
每个单词都是小写字母
第一种方法:反转排序法
可以根据下面这张图片理解题意,再看其他便会好很多。
思路:如果有一对单词s和t,使得t是s的后缀,例如
me
是time
的后缀,就删除单词t。最后剩下的单词,就构成了索引字符串的单词。
举个例子:['time','me','lime','sometime','hell','shell']
几个单词反转后排序,如下图:
发现:如果 t 是 s 的后缀,则反转之后 t’ 就是 s’ 的前缀。在反转和排序后,s’ 一定会跟在 t’ 的后面!
public int mininumLengthEncoding(String[] words){
//获取长度int N = words.length;String[] reversed_words = new String[N];for (int i = 0;i < N;i++){
String word = words[i];//String类是不可变类,任何对String的改变都会引发新的String对象的产生,而StringBuilder不会,且不支持并发操作,线程不安全String rword = new StringBuilder(word).reverse().toString();reversed_words[i] = rword;}//字典序排序Arrays.sort(reversed_words);int res = 0;for (int i = 0;i < N;i++){
if (i + 1 < N && reversed_words[i+1].startWith(reversed_words[i])){
//当前单词是下一个单词的前缀,则丢弃} else {
//单词加上一个"#"的长度res += reversed_words[i].length() + 1;}}return res;
}
第二种方法:字典树/Trie树/前缀树
字典树又名前缀树,Trie树,是一种存储大量字符串的树形数据结构,相比于HashMap存储,在存储单词(和语种无关,任意语言都可以)的场景上,节省了大量的内存空间。
下图演示了一个保存了8个单词的字典树的结构,8个单词分别是:“A”, “to”, “tea”, “ted”, “ten”, “i”, “in”, “inn”.
从上图可以发现:每条从根节点到叶子节点的路径都构成了单词(有的不需要走到叶子节点也是单词,比如 “i” 和 “in”)。
因为我们需要知道单词列表里,哪些单词是其它某个单词的后缀。既然要求的是后缀,我们只要把单词的倒序插入字典树,再用字典树判断某个单词的逆序是否出现在字典树里就可以了。
class Solution {
public int minimumLengthEncoding(String[] words) {
int len = 0;Trie trie = new Trie();// 先对单词列表根据单词长度由长到短排序Arrays.sort(words, (s1, s2) -> s2.length() - s1.length());// 单词插入trie,返回该单词增加的编码长度for (String word: words) {
len += trie.insert(word);}return len;}
}// 定义tire
class Trie {
TrieNode root;public Trie() {
root = new TrieNode();}public int insert(String word) {
TrieNode cur = root;boolean isNew = false;// 倒着插入单词for (int i = word.length() - 1; i >= 0; i--) {
int c = word.charAt(i) - 'a';if (cur.children[c] == null) {
isNew = true; // 是新单词cur.children[c] = new TrieNode();}cur = cur.children[c];}// 如果是新单词的话编码长度增加新单词的长度+1,否则不变。return isNew? word.length() + 1: 0;}
}class TrieNode {
char val;TrieNode[] children = new TrieNode[26];public TrieNode() {
}
}