当前位置: 代码迷 >> 综合 >> 1008 lc.187 hash 滑动窗口 位运算
  详细解决方案

1008 lc.187 hash 滑动窗口 位运算

热度:52   发布时间:2023-11-22 10:43:24.0

lc.187 重复的DNA序列

所有 DNA 都由一系列缩写为 ‘A’,‘C’,‘G’ 和 ‘T’ 的核苷酸组成,例如:“ACGAATTCCG”。在研究 DNA 时,识别 DNA 中的重复序列有时会对研究非常有帮助。
编写一个函数来找出所有目标子串,目标子串的长度为 10,且在 DNA 字符串 s 中出现次数超过一次。

  • C++ hash

class Solution {
    const int L=10;
public:vector<string> findRepeatedDnaSequences(string s) {
    vector<string> ans;unordered_map<string, int> cnt;int n=s.size();for(int i=0;i<=n-L;i++){
    string sub = s.substr(i,L);if(++cnt[sub]==2){
    ans.push_back(sub);}} return ans;}
};

注意到:···int n=s.size(); for(int i=0;i<=n-L;i++){ ···

写为:···for(int i=0;i<=s.size()-L;i++){ ···

测试用例:“AA”

报错:terminate called after throwing an instance of ‘std::out_of_range’
what(): basic_string::substr: __pos (which is 3) > this->size() (which is 2)

错误来自于。.size() .length() 的返回值,类型为string::size_name 是 unsigned int ,需要说明。原代码可以写为:···for(int i=0;i<=(int)s.size()-L;i++){···

  • C++ hash 滑动窗口 位运算
class Solution {
    const int L = 10;unordered_map<char, int> bin = {
    {
    'A', 0}, {
    'C', 1}, {
    'G', 2}, {
    'T', 3}};
public:vector<string> findRepeatedDnaSequences(string s) {
    vector<string> ans;int n = s.length();if (n <= L) {
    return ans;}int x = 0;for (int i = 0; i < L - 1; ++i) {
    x = (x << 2) | bin[s[i]];}                                     //初始化第一个10位整数unordered_map<int, int> cnt;for (int i = 0; i <= n - L; ++i) {
    x = ((x << 2) | bin[s[i + L - 1]]) & ((1 << (L * 2)) - 1);if (++cnt[x] == 2) {
    ans.push_back(s.substr(i, L));}}return ans;}
};