lc.187 重复的DNA序列
所有 DNA 都由一系列缩写为 ‘A’,‘C’,‘G’ 和 ‘T’ 的核苷酸组成,例如:“ACGAATTCCG”。在研究 DNA 时,识别 DNA 中的重复序列有时会对研究非常有帮助。
编写一个函数来找出所有目标子串,目标子串的长度为 10,且在 DNA 字符串 s 中出现次数超过一次。
- C++ hash
class Solution {
const int L=10;
public:vector<string> findRepeatedDnaSequences(string s) {
vector<string> ans;unordered_map<string, int> cnt;int n=s.size();for(int i=0;i<=n-L;i++){
string sub = s.substr(i,L);if(++cnt[sub]==2){
ans.push_back(sub);}} return ans;}
};
注意到:···int n=s.size(); for(int i=0;i<=n-L;i++){ ···
写为:···for(int i=0;i<=s.size()-L;i++){ ···
测试用例:“AA”
报错:terminate called after throwing an instance of ‘std::out_of_range’
what(): basic_string::substr: __pos (which is 3) > this->size() (which is 2)
错误来自于。.size() .length() 的返回值,类型为string::size_name 是 unsigned int ,需要说明。原代码可以写为:···for(int i=0;i<=(int)s.size()-L;i++){···
- C++ hash 滑动窗口 位运算
class Solution {
const int L = 10;unordered_map<char, int> bin = {
{
'A', 0}, {
'C', 1}, {
'G', 2}, {
'T', 3}};
public:vector<string> findRepeatedDnaSequences(string s) {
vector<string> ans;int n = s.length();if (n <= L) {
return ans;}int x = 0;for (int i = 0; i < L - 1; ++i) {
x = (x << 2) | bin[s[i]];} //初始化第一个10位整数unordered_map<int, int> cnt;for (int i = 0; i <= n - L; ++i) {
x = ((x << 2) | bin[s[i + L - 1]]) & ((1 << (L * 2)) - 1);if (++cnt[x] == 2) {
ans.push_back(s.substr(i, L));}}return ans;}
};