Deprecate BPatch_Set; add C++11x compatibility.
[dyninst.git] / dyninstAPI / src / parse-x86.C
1 /*
2  * See the dyninst/COPYRIGHT file for copyright information.
3  * 
4  * We provide the Paradyn Tools (below described as "Paradyn")
5  * on an AS IS basis, and do not warrant its validity or performance.
6  * We reserve the right to update, modify, or discontinue this
7  * software at any time.  We shall have no obligation to supply such
8  * updates or modifications or any other form of support to you.
9  * 
10  * By your use of Paradyn, you understand and agree that we (or any
11  * other person or entity with proprietary rights in Paradyn) are
12  * under no obligation to provide either maintenance services,
13  * update services, notices of latent defects, or correction of
14  * defects for Paradyn.
15  * 
16  * This library is free software; you can redistribute it and/or
17  * modify it under the terms of the GNU Lesser General Public
18  * License as published by the Free Software Foundation; either
19  * version 2.1 of the License, or (at your option) any later version.
20  * 
21  * This library is distributed in the hope that it will be useful,
22  * but WITHOUT ANY WARRANTY; without even the implied warranty of
23  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
24  * Lesser General Public License for more details.
25  * 
26  * You should have received a copy of the GNU Lesser General Public
27  * License along with this library; if not, write to the Free Software
28  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
29  */
30
31 /*
32  * inst-x86.C - x86 dependent functions and code generator
33  */
34
35 #include "common/h/Vector.h"
36 #include "common/h/Dictionary.h"
37 #include "common/h/Vector.h"
38 #include "parse-cfg.h"
39 #include "instPoint.h"
40 #include "mapped_object.h"
41 #include "image.h"
42 #include "debug.h"
43 #include <deque>
44 #include <set>
45 #include <algorithm>
46 //#include "arch.h"
47
48 #include "instructionAPI/h/Instruction.h"
49 #include "instructionAPI/h/InstructionDecoder.h"
50
51 using namespace Dyninst::ParseAPI;
52
53 bool parse_func::writesFPRs(unsigned level) {
54     
55     using namespace Dyninst::InstructionAPI;
56     // Oh, we should be parsed by now...
57     if (!parsed()) image_->analyzeIfNeeded();
58
59     if (containsFPRWrites_ == unknown) {
60         // Iterate down and find out...
61         // We know if we have callees because we can
62         // check the instPoints; no reason to iterate over.
63         // We also cache callee values here for speed.
64
65         if (level >= 3) {
66             return true; // Arbitrarily decided level 3 iteration.
67         }        
68         const Function::edgelist & calls = callEdges();
69         Function::edgelist::const_iterator cit = calls.begin();
70         for( ; cit != calls.end(); ++cit) {
71             image_edge * ce = static_cast<image_edge*>(*cit);
72             parse_func * ct = static_cast<parse_func*>(
73                 obj()->findFuncByEntry(region(),ce->trg()->start()));
74             if(ct && ct != this) {
75                 if (ct->writesFPRs(level+1)) {
76                     // One of our kids does... if we're top-level, cache it; in 
77                     // any case, return
78                     if (level == 0)
79                         containsFPRWrites_ = used;
80                     return true;
81                 }
82             }
83             else if(!ct){
84                 // Indirect call... oh, yeah. 
85                 if (level == 0)
86                     containsFPRWrites_ = used;
87                 return true;
88             }
89         }
90
91         // No kids contain writes. See if our code does.
92         static RegisterAST::Ptr st0(new RegisterAST(x86::st0));
93         static RegisterAST::Ptr st1(new RegisterAST(x86::st1));
94         static RegisterAST::Ptr st2(new RegisterAST(x86::st2));
95         static RegisterAST::Ptr st3(new RegisterAST(x86::st3));
96         static RegisterAST::Ptr st4(new RegisterAST(x86::st4));
97         static RegisterAST::Ptr st5(new RegisterAST(x86::st5));
98         static RegisterAST::Ptr st6(new RegisterAST(x86::st6));
99         static RegisterAST::Ptr st7(new RegisterAST(x86::st7));
100         static RegisterAST::Ptr xmm0(new RegisterAST(x86::xmm0));
101         static RegisterAST::Ptr xmm1(new RegisterAST(x86::xmm1));
102         static RegisterAST::Ptr xmm2(new RegisterAST(x86::xmm2));
103         static RegisterAST::Ptr xmm3(new RegisterAST(x86::xmm3));
104         static RegisterAST::Ptr xmm4(new RegisterAST(x86::xmm4));
105         static RegisterAST::Ptr xmm5(new RegisterAST(x86::xmm5));
106         static RegisterAST::Ptr xmm6(new RegisterAST(x86::xmm6));
107         static RegisterAST::Ptr xmm7(new RegisterAST(x86::xmm7));
108
109         vector<FuncExtent *>::const_iterator eit = extents().begin();
110         for( ; eit != extents().end(); ++eit) {
111             FuncExtent * fe = *eit;
112         
113             const unsigned char* buf = (const unsigned char*)
114                 isrc()->getPtrToInstruction(fe->start());
115             if(!buf) {
116                 parsing_printf("%s[%d]: failed to get insn ptr at %lx\n",
117                     FILE__, __LINE__,fe->start());
118                 // if the function cannot be parsed, it is only safe to 
119                 // assume that the FPRs are written -- mcnulty
120                 return true; 
121             }
122             InstructionDecoder d(buf,fe->end()-fe->start(),isrc()->getArch());
123             Instruction::Ptr i;
124
125             while(i = d.decode()) {
126                 if(i->isWritten(st0) ||
127                     i->isWritten(st1) ||
128                     i->isWritten(st2) ||
129                     i->isWritten(st3) ||
130                     i->isWritten(st4) ||
131                     i->isWritten(st5) ||
132                     i->isWritten(st6) ||
133                     i->isWritten(st7) ||
134                    i->isWritten(xmm0) ||
135                    i->isWritten(xmm1) ||
136                    i->isWritten(xmm2) ||
137                    i->isWritten(xmm3) ||
138                    i->isWritten(xmm4) ||
139                    i->isWritten(xmm5) ||
140                    i->isWritten(xmm6) ||
141                    i->isWritten(xmm7)
142                   )
143                 {
144                     containsFPRWrites_ = used;
145                     return true;
146                 }
147             }
148         }
149         // No kids do, and we don't. Impressive.
150         containsFPRWrites_ = unused;
151         return false;
152     }
153     else if (containsFPRWrites_ == used) {
154         return true;
155     }
156     else if (containsFPRWrites_ == unused) {
157         return false;
158     }
159
160     fprintf(stderr, "ERROR: function %s, containsFPRWrites_ is %d (illegal value!)\n", 
161             symTabName().c_str(), containsFPRWrites_);
162     
163     assert(0);
164     return false;
165 }
166
167 #if defined(os_linux) || defined(os_freebsd)
168
169 #include "binaryEdit.h"
170 #include "addressSpace.h"
171 #include "function.h"
172 #include "baseTramp.h"
173 #include "image.h"
174
175 using namespace Dyninst::SymtabAPI;
176
177 /*
178  * Static binary rewriting support
179  *
180  * Some of the following functions replace the standard ctor and dtor handlers
181  * in a binary. Currently, these operations only work with binaries linked with
182  * the GNU toolchain. However, it should be straightforward to extend these
183  * operations to other toolchains.
184  */
185 static const std::string LIBC_CTOR_HANDLER("__do_global_ctors_aux");
186 static const std::string LIBC_DTOR_HANDLER("__do_global_dtors_aux");
187 static const std::string DYNINST_CTOR_HANDLER("DYNINSTglobal_ctors_handler");
188 static const std::string DYNINST_CTOR_LIST("DYNINSTctors_addr");
189 static const std::string DYNINST_DTOR_HANDLER("DYNINSTglobal_dtors_handler");
190 static const std::string DYNINST_DTOR_LIST("DYNINSTdtors_addr");
191 static const std::string SYMTAB_CTOR_LIST_REL("__SYMTABAPI_CTOR_LIST__");
192 static const std::string SYMTAB_DTOR_LIST_REL("__SYMTABAPI_DTOR_LIST__");
193
194 static bool replaceHandler(func_instance *origHandler, func_instance *newHandler, 
195         int_symbol *newList, const std::string &listRelName)
196 {
197     // Add instrumentation to replace the function
198    // TODO: this should be a function replacement!
199    // And why the hell is it in parse-x86.C?
200    origHandler->proc()->replaceFunction(origHandler, newHandler);
201    //origHandler->proc()->relocate();
202     /* PatchAPI stuffs */
203     AddressSpace::patch(origHandler->proc());
204     /* End of PatchAPI stuffs */
205
206     
207     /* create the special relocation for the new list -- search the RT library for
208      * the symbol
209      */
210     Symbol *newListSym = const_cast<Symbol *>(newList->sym());
211     
212     std::vector<Region *> allRegions;
213     if( !newListSym->getSymtab()->getAllRegions(allRegions) ) {
214         return false;
215     }
216
217     bool success = false;
218     std::vector<Region *>::iterator reg_it;
219     for(reg_it = allRegions.begin(); reg_it != allRegions.end(); ++reg_it) {
220         std::vector<relocationEntry> &region_rels = (*reg_it)->getRelocations();
221         vector<relocationEntry>::iterator rel_it;
222         for( rel_it = region_rels.begin(); rel_it != region_rels.end(); ++rel_it) {
223             if( rel_it->getDynSym() == newListSym ) {
224                 relocationEntry *rel = &(*rel_it);
225                 rel->setName(listRelName);
226                 success = true;
227             }
228         }
229     }
230
231     return success;
232 }
233
234 bool BinaryEdit::doStaticBinarySpecialCases() {
235     Symtab *origBinary = mobj->parse_img()->getObject();
236
237     /* Special Case 1: Handling global constructor and destructor Regions
238      *
239      * Replace global ctors function with special ctors function,
240      * and create a special relocation for the ctors list used by the special
241      * ctors function
242      *
243      * Replace global dtors function with special dtors function,
244      * and create a special relocation for the dtors list used by the special
245      * dtors function
246      */
247
248     // First, find all the necessary symbol info.
249     func_instance *globalCtorHandler = mobj->findGlobalConstructorFunc(LIBC_CTOR_HANDLER);
250     if( !globalCtorHandler ) {
251         logLine("failed to find libc constructor handler\n");
252         return false;
253     }
254
255     func_instance *dyninstCtorHandler = findOnlyOneFunction(DYNINST_CTOR_HANDLER);
256     if( !dyninstCtorHandler ) {
257         logLine("failed to find Dyninst constructor handler\n");
258         return false;
259     }
260
261     func_instance *globalDtorHandler = mobj->findGlobalDestructorFunc(LIBC_DTOR_HANDLER);
262     if( !globalDtorHandler ) {
263         logLine("failed to find libc destructor handler\n");
264         return false;
265     }
266
267     func_instance *dyninstDtorHandler = findOnlyOneFunction(DYNINST_DTOR_HANDLER);
268     if( !dyninstDtorHandler ) {
269         logLine("failed to find Dyninst destructor handler\n");
270         return false;
271     }
272
273     int_symbol ctorsListInt;
274     int_symbol dtorsListInt;
275     bool ctorFound = false, dtorFound = false; 
276     std::vector<BinaryEdit *>::iterator rtlib_it;
277     for(rtlib_it = rtlib.begin(); rtlib_it != rtlib.end(); ++rtlib_it) {
278         if( (*rtlib_it)->getSymbolInfo(DYNINST_CTOR_LIST, ctorsListInt) ) {
279             ctorFound = true;
280             if( dtorFound ) break;
281         }
282
283         if( (*rtlib_it)->getSymbolInfo(DYNINST_DTOR_LIST, dtorsListInt) ) {
284             dtorFound = true;
285             if( ctorFound ) break;
286         }
287     }
288
289     if( !ctorFound ) {
290          logLine("failed to find ctors list symbol\n");
291          return false;
292     }
293
294     if( !dtorFound ) {
295         logLine("failed to find dtors list symbol\n");
296         return false;
297     }
298
299     /*
300      * Replace the libc ctor and dtor handlers with our special handlers
301      */
302     if( !replaceHandler(globalCtorHandler, dyninstCtorHandler,
303                 &ctorsListInt, SYMTAB_CTOR_LIST_REL) ) {
304         logLine("Failed to replace libc ctor handler with special handler");
305         return false;
306     }else{
307         inst_printf("%s[%d]: replaced ctor function %s with %s\n",
308                 FILE__, __LINE__, LIBC_CTOR_HANDLER.c_str(),
309                 DYNINST_CTOR_HANDLER.c_str());
310     }
311
312     if( !replaceHandler(globalDtorHandler, dyninstDtorHandler,
313                 &dtorsListInt, SYMTAB_DTOR_LIST_REL) ) {
314         logLine("Failed to replace libc dtor handler with special handler");
315         return false;
316     }else{
317         inst_printf("%s[%d]: replaced dtor function %s with %s\n",
318                 FILE__, __LINE__, LIBC_DTOR_HANDLER.c_str(),
319                 DYNINST_DTOR_HANDLER.c_str());
320     }
321
322     /*
323      * Special Case 2: Issue a warning if attempting to link pthreads into a binary
324      * that originally did not support it or into a binary that is stripped. This
325      * scenario is not supported with the initial release of the binary rewriter for
326      * static binaries.
327      *
328      * The other side of the coin, if working with a binary that does have pthreads
329      * support, pthreads needs to be loaded.
330      */
331     bool isMTCapable = isMultiThreadCapable();
332     bool foundPthreads = false;
333
334     vector<Archive *> libs;
335     vector<Archive *>::iterator libIter;
336     if( origBinary->getLinkingResources(libs) ) {
337         for(libIter = libs.begin(); libIter != libs.end(); ++libIter) {
338             if( (*libIter)->name().find("libpthread") != std::string::npos ||
339                 (*libIter)->name().find("libthr") != std::string::npos ) 
340             {
341                 foundPthreads = true;
342                 break;
343             }
344         }
345     }
346
347     if( foundPthreads && (!isMTCapable || origBinary->isStripped()) ) {
348         fprintf(stderr,
349             "\nWARNING: the pthreads library has been loaded and\n"
350             "the original binary is not multithread-capable or\n"
351             "it is stripped. Currently, the combination of these two\n"
352             "scenarios is unsupported and unexpected behavior may occur.\n");
353     }else if( !foundPthreads && isMTCapable ) {
354         fprintf(stderr,
355             "\nWARNING: the pthreads library has not been loaded and\n"
356             "the original binary is multithread-capable. Unexpected\n"
357             "behavior may occur because some pthreads routines are\n"
358             "unavailable in the original binary\n");
359     }
360
361     /* 
362      * Special Case 3:
363      * The RT library has some dependencies -- Symtab always needs to know
364      * about these dependencies. So if the dependencies haven't already been
365      * loaded, load them.
366      */
367     bool loadLibc = true;
368
369     for(libIter = libs.begin(); libIter != libs.end(); ++libIter) {
370         if( (*libIter)->name().find("libc.a") != std::string::npos ) {
371             loadLibc = false;
372         }
373     }
374
375     if( loadLibc ) {
376        std::map<std::string, BinaryEdit *> res;
377        openResolvedLibraryName("libc.a", res);
378        std::map<std::string, BinaryEdit *>::iterator bedit_it;
379        for(bedit_it = res.begin(); bedit_it != res.end(); ++bedit_it) {
380           if( bedit_it->second == NULL ) {
381              logLine("Failed to load DyninstAPI_RT library dependency (libc.a)");
382              return false;
383           }
384        }
385     }
386     
387     return true;
388 }
389
390 func_instance *mapped_object::findGlobalConstructorFunc(const std::string &ctorHandler) {
391     using namespace Dyninst::InstructionAPI;
392
393     const pdvector<func_instance *> *funcs = findFuncVectorByMangled(ctorHandler);
394     if( funcs != NULL ) {
395         return funcs->at(0);
396     }
397
398     /* If the symbol isn't found, try looking for it in a call instruction in
399      * the .init section
400      *
401      * On Linux, the instruction sequence is:
402      * ...
403      * some instructions
404      * ...
405      * call call_gmon_start
406      * call frame_dummy
407      * call ctor_handler
408      *
409      * On FreeBSD, the instruction sequence is:
410      * ...
411      * some instructions
412      * ...
413      * call frame_dummy
414      * call ctor_handler
415      */
416     Symtab *linkedFile = parse_img()->getObject();
417     Region *initRegion = NULL;
418     if( !linkedFile->findRegion(initRegion, ".init") ) {
419         vector<Dyninst::SymtabAPI::Function *> symFuncs;
420         if( linkedFile->findFunctionsByName(symFuncs, "_init") ) {
421             initRegion = symFuncs[0]->getRegion();
422         }else{
423             logLine("failed to locate .init Region or _init function\n");
424             return NULL;
425         }
426     }
427
428     if( initRegion == NULL ) {
429         logLine("failed to locate .init Region or _init function\n");
430         return NULL;
431     }
432
433     // Search for last of a fixed number of calls
434 #if defined(os_freebsd)
435     const unsigned CTOR_NUM_CALLS = 2;
436 #else
437     const unsigned CTOR_NUM_CALLS = 3;
438 #endif
439
440     Address ctorAddress = 0;
441     unsigned bytesSeen = 0;
442     unsigned numCalls = 0;
443     const unsigned char *p = reinterpret_cast<const unsigned char *>(initRegion->getPtrToRawData());
444
445     InstructionDecoder decoder(p, initRegion->getDiskSize(),
446         parse_img()->codeObject()->cs()->getArch()); 
447
448     Instruction::Ptr curInsn = decoder.decode();
449     while(numCalls < CTOR_NUM_CALLS && curInsn && curInsn->isValid() &&
450           bytesSeen < initRegion->getDiskSize()) 
451     {
452         InsnCategory category = curInsn->getCategory();
453         if( category == c_CallInsn ) {
454             numCalls++;
455         }
456         if( numCalls < CTOR_NUM_CALLS ) {
457             bytesSeen += curInsn->size();
458             curInsn = decoder.decode();
459         }
460     }
461
462     if( numCalls != CTOR_NUM_CALLS ) {
463         logLine("heuristic for finding global constructor function failed\n");
464         return NULL;
465     }
466
467     Address callAddress = initRegion->getMemOffset() + bytesSeen;
468
469     RegisterAST thePC = RegisterAST(
470         Dyninst::MachRegister::getPC(parse_img()->codeObject()->cs()->getArch()));
471
472     Expression::Ptr callTarget = curInsn->getControlFlowTarget();
473     if( !callTarget.get() ) {
474         logLine("failed to find global constructor function\n");
475         return NULL;
476     }
477     callTarget->bind(&thePC, Result(s64, callAddress));
478
479     Result actualTarget = callTarget->eval();
480     if( actualTarget.defined ) {
481         ctorAddress = actualTarget.convert<Address>();
482     }else{
483         logLine("failed to find global constructor function\n");
484         return NULL;
485     }
486
487     if( !ctorAddress || !parse_img()->codeObject()->cs()->isValidAddress(ctorAddress) ) {
488         logLine("invalid address for global constructor function\n");
489         return NULL;
490     }
491
492     func_instance *ret;
493     if( (ret = findFuncByEntry(ctorAddress)) == NULL ) {
494         logLine("unable to create representation for global constructor function\n");
495         return NULL;
496     }
497
498     inst_printf("%s[%d]: set global constructor address to 0x%lx\n", FILE__, __LINE__,
499             ctorAddress);
500
501     return ret;
502 }
503
504 func_instance *mapped_object::findGlobalDestructorFunc(const std::string &dtorHandler) {
505     using namespace Dyninst::InstructionAPI;
506
507     const pdvector<func_instance *> *funcs = findFuncVectorByMangled(dtorHandler);
508     if( funcs != NULL ) {
509         return funcs->at(0);
510     }
511
512     /*
513      * If the symbol isn't found, try looking for it in a call in the
514      * .fini section. It is the last call in .fini.
515      *
516      * The pattern is:
517      *
518      * _fini:
519      *
520      * ... some code ...
521      *
522      * call dtor_handler
523      *
524      * ... prologue ...
525      */
526     Symtab *linkedFile = parse_img()->getObject();
527     Region *finiRegion = NULL;
528     if( !linkedFile->findRegion(finiRegion, ".fini") ) {
529         vector<Dyninst::SymtabAPI::Function *> symFuncs;
530         if( linkedFile->findFunctionsByName(symFuncs, "_fini") ) {
531             finiRegion = symFuncs[0]->getRegion();
532         }else{
533             logLine("failed to locate .fini Region or _fini function\n");
534             return NULL;
535         }
536     }
537
538     if( finiRegion == NULL ) {
539         logLine("failed to locate .fini Region or _fini function\n");
540         return NULL;
541     }
542
543     // Search for last call in the function
544     Address dtorAddress = 0;
545     unsigned bytesSeen = 0;
546     const unsigned char *p = reinterpret_cast<const unsigned char *>(finiRegion->getPtrToRawData());
547
548     InstructionDecoder decoder(p, finiRegion->getDiskSize(),
549         parse_img()->codeObject()->cs()->getArch());
550
551     Instruction::Ptr lastCall;
552     Instruction::Ptr curInsn = decoder.decode();
553
554     while(curInsn && curInsn->isValid() &&
555           bytesSeen < finiRegion->getDiskSize()) 
556     {
557         InsnCategory category = curInsn->getCategory();
558         if( category == c_CallInsn ) {
559             lastCall = curInsn;
560             break;
561         }
562
563         bytesSeen += curInsn->size();
564         curInsn = decoder.decode();
565     }
566
567     if( !lastCall.get() || !lastCall->isValid() ) {
568         logLine("heuristic for finding global destructor function failed\n");
569         return NULL;
570     }
571
572     Address callAddress = finiRegion->getMemOffset() + bytesSeen;
573
574     RegisterAST thePC = RegisterAST(
575         Dyninst::MachRegister::getPC(parse_img()->codeObject()->cs()->getArch()));
576
577     Expression::Ptr callTarget = lastCall->getControlFlowTarget();
578     if( !callTarget.get() ) {
579         logLine("failed to find global destructor function\n");
580         return NULL;
581     }
582     callTarget->bind(&thePC, Result(s64, callAddress));
583
584     Result actualTarget = callTarget->eval();
585     if( actualTarget.defined ) {
586         dtorAddress = actualTarget.convert<Address>();
587     }else{
588         logLine("failed to find global destructor function\n");
589         return NULL;
590     }
591
592     if( !dtorAddress || !parse_img()->codeObject()->cs()->isValidAddress(dtorAddress) ) {
593         logLine("invalid address for global destructor function\n");
594         return NULL;
595     }
596
597     // A targ stub should have been created at the address
598     func_instance *ret = NULL;
599     if( (ret = findFuncByEntry(dtorAddress)) == NULL ) {
600         logLine("unable to find global destructor function\n");
601         return NULL;
602     }
603     inst_printf("%s[%d]: set global destructor address to 0x%lx\n", FILE__, __LINE__,
604             dtorAddress);
605
606     return ret;
607 }
608
609 #endif